Schließende Statistik: Grundlegende Methoden GERMAN

U. Genschel • C. Becker Schließende Statistik Grundlegende Methoden 13 Ulrike Genschel Fachbereich Statistik Univer...

Author: Ulrike Genschel | Claudia Becker

164 downloads 1434 Views 2MB Size Report

This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form

DOWNLOAD PDF

U. Genschel • C. Becker

Schließende Statistik Grundlegende Methoden

13

Ulrike Genschel Fachbereich Statistik Universität Dortmund Vogelpothsweg 87 44221 Dortmund e-mail: [email protected]

Claudia Becker Fakultät Wirtschaftswissenschaften Martin-Luther-Universität Halle-Wittenberg Große Steinstraße 73 06099 Halle e-mail: [email protected] Bibliografische Information Der Deutschen Bibliothek Die Deutsche B bliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über abrufbar.

Mathematics Subject Classification (2000): 62-01

ISBN 3-540-21838-6 Springer Berlin Heidelberg New York

Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9. September 1965 in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes. Springer ist ein Unternehmen von Springer Science+Business Media springer.de

© Springer-Verlag Berlin Heidelberg 2005 Printed in Germany Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, daß solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Innentypografie: deblik, Berlin Einbandgestaltung: design & production, Heidelberg Datenerstellung durch den Autor unter Verwendung eines Springer LaTEX-Makropakets Herstellung: LE-TEX Jelonek, Schmidt & Vöckler GbR, Leipzig Gedruckt auf säurefreiem Papier 40/3142YL - 5 4 3 2 1 0

Vorwort

v

Vorwort EMILeA-stat (www.emilea.de) ist eine interaktive Lehr- und Lernumgebung der angewandten Statistik, deren Entwicklung vom Bundesministerium f¨ ur Bildung und Forschung im Rahmen des Projekts Neue Medien in der Bil” dung“ gef¨ ordert wurde. Unter Federf¨ uhrung von Prof. Dr. Ursula Gather entstanden im Zeitraum von Juni 2001 bis M¨ arz 2004 Inhalte zur Schätzund Testtheorie (siehe auch http://emilea-stat.uni-oldenburg.de/), die die Grundlage f¨ ur dieses Buch sind. Schließende Statistik. Grundlegende Methoden gibt eine Einf¨ uhrung in die Verfahren der Sch¨ atz-und Testtheorie, die sich an Studierende verschiedenster Fachrichtungen wendet. Das Buch spricht zwei Gruppen von Personen an. F¨ ur Studierende, die im Rahmen des Grundstudiums etwa der Wirtschaftsoder Sozialwissenschaften, Medizin, Biologie oder Psychologie eine grundlegende Statistik-Vorlesung besuchen, sind insbesondere der erste Teil der Kapitel 3 und 4 sowie Kapitel 5 gedacht. In diesen Teilen des Buches werden grundlegende Konzepte der Sch¨ atz- und Testtheorie als zentrale Bereiche der schließenden Statistik erl¨ autert. Mit zahlreichen Beispielen wird die Anwendung der vermittelten Methoden illustriert. Mit dem zweiten Teil der Kapitel 3 und 4 wenden wir uns vor allem an Studierende der Fachrichtung Statistik bzw. Mathematik mit Nebenfach Statistik, sowie an Studierende anderer Fachrichtungen, die das Fach Statistik im Rahmen des Hauptstudiums vertiefen. In diesen Kapiteln werden die Grundlagen zur Sch¨ atz- und Testtheorie ausgebaut und vertieft. Das Buch kann sowohl begleitend zu Vorlesungen eingesetzt werden als auch als Nachschlagewerk dienen. F¨ ur das Verständnis des Buches setzen wir gewisse Kenntnisse voraus. Auf Methoden und Begriffe der deskriptiven Statistik gehen wir nicht ein. Die f¨ ur das Verst¨ andnis des Buches benötigten Voraussetzungen werden als komprimierter Abriss in Kapitel 2 dargestellt. Grundkenntisse der Wahrscheinlichkeitstheorie mit den Konzepten des Wahrscheinlichkeitsbegriffs, des Zufallsexperiments und der Wahrscheinlichkeit von Ereignissen setzen wir dabei voraus. Hierzu sei auch auf einschl¨ agige Lehrb¨ ucher verwiesen, beispielsweise Dehling, Haupt (2003) oder Mosler, Schmid (2004). Die Inhalte der weiteren Kapitel sind jedoch so gestaltet, dass sie auch mit einem subjektiven, nicht formalen Verständnis von Wahrscheinlichkeiten zu erarbeiten sind. Unser Buch fokussiert auf Elemente der Sch¨ atz- und Testtheorie, deren Konzepte sehr ausf¨ uhrlich besprochen werden. Es geht hier prim¨ ar um die grundlegenden Methoden der schließenden Statistik, nicht um Stochastik. F¨ ur solche Konzepte verweisen wir auf andere Literatur sowie auf die Inhalte von

vi

Vorwort

EMILeA-stat. Auch haben wir uns entschlossen, auf die sonst u ¨blichen umfangreichen Verteilungs- und Quantiltabellen, die sich in der Regel in Lehrb¨ uchern zu diesem Thema finden, zu verzichten. Durch die heutzutage zum Standard gewordenen Angebote von statistischer Software und Tabellenkalkulationsprogrammen sind derartige Tabellen verzichtbar geworden. An das Projekt EMILeA-stat angegliedert ist als statistische Software das Programmpaket R, ein kostenloses Open Source Produkt (siehe http://www.Rproject.org). Wo die Berechnung von Quantilen etwa zur Durchf¨ uhrung eines statistischen Tests notwendig ist, zeigen wir beispielhaft, wie die entsprechenden Rechenvorschriften in R aussehen. Angelehnt an die in der internetbasierten Lehr- und Lernumgebung EMILeAstat zur besseren Orientierung gesetzten Links erscheinen auch in unseren Texten Verweise auf die Stellen, an denen Begriffe bereits einmal erklärt wurden. Diese Verweise 51 sind durch eine Schriftumstellung und das hier gezeigte Symbol dargestellt, wobei jedem Verweis die zugehörige Seitenzahl nachgestellt ist. Wir verweisen auch auf die Inhalte von EMILeA-stat, wobei das Symbol e zur Anwendung kommt. Schließende Statistik. Grundlegende Methoden erscheint in der Reihe EMILeAstat: Medienreihe zur angewandten Statistik. Dieses Buch ist die Fortsetzung des Bandes Beschreibende Statistik. Grundlegende Methoden von M. Burkschat, E. Cramer und U. Kamps (Springer, 2003, ISBN 3-540-03239-8). Der Stil des Buches ist daher an den des Vorg¨ angerbandes angelehnt, um den f¨ ur die Leser vertrauten Stil beizubehalten. M¨ oglich wurde dies durch die Bereitstellung der Style-Files und die Unterst¨ utzung bei der notwendigen Farbadaption der Grafiken durch die Arbeitsgruppe in Oldenburg. Daf¨ ur unseren herzlichen Dank! Danken möchten wir vor allem auch Herrn Udo Kamps und Frau Ursula Gather, die den Anstoß zu diesem Buch gaben, sowie Herrn Clemens Heine vom Springer-Verlag, der durch seine Unterst¨ utzung die Entstehung dieses Buches ermöglicht hat. Dieses Buch wäre ohne die Unterst¨ utzung von Kolleginnen und Kollegen des Lehrstuhls Mathematische Statistik und Industrielle Anwendungen des Fachbereichs Statistik der Universität Dortmund nicht m¨ oglich gewesen. Wir möchten besonders Anita Busch, Thomas Fender, Roland Fried, Sonja Kuhnt, Vivian Lanius, Christoph Sch¨ urmann sowie Thorsten Ziebach danken f¨ ur ihre zahl- und hilfreichen Beitr¨ age, insbesondere bei der kreativen Entwicklung interessanter Beispiele, und f¨ ur ihre Korrekturvorschl¨ age zu den fr¨ uhen Versionen des Buches. F¨ ur die engagierte Unterst¨ utzung bei der Umsetzung unserer Ideen danken wir den studentischen Mitarbeitern des Lehrstuhls. Der

Vorwort

vii

Kampf mit unvertr¨ aglichen PostScript-Formaten konnte dank Uwe Ligges und Matthias Schneider gewonnen werden. F¨ ur das sorgf¨ altige Durchlesen des Manuskriptes und die damit verbundenen Anregungen und Korrekturen geht unser herzlicher Dank an Martina Erdbr¨ ugge, Dan Nordman und Sebastian Paris Scholz. Dortmund, Halle Juni 2004

Ulrike Genschel, Claudia Becker

Inhaltsverzeichnis

ix

Inhaltsverzeichnis 1

Einleitung

3

2

¨ Uberblick u ¨ber die ben¨ otigten Grundlagen

9

2.1

Grundgesamtheit und Stichprobe .............................

9

2.2

Zufallsvariable und Merkmal...................................

10

2.3

Verteilung und Empirische Verteilung........................

12

2.4

Dichte und Häufigkeitsverteilung .............................

14

2.5

Erwartungswert und Varianz ...................................

24

2.6

Abhängigkeit ......................................................

31

2.7

Gängige Verteilungen und ihre Erwartungswerte und Varianzen .............................................................

37

3

Philosophie des Sch¨ atzens

51

3.1

51

3.2

Auf den Punkt gebracht“oder Grenzen setzen“ ......... ” ” Grundlagen zur Punktschätzung ..............................

3.3

Beispiele ...........................................................

59

3.4

Was ist ein guter Punktschätzer?.............................

61

Erwartungstreue und asymptotische Erwartungstreue

63

Der mittlere quadratische Fehler (MSE) ................

71

Effizienz .......................................................

76

Konsistenz ....................................................

86

Asymptotische Normalverteilung .........................

92

Weiterf¨ uhrende Konzepte: Suffizienz, Vollständigkeit und Exponentialfamilien....................................

93

3.5

54

Wie kommt man zu einer Schätzfunktion? ................. 106 Momentenmethode.......................................... 107 Maximum-Likelihood-Methode............................ 115 Methode der kleinsten Quadrate ......................... 134

x

Inhaltsverzeichnis

Weitere Schätzverfahren ................................... 146 3.6

Intervallschätzung................................................ 147 ¨ Ubersicht u ¨ber Konfidenzintervalle in verschiedenen Situationen ................................................... 151 Konfidenzintervalle bei Normalverteilung ............... 151 Konfidenzintervalle bei Binomialverteilung ............. 156 Approximative Konfidenzintervalle bei beliebiger Verteilung ......................................................... 159 Konfidenzintervalle im linearen Regressionsmodell .... 162

4

Philosophie des Testens

4.1 4.2

Unschuldig bis zum Beweis des Gegenteils“ ............... 171 ” Beispiele ........................................................... 173

4.3

Grundlagen des Testens ........................................ 174

171

Was ist ein guter Test?..................................... 193 G¨ ute............................................................ 193 Beste Tests ................................................... 198 4.4

Wie kommt man zu einem Test? ............................. 205 Zusammenhang zwischen Konfidenzintervall und Test 205 Likelihood-Quotienten-Test ................................ 210

5

Verschiedene Situationen – verschiedene Tests

217

5.1

Situationen ........................................................ 217

5.2

Parametrische Tests ............................................. 222 Der Gauß-Test ............................................... 222 Der t-Test..................................................... 236 Der F-Test .................................................... 260 Der exakte Binomialtest.................................... 278

Inhaltsverzeichnis

xi

Der approximative Binomialtest .......................... 285 Der χ2 -Anpassungstest..................................... 290 Der χ2 -Unabhängigkeitstest............................... 300 Tests im linearen Regressionsmodell ..................... 309 5.3

Nichtparametrische Tests....................................... 314 Der Vorzeichen-Test ........................................ 317 Der Wilcoxon-Rangsummen-Test ......................... 324 Der Kruskal-Wallis-Test .................................... 335

Literaturverzeichnis ........................................... 348

Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 349

Kapitel 1 Einleitung

1

1

1

Einleitung

3

1. Einleitung

3

1 Einleitung Die Analyse empirischer Daten ist f¨ ur die Gewinnung neuer Erkenntnisse in der Wissenschaft unerl¨ asslich. In wissenschaftlichen Versuchen und Studien werden Daten mit dem Ziel gesammelt, die darin enthaltene Information zu extrahieren. Unter Daten wird dabei eine Stichprobe aus n Beobachtungen verstanden, die f¨ ur eine gewisse Grundgesamtheit repr¨ asentativ ist. Basierend auf der Analyse und Interpretation ausreichenden Datenmaterials ist es somit möglich, anhand einer Stichprobe auf die Grundgesamtheit zu schließen. Dieses Vorgehen wird als induktive Statistik bezeichnet. Im Gegensatz zur beschreibenden Statistik sind die auf diese Weise gewonnenen Erkenntnisse mit einer gewissen Unsicherheit behaftet, die aus der Verallgemeinerung der Information resultiert. Diese Unsicherheit l¨ asst sich mit Hilfe von Wahrscheinlichkeiten modellieren und wird auf diese Weise kontrollierbar. Induktive Methoden sind insbesondere erforderlich, wenn die Untersuchung aller in einer Grundgesamtheit enthaltenen Elemente bez¨ uglich eines oder mehrerer Merkmale nicht möglich ist. Dies ist der Fall, wenn die Grundgesamtheit zu groß ist oder die Untersuchungseinheiten durch die Datenerhebung zerst¨ ort werden, wie die folgenden Beispiele illustrieren: In einem schwer zugänglichen Gebiet des Regenwaldes in FranzösischGuayana haben Forscher 1999 eine bislang unbekannte Art von Gottesanbeterinnen entdeckt. Die Forscher sind an ph¨ anotypischen Merkmalen wie Körperl¨ ange, Gewicht, Farbe sowie Geschlechterverteilung dieser Insekten interessiert. Eine Untersuchung aller lebenden Exemplare, eine Totalerhebung der Population, ist nicht realisierbar. In der Qualit¨ atskontrolle von industriell gefertigten Produkten kann die Qualit¨ at h¨ aufig nur u ¨berpr¨ uft werden, wenn dabei die Zerstörung des Produktes in Kauf genommen wird. Die Ermittlung der Waschkraft eines Waschmittels oder die Reißfestigkeit von Kletterseilen sind Beispiele daf¨ ur. Fernsehsender entscheiden u ¨ ber die Fortsetzung von Sendungen anhand von Einschaltquoten. Bringt eine Sendung nicht die gew¨ unschte Einschaltquote, so wird sie abgesetzt. Dazu werden die Quoten basierend auf einer repr¨ asentativen Gruppe von wenigen tausend Zuschauern bestimmt. Alle Zuschauer einzubeziehen, w¨ urde einen zu hohen Aufwand bedeuten. Aus diesen Beispielen wird ebenfalls ersichtlich, dass die interessierende Information von verschiedenem Typ sein kann. Man unterscheidet in der indukti-

4

1. Einleitung

ven Statistik zwischen Methoden des Sch¨ atzens und des Testens. W¨ ahrend die beim Schätzen erhaltene Information in der Regel in numerischer Form vorliegt, zum Beispiel die erwartete Dauer in Stunden, bis ein Seil bei Belastung reißt, liegt beim Testen die Information immer in Form einer Entscheidung zwischen zwei sich widersprechenden Thesen oder Vermutungen vor. So erh¨ alt man beispielweise die Information, ob die Einschaltquote einer neuen Fernsehshow h¨ oher als 10% oder niedriger als 10% ist. Innerhalb des Sch¨ atzens wird zwischen Punktsch¨ atzung und Intervallsch¨ atzung unterschieden. W¨ ahrend bei der Punktsch¨ atzung immer ein einzelner Wert als Sch¨ atzung angegeben wird, liefert eine Intervallsch¨ atzung, wie aus der Bezeichnung schon hervor geht, ein ganzes Intervall von Werten. Das Intervall ist mit einer so genannten Vertrauenswahrscheinlichkeit verkn¨ upft, die angibt, mit welcher Wahrscheinlichkeit das Intervall die gesuchte Gr¨ oße u ¨berdeckt. Die Bezeichnung Konfidenzintervall leitet sich hieraus ab (Konfidenz=Vertrauen). Zur weiteren Veranschaulichung dieser Ideen dienen die folgenden Beispiele. Beispiel Klinischer Versuch Einen umfangreicheren Ausblick auf die M¨ oglichkeiten, die statistische Verfahren aus der Sch¨ atz- und Testtheorie bieten, gibt folgendes Beispiel:

In einem klinischen Versuch soll die Wirksamkeit eines Medikaments gegen eine Erkrankung erprobt werden. Dazu wird in einer Stichprobe von n Patienten bei jedem dieser Patienten festgestellt, ob er am Ende der Behandlung geheilt ist oder nicht. Das Ergebnis des Versuchs wird dargestellt durch die Angabe des Heilungserfolgs in der Form i-ter Patient geheilt ist 1 xi = falls f¨ ur i = 1, . . . , n. 0 i-ter Patient nicht geheilt ist Die wahre Heilungswahrscheinlichkeit bei Anwendung des Medikaments ist eine Zahl p ∈ [0; 1]. Sie bezieht sich auf die Menge aller an dieser Erkrankung leidenden Patienten (auch auf zuk¨ unftige), nicht nur auf die, die an der Studie teilnehmen. Aus den erhaltenen Beobachtungen der n Patienten kann diese Wahrscheinlichkeit gesch¨ atzt werden. Je besser eine solche Studie geplant und angelegt ist und je mehr Patienten teilnehmen, desto besser wird die Schätzung der wahren Heilungswahrscheinlichkeit entsprechen. Bei dieser Problemstellung ist es sinnvoll anzunehmen, dass die Patienten mit Wahrscheinlichkeit p geheilt und mit Wahrscheinlichkeit 1 − p nicht geheilt werden. Diese Annahme lässt sich durch eine Bernoulliverteilung 38 beschreiben.

1. Einleitung

Der Parameter, der eine Bernoulliverteilung eindeutig beschreibt, ist die so genannte Erfolgswahrscheinlichkeit p ∈ [0; 1], die im Beispiel der Medikamentenstudie der Heilungswahrscheinlichkeit entspricht. In dieser Studie kann die Analyse von Daten unter den folgenden drei Aspekten erfolgen: 1. Basierend auf den Heilungsergebnissen der n Patienten in der Studie soll auf den wahren Parameter, die Heilungswahrscheinlichkeit in der Grundgesamtheit aller Erkrankten, geschlossen werden. Das heißt, es soll eine Schätzung f¨ ur den Parameter p ∈ [0; 1] der Bernoulliverteilung angegeben werden. Dies wird als Punktsch¨ atzproblem bezeichnet. 2. Da man zur Sch¨ atzung von p nicht alle Erkrankten heran ziehen kann, ist die Angabe eines geschätzten Werts f¨ ur p mit einer gewissen Unsicherheit verbunden. Zus¨ atzlich zum Punktschätzer wird daher h¨ aufig ein Intervall angegeben, das diese Unsicherheit ber¨ ucksichtigt. Das Intervall wird so bestimmt, dass der wahre Wert (in diesem Fall die Heilungswahrscheinlichkeit) mit einer vorgegebenen Wahrscheinlichkeit (zum Beispiel 95% oder 99%) in diesem Intervall enthalten ist. Der untere Wert des Konfidenzintervalls wird mit pu , der obere mit po bezeichnet. Basierend auf den Beobachtungen an den Patienten sollen dann pu und po so bestimmt werden, dass das Intervall [pu ; po ] den wahren Wert von p mit der vorgegebenen Wahrscheinlichkeit u ¨berdeckt. Dabei ist pu < po . Ein solches Verfahren wird als Intervallsch¨ atzverfahren bezeichnet und das so erhaltene Intervall als Konfidenzintervall. 3. Ein a¨lteres Medikament gegen die gleiche Erkrankung hat eine Heilungswahrscheinlichkeit von 12 . Ist das neue Medikament besser? Das heißt, man m¨ ochte wissen, ob der Parameter p gr¨ oßer als 12 ist. Die Entscheidung ist wiederum auf Basis der beobachteten Daten f¨ ur die Patienten zu treffen. Dabei soll die getroffene Aussage, die mit einer Unsicherheit behaftet ist, h¨ ochstens mit einer festgelegten Wahrscheinlichkeit falsch sein. Dies stellt ein Testproblem dar.

5

6

1. Einleitung

Beispiel Kletterseile Eine Kletterseilfirma pr¨ uft, ob ihre Seile geeignet sind, St¨ urze von Kletterern auszuhalten. Dazu werden extreme St¨ urze mit Gewichten von 150 kg aus 30 m H¨ ohe nachgeahmt. Reißen Fasern des Seils, ist die Pr¨ ufung ¨ nicht bestanden. Ubersteht das Seil den Test ohne Risse, h¨ atten auch Kletterer einen Sturz u ¨berstanden. Das Ergebnis des Versuchs kann in der folgenden Form dargestellt werden i-tes Seil gerissen ist 1 xi = falls f¨ ur i = 1, . . . , n. 0 i-tes Seil nicht gerissen ist

Durch die Untersuchung einer Zufallsstichprobe von n Seilen aus der Produktion soll nun herausgefunden werden, wie groß die Wahrscheinlichkeit p ist, dass ein beliebiges Seil aus der gesamten produzierten Charge unter der Beanspruchung reißt. Ziel ist also wieder die Sch¨ atzung des Parameters p einer Bernoulliverteilung, und somit handelt es sich hierbei wieder um ein Punktsch¨ atzproblem. Es gibt viele Unsicherheitsquellen, die die G¨ ute der Sch¨ atzung eines Parameters beeinflussen. Zu den h¨ aufigsten zählen die Qualit¨ at der Stichprobe Ist der Stichprobenumfang ausreichend groß? Ist die Stichprobe repr¨ asentativ f¨ ur die zu untersuchende Grundgesamtheit? Im Beispiel der Kletterseilfirma: Ist die Stichprobe aus der Menge der Seile groß genug, um eine ¨ Aussage u ¨ber die Grundgesamtheit zu machen? Eine Uberpr¨ ufung von nur zwei Seilen auf deren Reißfestigkeit liefert sicherlich unzuverl¨ assige Aussagen. Qualit¨ at der Modellannahmen Sind die idealisierenden Annahmen gerechtfertigt, die f¨ ur das statistische Modell gemacht werden? K¨ onnen die Daten durch dieses Modell ad¨ aquat beschrieben werden? Ist es beispielsweise realistisch, dass jeder erkrankte Patient die gleiche Heilungschance bei Einnahme eines bestimmten Medikamentes besitzt? Wahrscheinlich sollte bei einer solchen Studie auch ein m¨ oglicher Einfluss von Alter oder Geschlecht ber¨ ucksichtigt werden. Ebenso sollte man sich fragen, ob die Annahme, dass alle Kletterseile mit derselben Wahrscheinlichkeit reißen, realistisch ist.

Kapitel 2 ¨ Uberblick u ¨ber die ben¨ otigten Grundlagen

2

2

2

¨ Uberblick u ¨ber die ben¨ otigten Grundlagen

9

2.1

Grundgesamtheit und Stichprobe .............................

9

2.2

Zufallsvariable und Merkmal...................................

10

2.3

Verteilung und Empirische Verteilung........................

12

2.4

Dichte und Häufigkeitsverteilung .............................

14

2.5

Erwartungswert und Varianz ...................................

24

2.6

Abhängigkeit ......................................................

31

2.7

Gängige Verteilungen und ihre Erwartungswerte und Varianzen .............................................................

37

2.1

Grundgesamtheit und Stichprobe

9

¨ 2 Uberblick u ¨ber die ben¨ otigten Grundlagen 2.1 Grundgesamtheit und Stichprobe

2.1

Mit Methoden der induktiven Statistik sollen Aussagen u ¨ber Mengen von Personen oder Objekten getroffen werden. Wie bereits aus der deskriptiven Statistik bekannt, bezeichnet man solche Mengen oder Massen als Grundgesamtheiten (vergleiche auch Lehrb¨ ucher zur deskriptiven Statistik, etwa Burkschat et al. (2003), Mosler, Schmid (2003) oder in Teilen Fahrmeir et al. (2003)). Die Mehrzahl statistischer Analysen st¨ utzt sich bei ihren Aussagen jedoch nicht auf die komplette Grundgesamtheit, sondern w¨ ahlt nach geeigneten Methoden Teilmengen aus Grundgesamtheiten aus. Diese so genannten Stichproben werden dann analysiert, und auf Basis der aus ihnen erhaltenen Ergebnisse werden Schl¨ usse auf die Grundgesamtheit gezogen. Definition Grundgesamtheit

Eine Grundgesamtheit ist eine Menge von Personen oder Objekten, u ¨ber die im Rahmen einer statistischen Untersuchung eine Aussage getroffen werden soll. Dabei ist die zu untersuchende Menge nach räumlichen, zeitlichen und sachlichen Kriterien genau einzugrenzen. Die Kriterien, nach denen eine Grundgesamtheit eingegrenzt wird, hängen vom Ziel der Untersuchung ab. Die Elemente einer Grundgesamtheit heißen auch Untersuchungseinheiten.

Beispiel Grundgesamtheit

Zur besseren Planung von Wohnhausabrissen und -neubauten soll f¨ ur die Bundesrepublik Deutschland eine nach Bundesl¨ andern gestaffelte regionale Wohnbedarfsprognose f¨ ur die n¨ achsten zehn Jahre erstellt werden. Es interessiert, wie viele Haushalte (man rechnet eine Wohnung pro Haushalt, gestaffelt nach Haushaltsgr¨ oßen) es in den einzelnen Bundesländern im Zeitraum der n¨ achsten zehn Jahre geben wird. Die zu betrachtende Grundgesamtheit f¨ ur jedes einzelne Bundesland ist daher – abgegrenzt nach den oben genannten Kriterien – die Menge aller in den n¨ achsten zehn Jahren (zeitlich) in Haushalten zusammen lebender Personen (sachlich) in diesem Bundesland B (r¨ aumlich).

B

10

¨ 2. Uberblick u ¨ber die ben¨ otigten Grundlagen

Definition Stichprobe

Eine Teilmenge, die aus einer Grundgesamtheit zur statistischen Untersuchung einer interessierenden Fragestellung ausgewählt wird, heißt Stichprobe. Die Elemente einer Stichprobe werden auch Erhebungseinheiten genannt, die Stichprobe selbst die Erhebungsgesamtheit.

B

Beispiel Stichprobe

Im Beispiel 9 der Wohnbedarfsprognose ist die Grundgesamtheit eine sich in die Zukunft entwickelnde Masse. Als Stichprobe kann eine Auswahl der in einem Bundesland in Haushalten zusammen lebenden Personen an einem Stichtag der Gegenwart dienen. Anhand einer Befragung dieser Personen und zusätzlicher Information u ¨ber Zu- und Abwanderung sowie die Bev¨ olkerungsentwicklung der Vergangenheit k¨ onnen dann Aussagen u ¨ber die zu erwartende B Entwicklung getroffen werden. Im Rahmen diese Buches werden wir nicht darauf eingehen, wie man zu guten Stichproben kommt. Die Stichprobentheorie e ist Inhalt eigener Ver¨ offentlichungen (etwa Levy, Lemeshow (1999)). Gute Stichproben zeichnen sich dadurch aus, dass in ihnen die Grundgesamtheit bez¨ uglich des interessierenden Untersuchungsziels im Kleinen abgebildet wird. Diese Eigenschaft nennt man Repr¨ asentativit¨ at e einer Stichprobe. Wir gehen im Folgenden stets davon aus, dass die realisierten Stichproben f¨ ur die interessierenden Grundgesamtheiten repr¨ asentativ sind, so dass Schl¨ usse von der Stichprobe auf die Grundgesamtheit zul¨ assig sind.

2.2

2.2 Zufallsvariable und Merkmal Aus der deskriptiven Statistik ist bekannt, dass in einer statistischen Untersuchung in der Regel nicht die Untersuchungseinheiten selbst von Interesse sind, sondern sie auszeichnende Eigenschaften. Man spricht von der Erhebung so genannter Merkmale. Obwohl ein Merkmal bestimmte, in der Regel bekannte, Auspr¨ agungen annehmen kann, weiß man vor der konkreten Durchf¨ uhrung einer Untersuchung nicht, welche Werte die einzelnen Erhebungseinheiten aufweisen. Man kann sich die Erhebung eines Merkmals an den Objekten einer Stichprobe daher auch vorstellen als die Durchf¨ uhrung eines (Zufalls-)Experiments, dessen Ausgang vorab nicht bekannt ist. Die hier enthaltene Zufallskomponente hat dazu gef¨ uhrt, dass man statt von einem Merkmal auch von einer Zufallsvariable spricht.

2.2

Zufallsvariable und Merkmal

11

Definition Zufallsvariable

Betrachtet wird eine Grundgesamtheit Ω, bestehend aus Untersuchungseinheiten, an denen ein Merkmal X interessiert. Dieses Merkmal X kann aufgefasst werden als eine Zufallsvariable X : Ω → R, das heißt als eine Abbildung der Grundgesamtheit auf die reellen Zahlen. Jedem Ereignis ω ∈ Ω wird durch X genau eine Zahl zugeordnet. Der Wertebereich der Zufallsvariablen X (das heißt die Menge aller möglichen Auspr¨ agungen e des Merkmals X ) sei mit X bezeichnet. Ist der Wertebereich X abzählbar, so heißt X eine diskrete Zufallsvariable, enthält der Wertebereich X ein ganzes Intervall aus den reellen Zahlen, so heißt X eine stetige Zufallsvariable.

Die Zufallsvariable selbst ist also eine fest definierte Funktion und daher eigentlich nicht zufällig. Dadurch, dass man bei einer statistischen Untersuchung aber vorher nicht weiß, mit welchen Elementen der Grundgesamtheit man es zu tun bekommt, sind die Werte, die X an einer Stichprobe annehmen wird, nicht vorher bekannt. Dies macht die Zuf¨ alligkeit hier aus. So wie der Begriff der Zufallsvariable definiert ist, sind zun¨ achst nur Merkmale X zugelassen, die reelle Zahlen als Ausprägungen liefern. Nat¨ urlich ist dies nicht immer unmittelbar gegeben, denn ein Merkmal, das beispielsweise nominal oder ordinal e skaliert ist, kann als Auspr¨ agungen auch verbale Begriffe annehmen (m¨ annlich, weiblich oder schlecht, mittel, gut). ugen, wendet man bei solchen Merkmalen Um der Definition 11 zu gen¨ einen Trick an: man transformiert die verbalen Auspr¨ agungen in Zahlen, das heißt man kodiert die Auspr¨ agungen in Zahlenwerte um. Am urspr¨ unglichen Skalenniveau e des Merkmals ändert sich dadurch aber nichts! Beispiel Zufallsvariable

B

In einer Untersuchung zu Fernsehgewohnheiten von Erstkl¨ asslern interessiert es, wie lange die Kinder t¨ aglich durchschnittlich fernsehen. Die betrachtete Grundgesamtheit ist die Menge aller in Deutschland lebenden Schulkinder in der ersten Klasse in einem ausgewählten Stichschuljahr. Das interessierende Merkmal X ist die durchschnittlich pro Tag vor dem Fernseher verbrachte Zeit. Die Zufallsvariable X ordnet jedem Erstkl¨ assler diese Zeit zu: X : Erstkl¨ assler ω → durchschnittliche t¨ agliche Fernsehzeit von ω. B

12


Liegt eine Stichprobe aus der Grundgesamtheit vor, so ist es Aufgabe der deskriptiven Statistik, die H¨ aufigkeitsverteilung des interessierenden Merkmals zu beschreiben. Befasst man sich dagegen mit der Häufigkeitsverteilung des Merkmals in der Grundgesamtheit, so spricht man auch von der Verteilung oder Wahrscheinlichkeitsverteilung der Zufallsvariablen X.

2.3

2.3 Verteilung und Empirische Verteilung Zur Untersuchung, mit welchen Anteilen welche Auspr¨ agungen eines Merkmals in einer Stichprobe vorkommen, benutzt man in der deskriptiven Statistik die empirische Verteilungsfunktion e. Diese gibt zu jedem beliebigen Wert x an, wie hoch der Anteil der Erhebungseinheiten in der Stichprobe ist, deren Auspr¨ agungen h¨ ochstens einen Wert von x besitzen. Analog definiert man die Verteilungsfunktion einer Zufallsvariablen X. Sie gibt zu jedem beliebigen Wert x an, wie hoch der Anteil der Untersuchungseinheiten in der Grundgesamtheit ist, deren Auspr¨ agungen kleiner oder gleich x sind. Dabei setzt man die Anteile (relativen H¨ aufigkeiten e) in der Grundgesamtheit gleich mit Wahrscheinlichkeiten. Dahinter steht die Vorstellung, dass bei zuf¨ alliger Ziehung aus einer Grundgesamtheit mit N Elementen, in der k St¨ uck eine interessierende Eigenschaft besitzen, die Wahrscheinlichkeit, eine Untersuchungseinheit mit der interessierenden Eigenschaft zu erhalten, gerade Nk beträgt. Diese Umsetzung der relativen Häufigkeiten in Wahrscheinlichkeiten wird in der Wahrscheinlichkeitsrechnung e besprochen.

Definition Verteilungsfunktion

Gegeben sei eine Zufallsvariable X . Die Funktion FX , die die Wahrscheinlichkeit daf¨ ur beschreibt, dass X einen Wert annimmt, der kleiner oder gleich einer vorgegebenen Schranke x ist, heißt Verteilungsfunktion von X

FX (x) = P(X ≤ x), wobei FX (x) ∈ [0; 1], x ∈ R und limx→−∞ FX (x) = 0, limx→∞ FX (x) = 1.

Definition Parameter

Wird eine Verteilung eindeutig durch eine Kennzahl oder eine Gruppe (so genanntes Tupel) von Kennzahlen charakterisiert in dem Sinne, dass die gleiche Verteilung immer zu den gleichen Kennzahlen f¨ uhrt und dieselben Kennzahlen immer zu derselben Verteilung, so nennt man diese Kennzahlen Parameter der Verteilung. Zur

2.3

Verteilung und Empirische Verteilung

13

Verdeutlichung schreibt man f¨ ur eine solche Verteilung statt FX (x) häufig auch X F (x; ϑ), wobei ϑ für den oder die Parameter steht.

Ein Verteilungsmodell, das auf einer solchen Parametrisierung beruht, nennt man auch parametrisches Modell. Andernfalls spricht man von einem nichtparametrischen Modell. Wir betrachten zun¨ achst parametrische Modelle. Häufig benutzt man die Verteilungsfunktion, um die so genannten Quantile anzugeben.

Definition Quantil

Gegeben sei eine Zufallsvariable X mit Verteilungsfunktion FX und eine Zahl p ∈ (0; 1). 1. F¨ ur eine diskrete Zufallsvariable X heißt eine Zahl x∗p (theoretisches) pQuantil, wenn gilt:

P(X < x∗p ) ≤ p und P(X > x∗p ) ≤ 1 − p. Falls x∗p aus dieser Beziehung nicht eindeutig bestimmbar ist, wählt man den kleinsten Wert, der diese Bedingung erf¨ ullt. 2. F¨ ur eine stetige Zufallsvariable X heißt eine Zahl x∗p (theoretisches) p-Quantil, wenn gilt:

FX (x∗p ) = p. Auch hier wählt man gegebenenfalls den kleinsten Wert x∗p , der dies erf¨ ullt. Analog zur Definition der Quantile e aus der deskriptiven Statistik spricht man auch hier f¨ ur p = 0, 5 vom Median und f¨ ur p = 0, 25 bzw. p = 0, 75 vom unteren bzw. oberen Quartil.

14

2.4


2.4 Dichte und H¨ aufigkeitsverteilung In engem Zusammenhang mit der Verteilungsfunktion steht die Dichtefunktion (kurz: Dichte), die das Pendant zur relativen H¨ aufigkeitsverteilung e darstellt. Wir unterscheiden bei der Definition der Dichte den Fall der diskreten und der stetigen Zufallsvariablen.

Definition Dichtefunktion

1. Es sei X eine diskrete Zufallsvariable mit endlichem oder abzählbar unendlichem Wertebereich X = {x1 , x2 , x3 , . . .}. Die diskrete Dichte von X ist die Funktion f X , so dass f¨ ur die Verteilungsfunktion FX von X gilt FX (x) = f X (xi ). xi ≤x

Dabei kann man die Funktionswerte der diskreten Dichte angeben als

f X (xi ) = P(X = xi ) für i = 1, 2, . . . . Es gilt f X (xi ) ≥ 0 f¨ ur alle i und xi f X (xi ) = 1. Daraus folgt sofort, dass f X (xi ) ≤ 1 ist für alle i. ur A ⊆ R, Zur Berechnung der Wahrscheinlichkeit f¨ ur ein Ereignis {X ∈ A} f¨ verwendet man P(X ∈ A) = f X (xi ) = P(X = xi ). xi ∈A

xi ∈A

2. Es sei X eine stetige Zufallsvariable mit Wertebereich X = R. Die stetige Dichte von X ist die Funktion f X , so dass f¨ ur die Verteilungsfunktion FX von X gilt x X F (x) = f X (t) dt. −∞

Dabei gilt f X (x) ≥ 0 f¨ ur alle x und dass immer f X (x) ≤ 1 sein muss.

∞ −∞

f X (x) dx = 1. Daraus folgt nicht,

Die Wahrscheinlichkeit eines Ereignisses {X ∈ A} mit A ⊆ R errechnet sich dann als P(X ∈ A) = f X (x) dx. A

2.4

B

Dichte und H¨ aufigkeitsverteilung

15

Beispiel Diskrete Dichte und Verteilungsfunktion

In manchen Fantasy-Spielen wird statt des u ¨blichen sechsseitigen W¨ urfels ein W¨ urfel mit zw¨ olf Seiten benutzt, der die Zahlen von 1 bis 12 als Ergebnis zeigen kann. Wirft man einen solchen W¨ urfel einmal, so kann man die gew¨ urfelte Augenzahl als Zufallsvariable X auffassen. Der Wertebereich von ur X ist dann X = {x1 , . . . , x12 } = {1, . . . , 12} und P(X = xi ) = 1/12 f¨ i = 1, . . . , 12. Dabei gehen wir von einem so genannten fairen W¨ urfel aus, der nicht zu Gunsten einer Zahl manipuliert wurde. Die diskrete Dichte von X ist damit gegeben als f X (xi ) =

1 12

i = 1, . . . , 12.

Weiterhin lassen sich die Werte der Verteilungsfunktion bestimmen als xi

1

2

3

4

5

6

7

8

9

10

11

12

f X (xi )

1 12

1 12

1 12

1 12

1 12

1 12

1 12

1 12

1 12

1 12

1 12

1 12

FX (xi )

1 12

2 12

3 12

4 12

5 12

6 12

7 12

8 12

9 12

10 12

11 12

12 12

Damit kann man zum Beispiel die Wahrscheinlichkeit bestimmen, bei einem Wurf eine Zahl gr¨ oßer als 1, aber kleiner oder gleich 3 zu werfen

= f X (2) + f X (3) =

1 2 1 + = 12 12 12

P(1 < X ≤ 3) = P(X ≤ 3) − P(X ≤ 1) = FX (3) − FX (1) =

1 2 3 − = . 12 12 12

P(1 < X ≤ 3) = P(X ∈ (1; 3]) =

xi ∈(1;3]

oder

B Beispiel Stetige Dichte und Verteilungsfunktion

Gegeben sei eine stetige Zufallsvariable mit folgender Dichtefunktion ⎧ f¨ ur 0, 5 ≤ x < 1 ⎨ 1 f X (x) = 0, 5 f¨ ur 0 ≤ x < 0, 5 oder 1 ≤ x ≤ 1, 5 ⎩ 0 sonst.

B


16

Wollen wir u ¨berpr¨ ufen, ob es sich bei f tats¨ achlich um eine ∞Dichtefunktion handelt, m¨ ussen wir dazu feststellen, ob f X (x) ≥ 0 und ob −∞ f X (x) dx = 1 gilt. Offensichtlich ist f X (x) ≥ 0, außerdem ∞ X

f (x) dx

=

−∞

1,5 0,5 1 1,5 X f (x) dx = 0, 5 dx + 1 dx + 0, 5 dx 0

=

0

0,5

1

0,5 1 1,5 0, 5 · x + 1 · x + 0, 5 · x 0

0,5

1

=

(0, 5 · 0, 5 − 0) + (1 · 1 − 1 · 0, 5) + (0, 5 · 1, 5 − 0, 5 · 1)

=

0, 25 + 0, 5 + 0, 25 = 1.

Damit handelt es sich um eine Dichtefunktion. Die Verteilungsfunktion FX l¨ asst sich damit herleiten als ⎧ ⎪ 0 f¨ ur x < 0 ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ x ⎪ ⎪ ⎪ 0, 5 dt f¨ ur 0 ≤ x < 0, 5 ⎪ 0 ⎪ ⎪ ⎪ ⎪ ⎪ x ⎨ x 0,5 f X (t) dt = FX (x) = 0, 5 dt + 0,5 1 dt f¨ ur 0, 5 ≤ x < 1 0 ⎪ ⎪ ⎪ −∞ ⎪ ⎪ ⎪ 1 x 0,5 ⎪ ⎪ ⎪ 0, 5 dt + 1 dt + 0, 5 dt f¨ ur 1 ≤ x ≤ 1, 5 ⎪ 0 0,5 1 ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ 1 f¨ ur x > 1, 5 ⎧ ⎪ 0 ⎪ ⎪ ⎪ ⎪ x ⎪ ⎪ ⎨2 = x − 14 ⎪ ⎪ ⎪ ⎪ 14 + x2 ⎪ ⎪ ⎪ ⎩1

f¨ ur x < 0 f¨ ur

0 ≤ x < 0, 5

f¨ ur

0, 5 ≤ x < 1

f¨ ur

1 ≤ x ≤ 1, 5

f¨ ur x > 1, 5.

Weiterhin ist zum Beispiel 0,8 P(0, 6 < X ≤ 0, 8) = f X (x) dx = 0,6

0,8

0,6

0,8 1 dx = 1 · x = 0, 8 − 0, 6 = 0, 2 0,6

2.4


17

oder P(0, 6 < X ≤ 0, 8) = FX (0, 8) − FX (0, 6) = 0, 55 − 0, 35 = 0, 2.

f X (x) 6 P(0, 6 < X ≤ 0, 8) 1

0.5 0

0,5

1

1,5

x

Man beachte außerdem, dass aus der Verteilungsfunktion auf die Dichtefunktion r¨ uckgeschlossen werden kann. Dazu wird die Ableitung von FX (x) bestimmt ⎧ ⎪ f¨ ur x < 0 oder x > 1, 5 ⎪0 ∂FX (x) ⎨ = 0, 5 f¨ ur 0 < x < 0, 5 oder 1 < x < 1, 5 ⎪ ∂x ⎪ ⎩1 f¨ ur 0, 5 < x < 1. Die Ableitung existiert nicht an den Stellen x = 0; 0, 5; 1; 1, 5; an diesen Stellen unterscheiden sich die linksseitigen Ableitungen von den rechtsseitigen. Davon abgesehen, stimmen die Ableitung von FX und die Dichte f X u ¨berein. Es gilt also, von den genannten vier Ausnahmen abgesehen, dass ∂FX (x) = f X (x). ∂x B

18


Rechenregeln f¨ ur Dichtefunktionen und Verteilungsfunktionen

1. Die Verteilungsfunktion ist das Gegenst¨ uck zur empirischen Verteilungsfunktion e. 2. F¨ ur eine diskrete Zufallsvariable sieht die Verteilungsfunktion wie eine Treppenfunktion aus mit Spr¨ ungen an den Stellen xi und Sprungh¨ ohen X f (xi ) = P(X = xi ). 3. F¨ ur eine diskrete Zufallsvariable X gilt P(a < X ≤ b) = P(X = xi ) a<xi ≤b

und P(a < X ≤ b) = P(X ≤ b) − P(X ≤ a) = FX (b) − FX (a). 4. F¨ ur eine stetige Zufallsvariable X gilt: Der Wert der Verteilungsfunktion FX an einer Stelle x entspricht der Fl¨ ache unter der Kurve der stetigen Dichtefunktion X f bis zur Stelle x. P(X = x) = 0 f¨ ur x ∈ R fest. Das heißt, f¨ ur eine stetige Zufallsvariable ist die Wahrscheinlichkeit, einen bestimmten Wert anzunehmen, gleich Null. Weiter ist b P(a < X ≤ b) = und

f X (x) dx a

P(a < X < b) = P(a ≤ X < b) = P(a < X ≤ b) =

P(a ≤ X ≤ b) = P(X ≤ b) − P(X ≤ a) = FX (b) − FX (a).

Die stetige Dichte f X l¨ asst sich als Ableitung der Verteilungsfunktion FX schreiben ∂FX (x) , ∂x vorausgesetzt, die Ableitung existiert f¨ ur fast alle x. Dabei ist es zulässig, dass die Ableitung f¨ ur eine endliche Menge einzelner Werte x nicht existiert (vergleiche Beispiel 15). f X (x) =

2.4


19

Betrachtet man nicht nur ein Merkmal alleine, sondern interessiert sich daf¨ ur, wie sich zwei Merkmale gemeinsam verhalten, so geht man u ¨ber zur Betrachtung gemeinsamer Dichten und gemeinsamer Verteilungen. Definition Gemeinsame Dichte f¨ ur zwei Zufallsvariablen X und Y

1. F¨ ur zwei diskrete Zufallsvariablen X und Y mit Verteilungsfunktionen FX und FY schreibt man die gemeinsame Dichtefunktion als

f X;Y (xi ; yj ) = P(X = xi ; Y = yj ) i, j = 1, 2, . . . , wobei

f X;Y (xi ; yj ) ≥ 0 und

f X;Y (xi ; yj ) = 1 gilt.

(xi ;yj )

2. F¨ ur zwei stetige Zufallsvariablen X und Y schreibt man die gemeinsame Dichtefunktion als

f X;Y (x; y),

x ∈ R, y ∈ R,

wobei

∞ ∞ f

X;Y

(x; y) ≥ 0 und

f X;Y (x; y) dx dy = 1 gilt. −∞ −∞

Rechenregeln F¨ ur eine Teilmenge R ⊆ R2 der xy-Ebene lässt sich die Wahrscheinlichkeit f¨ ur {(X; Y ) ∈ R} wie folgt berechnen. 1. Falls X und Y diskrete Zufallsvariablen sind, ist f X;Y (xi ; yj ). P((X; Y ) ∈ R) = (xi ;yj )∈R

2. Falls X und Y stetige Zufallsvariablen sind, ist P((X; Y ) ∈ R) =

f X;Y (x; y) dx dy. R

Aus der gemeinsamen Dichte von zwei Merkmalen kann auf die beiden Dichten der einzelnen Merkmale r¨ uckgeschlossen werden. Beschäftigt man sich im

20


Zusammenhang der gemeinsamen Betrachtung zweier Zufallsvariablen mit den Dichten der beiden einzelnen Variablen, so spricht man auch von den Randdichten.

Definition Randdichten

Seien X und Y Zufallsvariablen mit gemeinsamer Dichtefunktion f X;Y . Die Randdichten von X und Y sind in der folgenden Weise definiert. Im diskreten Fall sind die Randdichten von X bzw. Y gegeben durch f X (xi ) = P(X = xi ) = f X;Y (xi ; yj ), i = 1, 2, . . . , yj

f Y (yj )

=

P(Y = yj ) =

f X;Y (xi ; yj ),

j = 1, 2, . . . .

xi

Es wird also u ¨ber diejenige Variable summiert, deren Randdichte nicht von Interesse ist, das heißt f¨ ur die Randdichte von X wird u ¨ber alle yj summiert und umgekehrt. Im stetigen Fall sind die Randdichten von X bzw. Y gegeben durch

∞ X

f (x) =

f X;Y (x; y) dy,

x ∈ R,

f X;Y (x; y) dx,

y ∈ R.

−∞

∞ Y

f (y) = −∞

F¨ ur stetige Zufallsvariablen muss zur Berechnung der jeweiligen Randdichte die entsprechende andere Variable herausintegriert werden.

B

Beispiel Gemeinsame Dichte und Randdichten im diskreten Fall

Seien X und Y diskrete Zufallsvariablen. Ihre gemeinsame Dichtefunktion sei gegeben als y

x

f X,Y (x, y) 1

0 0, 1

1 0, 2

2 0

4 0, 3

f X (x) 0, 6

2 f Y (y)

0, 1 0, 2

0, 1 0, 3

0, 2 0, 2

0 0, 3

0, 4 1, 0

2.4


21

Aus der Tabelle werden die jeweiligen Randdichten von X und Y gut sichtbar. Gesucht sei die Wahrscheinlichkeit daf¨ ur, dass die Summe X + Y ≤ 2 ist f X;Y (xi ; yj ) P(X + Y ≤ 2) = (xi ;yj ),xi +yj ≤2

=

f X;Y (1; 0) + f X;Y (1; 1) + f X;Y (2; 0)

=

0, 1 + 0, 2 + 0, 1 = 0, 4.

Seien weiter die Randdichten von X an der Stelle x = 1 und von Y an der Stelle y = 2 zu bestimmen f X;Y (1; yj ) = f X;Y (1; 0) + f X;Y (1; 1) f X (1) = yj

+ f X;Y (1; 2) + f X;Y (1; 4) = 0, 6 f Y (2)

=

f X;Y (xi ; 2) = f X;Y (1; 2) + f X;Y (2; 2) = 0, 2.

xi

B Beispiel Gemeinsame Dichte und Randdichten im stetigen Fall

Seien X und Y stetige Zufallsvariablen. Ihre gemeinsame Dichtefunktion sei gegeben als f X;Y (x; y) = exp{−x} · exp{−y},

x > 0, y > 0.

Berechnen wir die Wahrscheinlichkeit, dass sich X auf dem Intervall (−∞; 1] realisiert und Y auf dem Intervall [1; ∞) ∞ 1 P(X ≤ 1; Y ≥ 1) =

f X;Y (x; y) dx dy 1 −∞

∞ = 1

∞ = 1

⎛ 1 ⎞ exp{−y} · ⎝ exp{−x} dx⎠ dy 0

1 exp{−y} · − exp{−x} dy

0

B


22

∞ =

(1 − exp{−1}) ·

∞ exp{−y} dy = − (1 − exp{−1}) · exp{−y} 1

1

=

(1 − exp{−1}) · exp{−1}.

Ebenso erhalten wir die Randdichte von X durch Herausintegrieren von y ∞ 0 f¨ ur x ≤ 0 f X (x) = f X;Y (x; y) dy = exp{−x} f¨ ur x > 0, −∞

da gilt ∞

∞ exp{−x} · exp{−y} dy = exp{−x}.

f X;Y (x; y) dy = −∞

0

Analog kann die Randdichte von Y hergeleitet werden ∞ 0 f¨ ur y ≤ 0 Y X;Y f (y) = f (x; y) dx = exp{−y} f¨ ur y > 0. −∞

B Ist schon bekannt, dass die Zufallsvariable Y einen bestimmten Wert angenommen hat, dann kann man sich daf¨ ur interessieren, wie die Wahrscheinlichkeitsverteilung von X unter dieser Bedingung aussieht.

Definition Bedingte Dichte

Seien X und Y Zufallsvariablen mit gemeinsamer Dichtefunktionfunktion f X;Y (x; y) und zugehörigen Randdichten f X (x) und f Y (y). Die bedingte Dichte von X f¨ ur gegebenes Y = y ist definiert als

f X|Y (x|y) =

f X;Y (x; y) f Y (y)

f¨ ur f Y (y) = 0.

F¨ ur f Y (y) = 0 ist f X|Y (x|y) nicht definiert. Umgekehrt ist die bedingte Dichte von Y gegeben X = x definiert als

f Y |X (y|x) =

f X;Y (x; y) f X (x)

f¨ ur f X (x) = 0.

2.4


23

Die obige Definition kann sowohl f¨ ur diskrete als auch stetige Zufallsvariablen angewendet werden. Sind X und Y diskret, so entspricht die bedingte Dichte von X gegeben Y = y der Wahrscheinlichkeit, dass X den Wert x annimmt, wenn sich Y als y realisiert hat, also f X|Y (x|y) = P(X = x | Y = y). Beispiel Bedingte Dichte

B

Seien X und Y zwei stetige Zufallsvariablen mit gemeinsamer Dichtefunktion 2 f¨ ur x > 0, y > 0, x + y < 1 X;Y (x; y) = f 0 sonst. Zur Bestimmung der bedingten Dichte f Y |X (y|x) benötigen wir zun¨ achst die Randdichte von X. Diese erhält man durch Herausintegrieren der Variable Y aus der gemeinsamen Dichtefunktion von X und Y 1−x ∞ 2 dy = 2 · (1 − x) f¨ ur 0 < x < 1 0 f X (x) = f X;Y (x; y) dy = 0 sonst. −∞

F¨ ur gegebenes 0 < x < 1 berechnet sich die bedingte Dichte nun zu 2 1 f¨ ur y > 0, y < 1 − x f X;Y (x; y) Y |X 2·(1−x) = 1−x = (y|x) = f X f (x) 0 sonst. Interessant ist, dass f¨ ur festes x die bedingte Verteilung von Y eine RechteckB verteilung 42 auf dem Intervall (0; 1 − x) ist.

Definition Bedingte Verteilung

Seien X und Y Zufallsvariablen mit gemeinsamer Dichtefunktion f X;Y (x; y) und zugeh¨ origen Randdichten f X (x) und f Y (y). Die bedingte Verteilung von X f¨ ur gegebenes Y = y ist, wenn X und Y diskret sind, definiert als FX|Y (x|y) = f X|Y (xi |y). xi ≤x

wenn X und Y stetig sind, definiert als

x F

X|Y

f X|Y (t|y) dt.

(x|y) = −∞

24


Die in der deskriptiven Statistik benutzten Kenngr¨ oßen f¨ ur die H¨ aufigkeitsverteilungen von Merkmalen finden ihre Gegenst¨ ucke in den entsprechenden Gr¨ oßen f¨ ur Zufallsvariablen.

2.5

2.5 Erwartungswert und Varianz Zur zusammenfassenden Beschreibung von Datens¨ atzen werden in der deskriptiven Statistik unter Anderem Maße f¨ ur die Lage und die Streuung ¨ e von Daten berechnet. Ublich sind das arithmetische Mittel 46 e zur Charakterisierung der Lage und die empirische Varianz (Stichprobenvarianz) und Standardabweichung (Stichprobenstandardabweichung) at. Als Lage- und Streuungsmaße 46 e zur Charakterisierung der Variabilit¨ f¨ ur Wahrscheinlichkeitsverteilungen dienen die entsprechenden theoretischen Konstrukte Erwartungswert 24 und Varianz bzw. Standardabweichung 26.

Definition Erwartungswert

Betrachtet wird eine Zufallsvariable X mit Dichtefunktion f X . 1. Ist X diskrete Zufallsvariable, so ist der Erwartungswert E[X] von X das gewichtete Mittel E[X] = xi · f X (xi ) = x1 · f X (x1 ) + x2 · f X (x2 ) + . . . xi

2. Ist X stetige Zufallsvariable, so ist der Erwartungswert E[X] von X definiert als ∞ E[X] = x · f X (x) dx. −∞

B

Beispiel (Fortsetzung 15) Diskrete Dichte

F¨ ur die diskrete Zufallsvariable aus Beispiel 15 errechnet sich der Erwartungswert wie folgt E[X] =

12 i=1

xi · f X (xi ) =

78 1 · (1 + 2 + . . . + 12) = = 6, 5. 12 6 B

2.5

Erwartungswert und Varianz

25

Beispiel (Fortsetzung 15) Stetige Dichte

B

F¨ ur die stetige Zufallsvariable aus Beispiel 15 errechnet sich der Erwartungswert wie folgt ∞ E[X]

0,5 1 1,5 x · f (x) dx = x · 0, 5 dx + x · 1 dx + x · 0, 5 dx X

= −∞

0

0,5

=

0,5 1 1,5 x2 x2 x2 · 0, 5 + · 1 + · 0, 5 2 2 2 0 0,5 1

=

0, 0625 + 0, 375 + 0, 3125 = 0, 75.

1

B Eigenschaften und Rechenregeln zum Erwartungswert Der Erwartungswert existiert nicht immer. Es kann Dichten geben, so dass die Summe bzw. das Integral von x · f X (x) nicht endlich ist. In diesem Fall sagt man, dass E[X] nicht existiert. Der Erwartungswert ist das theoretische Gegenst¨ uck zum arithmetischen Mittel 46 e. Man kann E[X] interpretieren als den Schwerpunkt“ der Dichte, das heißt als die Stelle, an der ” man die Dichtefunktion unterst¨ utzen m¨ usste, um sie im Gleichgewicht zu halten. Ist die Dichtefunktion f X von X symmetrisch um eine Stelle a, das ur alle x, dann ist E[X] = a. heißt f X (a + x) = f X (a − x) f¨ Transformiert man die Zufallsvariable X linear, das heißt man betrachtet Y = a · X + b f¨ ur Konstanten a, b, so gilt E[Y ] = E[a · X + b] = a · E[X] + b. Dies ist die so genannte Linearit¨ at des Erwartungswerts.

26


Transformiert man die Zufallsvariable X mit einer beliebigen Funktion g, das heißt man betrachtet Y = g(X), so gilt g(xi ) · f X (xi ), E[Y ] = E[g(X)] = xi

falls X eine diskrete Zufallsvariable, bzw. ∞ g(x) · f X (x) dx,

E[Y ] = E[g(X)] = −∞

falls X eine stetige Zufallsvariable ist.

Definition Varianz und Standardabweichung

Sei X eine Zufallsvariable mit Dichtefunktion f X , und der Erwartungswert E[X] existiere. Die Varianz von X ist definiert durch Var[X] = E (X − E[X])2 . Die Größe Std[X] = Var[X] heißt Standardabweichung von X . 1. Ist X diskret, so rechnet man

Var[X] =

(xi − E[X])2 · f X (xi ). xi

2. Ist X stetig, so rechnet man

∞ Var[X] = −∞

(x − E[X])2 · f X (x) dx.

2.5


27

Eigenschaften und Rechenregeln zur Varianz Die Varianz ist das theoretische Gegenst¨ uck zur Stichprobenvarianz e. Die Varianz kann alternativ u ¨ber den Verschiebungssatz berechnet werden Var[X] = E[X 2 ] − (E[X])2 , 2 X wobei im diskreten Fall E[X 2 ] = xi xi · f (xi ), im stetigen Fall ∞ 2 2 X E[X ] = −∞ x · f (x) dx ist. Transformiert man die Zufallsvariable X linear, das heißt man betrachtet Y = a · X + b f¨ ur Konstanten a, b, so gilt Var[Y ] = Var[a · X + b] = a2 · Var[X] und f¨ ur die Standardabweichung Std[Y ] = |a| · Std[X].

Beispiel Varianz einer diskreten Zufallsvariable

Sei X eine diskrete Zufallsvariable mit Dichtefunktion p f¨ ur x = 2 X f (x) = 1−p f¨ ur p ∈ (0; 1). f¨ u r x ∈ {1; 3} 2 Zu berechnen sei die Varianz. Dazu berechnen wir zunächst den Erwartungswert von X xi · f X (xi ) = 1 · f X (1) + 2 · f X (2) + 3 · f X (3) E[X] = xi

=

1·

1−p 1−p +2·p+3· = 2. 2 2

Nun l¨ asst sich die Varianz wie folgt berechnen Var[X] = (xi − E[X])2 · f X (xi ) xi

= (1 − 2)2 · f X (1) + (2 − 2)2 · f X (2) + (3 − 2)2 · f X (3)

B

28


=

1−p 1−p + = 1 − p. 2 2

Die Berechnung der Varianz mit Hilfe des Verschiebungssatzes 27 f¨ uhrt zum gleichen Ergebnis: Dazu berechnen wir zun¨ achst E[X 2 ] E[X 2 ] = x2i · f X (xi ) = 12 · f X (1) + 22 · f X (2) + 32 · f X (3) = 5 − p. xi

Die Anwendung des Verschiebungssatzes ergibt dann Var[X] = E[X 2 ] − (E[X])2 = 5 − p − 4 = 1 − p. B F¨ ur zwei Merkmale X und Y gemeinsam können ebenfalls Erwartungswerte bestimmt werden. Rechenregeln f¨ ur den Erwartungswert diskreter Zufallsvariablen Der Erwartungswert einer beliebigen Funktion g(X; Y ) ist definiert als E[g(X; Y )] = g(xi ; yj ) · f X;Y (xi ; yj ). (xi ;yj )

Insbesondere gilt, wenn g(x; y) = x · y xi · yj · f X;Y (xi ; yj ). E[X · Y ] = (xi ;yj )

Rechenregeln f¨ ur den Erwartungswert stetiger Zufallsvariablen F¨ ur eine beliebige Funktion g(X; Y ) von X und Y ist der Erwartungswert definiert als ∞ ∞ g(x; y) · f X;Y (x; y) dx dy.

E[g(X; Y )] = −∞ −∞

2.5


29

Insbesondere gilt, wenn g(x; y) = x · y ∞ ∞ E(X · Y ) =

x · y · f X;Y (x; y) dx dy. −∞ −∞

Beispiel Erwartungswert von X · Y im diskreten Fall

B

Seien X und Y die diskreten Zufallsvariablen aus dem Beispiel 20. Der Erwartungswert von (X · Y ) berechnet sich zu xi · yj · f X;Y (xi ; yj ) E[X · Y ] = (xi ,yj )

=

(1 · 0) · f X;Y (1; 0) + (1 · 1) · f X;Y (1; 1) + · · · + (2 · 4) · f X;Y (2; 4) = 2, 4. B

Die Definition der bedingten Dichte 22 einer Zufallsvariablen X f¨ ur gegebenes Y = y f¨ uhrt zum Konzept der so genannten bedingten Erwartungswerte. So wie der einfache Erwartungswert auf Basis der Dichte einer einzelnen Zufallsvariable definiert wird, basiert die Definition des bedingten Erwartungswerts auf der bedingten Dichte.

Definition Bedingte Erwartungswerte

oriSeien X und Y Zufallsvariablen mit gemeinsamer Dichte f X;Y (x; y) und zugeh¨ X Y gen Randdichten f (x) und f (y). F¨ ur eine beliebige Funktion g ist der bedingte Erwartungswert von g(X; Y ) gegeben Y = y f¨ ur zwei diskrete Zufallsvariablen X und Y definiert als E[g(X; Y )|Y = y] = g(xi ; y) · f X|Y (xi |y), xi

30


f¨ ur zwei stetige Zufallsvariablen X und Y definiert als

∞ g(x; y) · f X|Y (x|y) dx.

E[g(X, Y )|Y = y] = −∞

Entsprechend sind die bedingten Erwartungswerte von Y gegeben X = x definiert u ¨ber die bedingte Dichte von Y gegeben X = x.

Zum Verständnis der bedingten Erwartungswerte ist es hilfreich, nicht nur feste Realisationen y von Y als Bedingung anzunehmen, sondern die Bedingung selbst wieder als zufällig aufzufassen. Damit betrachtet man den bedingten Erwartungswert E[g(X; Y )|Y ], als Funktion von Y , selbst wieder als Zufallsvariable. Eigenschaften bedingter Erwartungswerte F¨ ur die speziellen Funktionen g1 (x; y) = x und g2 (x; y) = y sind E[X|Y = y] und E[Y |X = x] die so genannten bedingten Erwartungswerte von X f¨ ur gegebenes Y = y bzw. von Y f¨ ur gegebenes X = x. Der bedingte Erwartungswert E[g(X; Y )|Y ] kann als Funktion in Abh¨ angigkeit von Y aufgefasst werden. Es l¨ asst sich zeigen, dass die Zufallsvariable E[X|Y ] den Erwartungswert E[X] besitzt, das heißt es gilt E[E[X|Y ]] = E[X]. Entsprechend gilt E[E[Y |X]] = E[Y ].

B

Beispiel (Fortsetzung 23) Bedingter Erwartungswert

Seien X und Y Zufallsvariablen mit gemeinsamer Dichtefunktionfunktion f X;Y (x; y) und bedingter Dichte aus Beispiel 23. Der bedingte Erwartungswert E[Y |X = x] f¨ ur festes X = x und 0 < x < 1 errechnet sich dann wie folgt ∞ E[Y |X = x] = −∞

y · f Y |X (y|x) dy

2.6

Abh¨ angigkeit

31 1−x

= 0

1−x y2 1−x y dy = . = 1−x 2 · (1 − x) 0 2

Fasst man nun den bedingten Erwartungswert E[Y |X] als Funktion von X auf, erh¨ alt man E[Y |X] = 1−X allige Gr¨ oße. B 2 , also wieder eine zuf¨

2.6

2.6 Abh¨ angigkeit Bei der gemeinsamen Betrachtung zweier Merkmale interessiert man sich h¨ aufig daf¨ ur, ob und gegebenenfalls wie stark die beiden Merkmale miteinander zusammenh¨ angen. Dazu berechnet man in der deskriptiven Statistik Zusammenhangsmaße e wie Kontingenz- und Korrelationskoeffizienten e. Als zugrunde liegende theoretische Konzepte betrachten wir die stochastische Unabh¨ angigkeit 31, die Kovarianz und die Korrelation 32. Gilt, dass f¨ ur festes y die bedingte Dichte von X der Randdichte von X entspricht, also f X|Y (x|y) = f X (x), so sind X und Y voneinander stochastisch unabh¨ angig. Das heißt, die Realisierung von Y hat keinen Einfluss auf die Realisierung von X. Dies ist a¨quivalent zur folgenden Definition der Unabh¨ angigkeit. Definition Unabh¨ angigkeit von Zufallsvariablen

Seien X und Y Zufallsvariablen mit gemeinsamer Dichtefunktionfunktion f X,Y (x, y) und zugehörigen Randdichten f X (x) und f Y (y). Dann sind X und Y (stochastisch) unabh¨ angig, wenn

f X;Y (x; y) = f X (x) · f Y (y) f¨ ur alle x und y aus den Wertebereichen von X und Y gilt. Man beachte, dass hier die beiden Fälle diskreter und stetiger Zufallsvariablen abgedeckt sind.

Rechenregeln f¨ ur unabh¨ angige Zufallsvariablen Sind die Zufallsvariablen X und Y unabh¨ angig, dann gilt f¨ ur beliebige Funktionen g(X), h(Y ) E[g(X) · h(Y )] = E[g(X)] · E[h(Y )].

32


Da die Funktionen g und h auch der Identit¨ at entsprechen können, gilt insbesondere E[X · Y ] = E[X] · E[Y ], wenn X und Y unabh¨ angig sind.

Die bedingte Dichtefunktion von X f¨ ur gegebenes Y = y war definiert als f X|Y (x|y)

=

f X;Y (x; y) f Y (y)

f¨ ur f Y (y) = 0.

Mit der Unabh¨ angigkeit gilt dann f X|Y (x|y)

= =

f X;Y (x; y) f¨ ur f Y (y) = 0 f Y (y) f X (x) · f Y (y) = f X (x). f Y (y)

Daher sind die Formulierungen der Unabh¨ angigkeit u ¨ber die bedingten Dichten und u ¨ber die gemeinsame Dichte äquivalent.

Definition Kovarianz und Korrelation

F¨ ur zwei Zufallsvariablen X und Y ist die Kovarianz zwischen X und Y definiert als

Cov[X, Y ] = E [(X − E[X]) · (Y − E[Y ])] . Der Korrelationskoeffizient (kurz: die Korrelation) zwischen X und Y ist gegeben als Cov[X, Y ] . Cor[X, Y ] = Var[X] · Var[Y ] Sind X und Y diskret, so lässt sich die Formel f¨ ur die Kovarianz darstellen durch Cov[X, Y ] = (xi − E[X]) · (yj − E[Y ]) · f X;Y (xi ; yj ). (xi ,yj )

F¨ ur zwei stetige Zufallsvariablen X , Y ergibt sich

∞ ∞ (x − E[X]) · (y − E[Y ]) · f X;Y (x; y) dx dy.

Cov[X, Y ] = −∞ −∞

2.6

Abh¨ angigkeit

33

Rechenregeln und Eigenschaften zu Kovarianz und Korrelation Die Korrelation ist das theoretische Gegenst¨ uck zum Korrelationskoeffizienten nach Bravais und Pearson e. Zur vereinfachten Berechnung der Kovarianz verwendet man den Verschiebungssatz f¨ ur die Kovarianz Cov[X, Y ] = E[X · Y ] − E[X] · E[Y ]. Transformiert man X und Y linear in a · X + b und c · Y + d f¨ ur konstante Werte a, b, c, d, so gilt Cov[a · X + b, c · Y + d] = a · c · Cov[X, Y ]. F¨ ur zwei Zufallsvariablen X und Y gilt außerdem Var[X + Y ] = Var[X] + Var[Y ] + 2 · Cov[X, Y ]. Wenn X und Y stochastisch unabh¨ angig sind, so gilt Cov[X, Y ] = 0. Dies ist leicht einzusehen, denn Cov[X, Y ]

=

E[X · Y ] − E[X] · E[Y ]

=

E[X] · E[Y ] − E[X] · E[Y ] = 0,

da E[X · Y ] = E[X] · E[Y ] aus der Unabh¨ angigkeit von X und Y gefolgert werden kann. Der Umkehrschluss ist nicht zul¨ assig. Das heißt, aus Cov[X, Y ] = 0 folgt im Allgemeinen nicht die Unabh¨ angigkeit der beiden Zufallsvariablen.

34


Erg¨ anzungen

Betrachtet man nicht nur zwei, sondern eventuell auch mehr als zwei Zufallsvariablen X1 , . . . , Xn gemeinsam, so gelten außerdem noch die folgenden Rechenregeln. Rechenregeln f¨ ur mehr als zwei Zufallsvariablen X1 , . . . , Xn sind stochastisch unabh¨ angig, falls f X1 ;...;Xn (x1 ; . . . ; xn ) = f X1 (x1 ) · . . . · f Xn (xn ). Dabei bezeichnet f X1 ,...,Xn die gemeinsame Dichte von X1 , . . . , Xn und f Xi die Randdichte von Xi , i = 1, . . . , n. F¨ ur Konstanten a1 , . . . , an gilt n n E ai · Xi = ai · E[Xi ]. i=1

i=1

F¨ ur Konstanten a1 , . . . , an , b1 , . . . , bm gilt ⎤ ⎡ n m n m ai · Xi , bj · Yj ⎦ = ai · bj · Cov[Xi , Yj ]. Cov ⎣ i=1

j=1

i=1 j=1

Falls X1 , . . . , Xn stochastisch unabh¨ angig, gilt f¨ ur die Varianz n n = Var ai · Xi a2i · Var(Xi ). i=1

i=1

¨ Uber die Verteilungsfunktion 12 wird ein Merkmal charakterisiert. Zur statistischen Beschreibung einer Stichprobe verwendet man die folgende modellhafte Idee. Man geht davon aus, dass jeder beobachtete Wert des Merkmals in der Stichprobe (der Merkmalswert jeder Erhebungseinheit) eine Realisation eines Grundmerkmals X ist. Um die Werte f¨ ur die einzelnen Erhebungseinheiten voneinander zu unterscheiden, stellt man sich weiter vor, dass die i-te Untersuchungseinheit selbst das Merkmal Xi besitzt, das dieselben Charakteristika aufweist wie das Grundmerkmal X.

2.6

Abh¨ angigkeit

35

Definition Stichprobenvariablen

Ein interessierendes Merkmal lasse sich beschreiben durch eine Zufallsvariable X mit Verteilungsfunktion FX (x; ϑ). Eine Stichprobe x1 , . . . , xn lässt sich dann auffassen als eine Realisierung von Zufallsvariablen X1 , . . . , Xn , die stochastisch unabhängig sind und alle dieselbe Verteilung wie X besitzen. Die Zufallsvariablen X1 , . . . , Xn nennt man Stichprobenvariablen.

Durch die Modellvorstellung, dass die Stichprobenvariablen unabh¨ angig und identisch wie die Ausgangsvariable X verteilt sind, sichert man, dass die ur das interessierende Merkmal X in der realisierte Stichprobe x1 , . . . , xn f¨ Grundgesamtheit repr¨ asentativ ist. Rechenregeln f¨ ur Stichprobenvariablen Seien X1 , . . . , Xn unabh¨ angige Stichprobenvariablen, die identisch verteilt sind wie eine Zufallsvariable X mit Verteilungsfunktion FX (x) und Dichtefunktion f X (x). Die gemeinsame Dichtefunktion von X1 , . . . , Xn ist f

X1 ;...;Xn

(x1 ; . . . ; xn ) =

n

f X (xi ).

i=1

E[Xi ] = E[X], Var[Xi ] = Var[X], i = 1, . . . , n, wenn Erwartungswert und Varianz von X existieren. F¨ ur X =

1 n

·

n

E[X]

=

Var[X]

=

Xi ist n n 1 1 · E Xi = · E[Xi ] = E[X], n i=1 n i=1 n n 1 1 1 · Var Xi = 2 · Var[Xi ] = · Var[X]. n i=1 n i=1 n

i=1

Gr¨ oßen, die h¨ aufig im Zusammenhang mit Stichprobenvariablen betrachtet werden, sind die so genannten Ordnungsstatistiken. Ordnungsstatistiken sind relevant beispielsweise bei der Bestimmung der Verteilung des Minimums und des Maximums.

36


Definition Ordnungsstatistiken

Betrachten wir ein mindestens ordinal skaliertes Merkmal, das durch eine Zufallsvariable X mit Verteilungsfunktion FX und zugeh¨ origer Dichtefunktion f X beschrieben wird. Die Stichprobenvariablen X1 , . . . , Xn seien unabhängig und identisch wie X verteilt, wobei x1 , . . . , xn eine realisierte Stichprobe vom Umfang n ist. Die Beobachtungen werden der Gr¨ oße nach geordnet, beginnend mit der kleinsten

x(1) ≤ x(2) ≤ x(3) ≤ . . . ≤ x(n) . Dann k¨ onnen x(1) , . . . , x(n) als Realisationen von X(1) , . . . , X(n) aufgefasst werden. Diese Zufallsvariablen X(1) , . . . , X(n) heißen Ordnungsstatistiken.

Regel Verteilung von Ordnungsstatistiken Sei X eine stetige Zufallsvariable mit Verteilungsfunktion FX . Seien weiangige und wie X verteilte Stichprobenvariablen ter X1 , . . . , Xn unabh¨ und X(1) , . . . , X(n) die entsprechenden Ordnungsstatistiken. Dann ist die Randverteilung der i-ten Ordnungsstatistik, i = 1, . . . , n, gegeben durch n n−j n X j · F (x) · 1 − FX (x) , x ∈ R. FX(i) (x) = j j=i

Setzen wir i = 1, so erhalten wir die Verteilung des Minimums, das der Ordnungsstatistik X(1) entspricht. Regel Verteilung des Minimums Die Verteilung des Minimums ist f¨ ur x ∈ R gegeben als n n−j n n X j · F (x) · 1 − FX (x) = 1 − 1 − FX (x) . FX(1) (x) = j j=1 Die Dichtefunktion des Minimums erhalten wir durch Ableiten der Verteilungsfunktion f X(1) (x) = n · (1 − FX (x))n−1 · f X (x),

x ∈ R.

2.7

G¨ angige Verteilungen und ihre Erwartungswerte und Varianzen

37

Analog ergibt sich f¨ ur i = n die Verteilung des Maximums X(n) . Regel Verteilung des Maximums Die Verteilung des Maximums ist f¨ ur x ∈ R gegeben als n n−j X n n X j · F (x) · 1 − FX (x) = F (x) . FX(n) (x) = j j=n Die Dichtefunktion f X(n) (x) = n · (FX (x))n−1 · f X (x),

x ∈ R,

erh¨ alt man wieder durch Ableiten der Verteilungsfunktion.

2.7 G¨ angige Verteilungen und ihre Erwartungswerte und Varianzen Einige Standardsituationen kommen bei statistischen Analysen immer wieder vor. Mit diesen Situationen verbunden sind Merkmale, die bestimmte Typen von Verteilungen besitzen. Im Folgenden stellen wir die g¨ angigsten dieser Verteilungen vor, jeweils zusammen mit Dichtefunktion, Erwartungswert und Varianz der entsprechend verteilten Zufallsvariablen, sowie einigen grundlegenden Eigenschaften. Die hier vorgestellten Verteilungen werden in den folgenden Kapiteln ben¨ otigt. Dar¨ uber hinaus gibt es viele weitere Verteilungen, die hier nicht besprochen werden, wie zum Beispiel die Negativ-Binomialverteilung, die Beta-Verteilung, die Cauchy-Vertei¨ lung, die logistische Verteilung und andere e. Ubersichten findet man beispielsweise in Evans et al. (2000). Diskrete Verteilungen

Eine faire M¨ unze mit den beiden Seiten Kopf und Zahl wird n-mal voneinander unabh¨ angig geworfen. Es wird jeweils notiert, welche Seite oben liegt. Das erhobene Merkmal X sei die Anzahl der W¨ urfe, in denen Kopf oben gelegen hat. Dann ist f¨ ur den einzelnen Wurf die Wahrscheinlichkeit, dass Kopf oben liegt, gleich 1/2 bei einer fairen M¨ unze. Jeder einzelne Wurf stellt ein so genanntes Bernoulli-Experiment dar.

2.7

38


Definition Bernoulli-Experiment

Betrachtet wird ein einzelnes Zufallsexperiment mit den zwei möglichen Ausgängen Erfolg und Misserfolg. Dabei tritt mit Wahrscheinlichkeit p ∈ [0; 1] ein Erfolg ein, p heißt dementsprechend Erfolgswahrscheinlichkeit. Ein solches Zufallsexperiment heißt Bernoulli-Experiment.

Definition Bernoulliverteilung

Eine Zufallsvariable X , die den Wert 1 annimmt, falls ein interessierendes Ereignis eintritt, und den Wert 0, falls es nicht eintritt, und die eine Dichtefunktion f X der Form

f X (x) = px · (1 − p)1−x

f¨ ur x = 0, 1

besitzt, heißt bernoulliverteilt mit Parameter p. Schreibweise: X ∼ Bin(1; p).

Eigenschaften Der Parameter p ist definiert auf dem Intervall [0; 1]. Erwartungswert und Varianz einer bernoulliverteilten Zufallsvariablen sind E[X] = p,

Var[X] = p · (1 − p).

Zur Darstellung der Binomialverteilung ben¨ otigen wir den Binomialkoeffizienten.

Definition Binomialkoeffizient

Der Binomialkoeffizient aus zwei nat¨ urlichen Zahlen m und k ist definiert als m! m = , falls m ≥ k. k k! · (m − k)! Falls m < k , wird festgelegt, dass m k = 0 gilt. urlichen Zahl k definiert als Dabei ist die Fakult¨ at k! einer nat¨

k! = 1 · 2 · . . . · (k − 1) · k,

2.7


39

wobei per Definition 1! = 1 und 0! = 1 gesetzt wird. at, m ¨ber k. Sprechweisen: k! = k Fakult¨ k = mu

Definition Binomialverteilung

Eine diskrete Zufallsvariable X , die die Werte 0, 1, . . . , n annehmen kann, mit Dichtefunktion n · px · (1 − p)n−x für x = 0, 1, . . . , n f X (x) = x heißt binomialverteilt mit Parametern n und p. Schreibweise: X ∼ Bin(n; p).

Die Binomialverteilung wird verwendet, wenn die Anzahl der Erfolge in n voneinander unabh¨ angigen Bernoulli-Versuchen von Interesse ist. Dabei wird angenommen, dass die Erfolgswahrscheinlichkeit p in jedem der n Versuche gleich ist. Ein Beispiel ist eine klinische Studie, in der bei 100 Patienten der Heilungserfolg durch die Behandlung mit einem Medikament beobachtet wird. Erfolg tritt dabei ein, wenn ein Patient geheilt wird. Die Zufallsvariable X beschreibt die Anzahl der geheilten Patienten. Eigenschaften Der Parameter p ist definiert auf dem Intervall [0; 1]. Nimmt der Parameter p die Werte Null oder Eins an, also die Grenzen seines Definitionsbereiches, so degeneriert die Binomialverteilung zu einer so genannten Einpunktverteilung e, die einen Spezialfall der Binomialverteilung darstellt. Die Bernoulliverteilung ist ein Spezialfall der Binomialverteilung mit n = 1. Sind X1 , . . . , Xn stochastisch unabh¨ angig und identisch bernoullivern teilt mit Parameter p, dann ist ihre Summe i=1 Xi binomialverteilt mit Parametern n und p. Ist X ∼ Bin(n; p), dann ist E[X] = n · p,

Var[X] = n · p · (1 − p).

40


Definition Geometrische Verteilung

Eine diskrete Zufallsvariable X , die die Werte 1, 2, . . . annehmen kann, mit Dichtefunktion

f X (x) = p · (1 − p)x−1

f¨ ur x ∈ N = {1, 2, . . .}

heißt geometrisch verteilt mit Parameter p. Schreibweise: X ∼ Geo(p).

Die geometrische Verteilung wird benutzt, wenn die Anzahl der Versuche bis zum Eintreten des ersten Erfolgs in einem Bernoulli-Experiment von Interesse ist. Ein Beispiel ist die Anzahl der Freiw¨ urfe eines Spielers in einem Basketballspiel bis zum ersten Treffer. Wir nehmen dabei an, dass die W¨ urfe voneinander unabh¨ angig sind mit gleicher Trefferwahrscheinlichkeit p. Eigenschaften Der Parameter p ist definiert auf dem Intervall (0; 1). Ist X ∼ Geo(p), so gilt E[X] =

1 , p

Var[X] =

1−p . p2

Definition Hypergeometrische Verteilung

Eine diskrete Zufallsvariable X , die die Werte 0, 1, . . . , n annehmen kann, mit Dichtefunktion r s−r · X f (k) = k s n−k f¨ ur k ∈ {0, . . . , n} n

heißt hypergeometrisch verteilt mit Parametern s, r, n. Schreibweise: X ∼ Hyp(s, r, n).

Eigenschaften Die Parameter s, r, n sind definiert auf N, wobei r ≤ s, n ≤ s gelten muss. Die Werte der Dichtefunktion sind nur dann echt gr¨ oßer als Null, wenn k ∈ {max{0, n + r − s}, . . . , min{r, n}}.

2.7


41

Ist X ∼ Hyp(s, r, n), so gilt r E[X] = n · , s

Var[X] =

n · r · (s − r) · (s − n) . s2 · (s − 1)

Definition Poissonverteilung

Eine diskrete Zufallsvariable X , die Werte 0, 1, 2, . . . annehmen kann, mit Dichtefunktion λx · exp{−λ} für x ∈ N0 = {0, 1, 2, . . .} f X (x) = x! heißt poissonverteilt mit Parameter λ. Schreibweise: X ∼ Poi(λ).

Die Poissonverteilung ist bekannt als Verteilung der seltenen Ereignisse. Sie wird oft eingesetzt, wenn die Anzahl der innerhalb eines kleinen Zeitraums eintretenden Ereignisse gezählt wird. Dabei ist die Wahrscheinlichkeit, dass in einem kleinen Zeitraum ein solches Ereignis eintritt, typischerweise klein. Sei beispielsweise X die durchschnittliche Anzahl der Verkehrsunf¨ alle pro Stunde an einer bestimmten Kreuzung. Die Wahrscheinlichkeit, dass innerhalb einer Stunde dort ein Unfall passiert, ist relativ gering. Die Anzahl der Verkehrsunf¨ alle kann als poissonverteilt angenommen werden. Eigenschaften Der Parameter λ ist definiert auf dem Intervall (0; ∞). Ist X ∼ Poi(λ), so gilt E[X] = λ,

Var[X] = λ.

42


Stetige Verteilungen

Definition Rechteckverteilung

Eine stetige Zufallsvariable X mit Werten in R und Dichtefunktion 1 f¨ ur a ≤ x ≤ b b−a f X (x) = 0 sonst heißt rechteckverteilt (gleichverteilt) auf dem Intervall [a; b]. Schreibweise: X ∼ R[a; b].

Eigenschaften F¨ ur die Parameter gilt a, b ∈ R mit a < b. Ist X ∼ R[a; b], dann gilt E[X] =

a+b , 2

Var[X] =

(b − a)2 . 12

Definition Normalverteilung

Eine stetige Zufallsvariable X mit Werten in R und Dichtefunktion (x − µ)2 1 X √ · exp − f (x) = f¨ ur x ∈ R 2 · σ2 2·π·σ heißt normalverteilt mit Parametern µ und σ 2 . Schreibweise: X ∼ N (µ, σ 2 ). Die spezielle Normalverteilung N (0, 1) mit Parametern µ = 0 und σ 2 = 1 heißt Standardnormalverteilung. Ihre Verteilungsfunktion wird mit Φ bezeichnet.

Die Normalverteilung ist eine der wichtigsten statistischen Verteilungen. Viele Verteilungen konvergieren in gewissem Sinn gegen die Normalverteilung, so dass bei großen Stichprobenumfängen häufig die Analyse so betrieben werden kann, als ob die Beobachtungen Realisationen normalverteilter Stichprobenvariablen w¨ aren.

2.7


43

Eigenschaften F¨ ur die Parameter gelten folgende Definitionsbereiche: µ ∈ R und 2 σ ∈ R+ . Ist X ∼ N (µ, σ 2 ), dann gilt E[X] = µ,

Var[X] = σ 2 .

Eine normalverteilte Zufallsvariable X kann immer so standardisiert werden, dass ihre Transformation Z standardnormalverteilt (Z ∼ N (0, 1)) ist. Ist X ∼ N (µ, σ 2 ), dann gilt Z=

X −µ ∼ N (0, 1), σ

das heißt P(Z ≤ z) = Φ(z). Ist X ∼ N (µ, σ 2 ), dann ist eine lineare Transformation Y von X wieder normalverteilt, und es gilt Y = a · X + b ∼ N (a · µ + b, a2 · σ 2 ). Sind X1 , . . . , Xn stochastisch unabh¨ angig mit Xi ∼ N (µi , σi2 ), dann ist n n n Xi ∼ N µi , σi2 . i=1

i=1

i=1

Im Spezialfall Xi ∼ N (µ, σ 2 ) f¨ ur alle i ist dann n 1 σ2 . X= · Xi ∼ N µ, n i=1 n

44


Zur Darstellung der so genannten χ2 -Verteilung wird die Gammafunktion ben¨ otigt.

Definition Gammafunktion

F¨ ur beliebige Werte α > 0 ist die Gammafunktion an der Stelle α definiert als

∞ xα−1 · exp{−x} dx.

Γ(α) = 0

Eigenschaften Γ(1) = 1. √ Γ 12 = π. Γ(α + 1) = α · Γ(α) f¨ ur α > 0. Γ(α + 1) = α! f¨ ur α ∈ N.

Definition χ2 -Verteilung

Eine stetige Zufallsvariable X mit Werten in R und Dichtefunktion

f X (x) =

1 · x(n/2)−1 · exp{−x/2} für x > 0 2n/2 · Γ n2

heißt χ2 -verteilt mit n Freiheitsgraden, sprich chiquadrat-verteilt. Schreibweise: X ∼ χ2n .

Eigenschaften Der Definitionsbereich von n ist die Menge der nat¨ urlichen Zahlen, also n ∈ N. F¨ ur x ≤ 0 gilt f X (x) = 0. Die χ2 -Verteilung ist nicht symmetrisch.

2.7


45

Ist X ∼ χ2n , so ist E[X] = n,

Var[X] = 2 · n.

Sind Z1 , . . . , Zn stochastisch unabh¨ angig mit Zi ∼ N (0, 1), dann ist n

Zi2 ∼ χ2n .

i=1

Definition t-Verteilung

Eine stetige Zufallsvariable X mit Werten in R und Dichtefunktion Γ n+1 X 2 f (x) = √ f¨ ur x ∈ R 2 (n+1)/2 n · π · Γ n2 · 1 + xn heißt t-verteilt mit n Freiheitsgraden. Schreibweise: X ∼ tn .

Eigenschaften Die t-Verteilung wird auch Student-t-Verteilung genannt. Der Definitionsbereich von n ist die Menge der nat¨ urlichen Zahlen, also n ∈ N. Die Verteilung ist symmetrisch um Null. F¨ ur ein beliebiges p-Quantil 13 von tn gilt aufgrund der Symmetrie tn;p = −tn;1−p . Ist X ∼ tn , dann gilt E[X] = 0 f¨ ur n > 1,

Var[X] =

n f¨ ur n > 2. n−2

F¨ ur große Werte von n n¨ ahert sich die tn -Verteilung der N (0, 1)Verteilung. Als Faustregel f¨ ur eine gute Approximation gilt n ≥ 30.

46


Ist Z ∼ N (0, 1), V ∼ χ2n , und sind Z und V stochastisch unabhängig, dann ist Z ! ∼ tn . V n

Sind X1 , . . . , Xn unabh¨ angig und identisch N (µ, σ 2 )-verteilt, so ist √

n·

X −µ ∼ tn−1 , S

wobei X das arithmetische Mittel und S die Stichprobenstandardabweichung von X1 , . . . , Xn ist. Beide Größen werden hier als Zufallsvariablen aufgefasst, definiert als " # n n # 1 1 $ · X= · Xi und S = (Xi − X)2 . n i=1 n − 1 i=1

Definition F -Verteilung

Eine stetige Zufallsvariable X mit Werten in R und Dichtefunktion n/2 Γ n+m · mm/2 · x(n/2)−1 X 2 n f (x) = f¨ ur x > 0 n m · (m + n · x)(n+m)/2 Γ 2 ·Γ 2 heißt F -verteilt mit n und m Freiheitsgraden. Schreibweise: X ∼ Fn,m .

Eigenschaften Der Definitionsbereich der Freiheitsgrade n und m ist die Menge der nat¨ urlichen Zahlen, n, m ∈ N mit m > 2. F¨ ur x ≤ 0 gilt f X (x) = 0. Die F -Verteilung ist nicht symmetrisch. Ist X ∼ Fn,m , so ist E[X] =

m , m−2

m > 2,

Var[X] =

2 · m2 · (n + m − 2) , n · (m − 2)2 · (m − 4)

m > 4.

2.7


Ist X ∼ Fn,m , so ist

1 X

47

∼ Fm,n .

Ist V1 ∼ χ2n , V2 ∼ χ2m , und sind V1 und V2 stochastisch unabhängig, dann ist V1 /n ∼ Fn,m . V2 /m

Definition Exponentialverteilung


f X (x) = λ · exp{−λ · x} für x > 0 heißt exponentialverteilt mit Parameter λ. Schreibweise: X ∼ Exp(λ).

Eigenschaften F¨ ur den Parameter λ gilt λ > 0. F¨ ur x ≤ 0 gilt f X (x) = 0. Die Exponentialverteilung ist nicht symmetrisch. Ist X exponentialverteilt mit Parameter λ, so ist E[X] =

1 , λ

Var[X] =

1 . λ2

Definition Gammaverteilung


f X (x) =

λα · xα−1 · exp{−λ · x} für x > 0 Γ(α)

heißt gammaverteilt mit Parametern λ und α. Schreibweise: X ∼ Γ(λ, α).

48


Eigenschaften F¨ ur die Parameter λ und α gilt λ, α > 0. F¨ ur x ≤ 0 gilt f X (x) = 0. Die Gammaverteilung ist nicht symmetrisch. Ist X gammaverteilt mit Parametern λ und α, so ist E[X] =

α , λ

Var[X] =

α . λ2

Sind X1 , . . . , Xn unabh¨ angig und identisch gammaverteilt mit Parametern λ und α, so ist die Summe der Xi , i = 1, . . . , n, ebenfalls gammaverteilt, und zwar mit Parametern λ und α · n n

Xi ∼ Γ(λ, α · n).

i=1

Die χ2 -Verteilung ist ein Spezialfall der Gammaverteilung. Ist X ∼ χ2n , so ist X zugleich gammaverteilt mit Parametern λ = 1/2 und α = n/2. Die Exponentialverteilung ist ebenfalls ein Spezialfall der Gammaverteilung. Ist X ∼ Exp(λ), so ist X zugleich gammaverteilt mit Parametern λ und α = 1. Sind X1 , . . . , Xn unabh¨ angig und identisch exponentialverteilt mit Parameter λ, so ist die Summe der Xi , i = 1, . . . , n, gammaverteilt mit Parametern λ und n n Xi ∼ Γ(λ, n). i=1

Kapitel 3 Philosophie des Sch¨ atzens

3

3

3

Philosophie des Sch¨ atzens

51

3.1

51

3.2

Auf den Punkt gebracht“oder Grenzen setzen“ ......... ” ” Grundlagen zur Punktschätzung ..............................

3.3

Beispiele ...........................................................

59

3.4

Was ist ein guter Punktschätzer?.............................

61

3.5

Wie kommt man zu einer Schätzfunktion? ................. 106

3.6

Intervallschätzung................................................ 147

54

3.1

Auf den Punkt gebracht“oder Grenzen setzen“ ” ”

51

3 Philosophie des Sch¨ atzens 3.1 Auf den Punkt gebracht“oder Grenzen setzen“: ” ” Punktsch¨ atzung contra Intervallsch¨ atzung

3.1

Bei statistischen Analysen geht man oft davon aus, dass man f¨ ur das interessierende Merkmal weiß, welcher Art von Wahrscheinlichkeitsverteilung es folgt. Was man aber in der Regel nicht kennt, ist die genaue Verteilung, das heißt, man kennt nicht die Parameterwerte oder zumindest nicht alle Parameterwerte. Beispiel Bekannter Verteilungstyp, unbekannte Parameterwerte

Zwei Freunde wollen sich entscheiden, ob sie am Abend ins Kino gehen oder ob sie lieber einen Kneipenbummel machen. Da sie sich nicht recht zu einer der beiden Alternativen entschließen können, wollen sie per M¨ unzwurf entscheiden, was zu tun ist. Ohne weiter dar¨ uber nachzudenken, gehen sie davon aus, dass die M¨ unze fair ist, also bei einem Wurf mit Wahrscheinlichkeit 1/2 entweder Kopf oder Zahl oben liegt. Wäre der eine Freund dem anderen gegen¨ uber misstrauisch, so k¨ onnte er jedoch darauf bestehen, dass die Fairness der M¨ unze zunächst u ¨berpr¨ uft wird. Dann unterstellt er, dass P(Kopf) = p, wobei p nicht bekannt ist. Er wirft die in Frage stehende M¨ unze nun f¨ unfmal unabh¨ angig und notiert, wie oft insgesamt Kopf gefallen ist. Er weiß, dass die Zufallsvariable X, die dies zählt, binomialverteilt ist X ∼ Bin(5; p). In dieser Situation ist also der Verteilungstyp bekannt (Binomialverteilung), der Parameter n ist ebenfalls bekannt, hier n = 5, aber der Parameter p ist unbekannt. Um schließlich zu entscheiden, ob die M¨ unze fair ist, versucht der misstrauische Freund, anhand der erhobenen Daten auf p zu schließen. Man sagt, er B schätzt“ p. ” Die im Beispiel beschriebene Situation kommt bei statistischen Analysen h¨ aufiger vor. Der Verteilungstyp (auch Verteilungsklasse genannt) ist bekannt, einer oder mehrere Parameter der Verteilung sind jedoch unbekannt.

B

52

3. Philosophie des Schätzens

Das Ziel besteht dann darin, die Parameter aus einer Stichprobenerhebung des Merkmals zu schätzen. Das heißt: auf Basis einer Stichprobe x1 , . . . , xn wird u ¨ber eine Funktion T (x1 , . . . , xn ) der Stichprobenwerte (eventuell auch u ¨ber mehrere solcher Funktionen) eine Aussage dar¨ uber getroffen, welche Werte die unbekannten Parameter vermutlich haben. Modellvorstellung beim Sch¨ atzen Modell Merkmal X = Zufallsvariable mit Verteilung FX

Stichprobe x1 , . . . , xn realisierte Werte, unabh¨ angig voneinander ermittelt

stellt man sich vor als Realisierungen von n unabh¨ angigen Stichprobenvariablen X1 , . . . , Xn mit Verteilung FX ↓ Anwendung von T auf X1 , . . . , Xn : Sch¨ atzer T (X1 , . . . , Xn ) (selbst Zufallsvariable) R Realisierung an der Stichprobe: Sch¨ atzung T (x1 , . . . , xn )

Es ergeben sich die folgenden Fragen: Welche Arten von Sch¨ atzern sind m¨ oglich? Muss man f¨ ur einen gesuchten Parameter einen Wert angeben, oder gibt man einen Bereich an, innerhalb dessen man den Parameter vermutet?

3.1

Auf den Punkt gebracht“oder Grenzen setzen“ ” ”

53

Welche Anspr¨ uche stellt man an einen Schätzer? Was ist ein guter“ ” Sch¨ atzer? Wie kommt man zu einem Schätzer T ? Nach welchen Prinzipien kann man Sch¨ atzer konstruieren? Mit der ersten Frage befassen wir uns im Folgenden, die anderen Fragen werden in den weiteren Abschnitten dieses Kapitels diskutiert. Beispiel (Fortsetzung 51) Bekannter Verteilungstyp, unbekannte Parame-

terwerte Angenommen, das Untersuchungsergebnis, das der misstrauische der beiden Freunde aus dem Beispiel 51 erh¨ alt, spricht daf¨ ur, dass die M¨ unze tats¨ achlich nicht fair ist, sondern mit einer Wahrscheinlichkeit von ungef¨ ahr p = 0, 3 Kopf zeigt. Dann könnte man dieses Ergebnis auf zwei verschiedene Arten ausdr¨ ucken: die Wahrscheinlichkeit f¨ ur Kopf beträgt bei dieser M¨ unze vermutlich p = 0, 3 die Wahrscheinlichkeit p f¨ ur Kopf bei dieser M¨ unze liegt nahe bei 0, 3, B vermutlich zwischen 0, 2 und 0, 4. Im ersten Fall des Beispiels wird ein fester Wert zur Schätzung von p angegeben, im zweiten Fall benennt man einen Bereich, innerhalb dessen der Wert von p vermutet wird. Das im ersten Fall angewendete Prinzip ist die so genannte Punktsch¨ atzung, das Prinzip hinter dem zweiten Fall nennt man Intervallsch¨ atzung. Mit Verfahren der Punktsch¨ atzung ist es möglich, interessierende Parameter oder Kennzahlen von Verteilungen zu sch¨ atzen und damit von einer Teilerhebung auf die Grundgesamtheit zu schließen. Das Ergebnis einer Punktsch¨ atzung ist ein einzelner Zahlenwert, der unsere beste“ Schätzung f¨ ur den un” bekannten Parameter ist. Gute Sch¨ atzungenr liegen nahe dem wahren, zu schätzenden Wert, eine exakte Schätzung ist allerdings praktisch unm¨ oglich. Die Unsicherheit, die der Sch¨ atzung innewohnt (beachte: verschiedene Stichproben werden in der Regel zu unterschiedlichen Sch¨ atzwerten f¨ ur die Parameter f¨ uhren), wird bei der Punktsch¨ atzung nicht ber¨ ucksichtigt. Alternativ erlauben Intervallsch¨ atzmethoden die Angabe eines ganzen Bereichs (Intervalls) möglicher Parameterwerte. Die Intervallsch¨ atzung ermöglicht eine Aussage dar¨ uber, mit welcher Wahrscheinlichkeit das geschätzte Intervall den wahren Wert u ¨berdeckt. Diese Wahrscheinlichkeit kann als Maß

B

54


f¨ ur die Pr¨ azision der Sch¨ atzung verwendet werden. Je nachdem, mit welcher Sicherheit das Intervall den gesuchten Parameter enthalten soll, ist das Intervall n¨ amlich breiter oder schmaler. Die mit der Sch¨ atzung verbundene Unsicherheit wird also hier ber¨ ucksichtigt. Punktsch¨ atzung und Intervallsch¨ atzung Zur Sch¨ atzung von Kenngr¨ oßen einer Verteilung gibt es die zwei Prinzipien der Punktsch¨ atzung und der Intervallsch¨ atzung. Beide treffen anhand der in einer Stichprobe enthaltenen Information Aussagen dar¨ uber, welchen Wert die interessierende Gr¨ oße vermutlich hat. Bei der Punktschätzung wird ein Wert als Schätzung f¨ ur die interessierende Gr¨ oße angegeben. Vorteil: Eindeutiger Sch¨ atzwert. Nachteil: Ber¨ ucksichtigt nicht die Unsicherheit der Schätzung. Bei der Intervallschätzung wird ein ganzes Intervall möglicher Werte als Schätzung f¨ ur die interessierende Gr¨ oße angegeben. Vorteil: Ber¨ ucksichtigt die Unsicherheit der Schätzung. Nachteil: Kein eindeutiger Sch¨ atzwert.

3.2

3.2 Grundlagen zur Punktsch¨ atzung Punktsch¨ atzverfahren haben zum Ziel, interessierende Kenngrößen einer Verteilung durch Angabe eines Werts zu schätzen. Mittels einer Teilerhebung der Grundgesamtheit in Form einer Zufallsstichprobe soll die u ¨ber die Kenngr¨ oßen gewonnene Information auf die Grundgesamtheit u ¨bertragen werden. Dabei werden zwei Arten von Kenngr¨ oßen unterschieden. Zum Einen können dies die Parameter einer Verteilung sein, die diese eindeutig spezifizieren, wie beispielsweise p bei der Bernoulliverteilung. Zum Anderen kann es sich dabei um Charakteristika wie den Erwartungswert, die Varianz oder Quantile handeln. Nat¨ urlich ist es hier auch denkbar, Funktionen der Parameter oder Charakteristika zu sch¨ atzen.

3.2

Grundlagen zur Punktsch¨ atzung

55

Notation Ein interessierendes Merkmal werde in einer Grundgesamtheit durch eine Zufallsvariable X mit Verteilungsfunktion FX (x; ϑ) beschrieben. Dabei bezeichnet ϑ den wahren, aber unbekannten Wert des Parameters. H¨ angt eine Verteilung von mehreren Parametern ab, so ist ϑ ein Vektor. In diesen Fällen wird explizit darauf hingewiesen. Der Definitionsbereich des Parameters ϑ, der Parameterraum, wird mit Θ bezeichnet. In der Regel gilt Θ ⊆ R. Zur Einf¨ uhrung allgemeiner Konzepte, unabh¨ angig vom Verteilungstyp, werden Parameter mit dem griechischen Buchstaben ϑ bezeichnet. In Beispielen, in denen die Verfahren f¨ ur eine spezifische Verteilung angewendet werden, verwenden wir die f¨ ur die Verteilungen typischen Parameterbezeichnungen, zum Beispiel p f¨ ur die Erfolgswahrscheinlichkeit einer Bernoulliverteilung oder λ f¨ ur den Parameter einer Poissonverteilung.

Um die interessierenden Parameter schätzen zu k¨ onnen, ist es wichtig, aus den Beobachtungen die relevante Information zu extrahieren und zusammenzufassen. Dies geschieht mit Hilfe so genannter Statistiken.

Definition Statistik X

Die Zufallsvariable X besitze die Verteilungsfunktion F (x; ϑ); diese sei bis auf den Parameter ϑ ∈ Θ bekannt. Eine Statistik ist eine Funktion T von Zufallsvariablen X1 , . . . , Xn , welche als unabhängig und identisch wie X verteilt angenommen werden. Wir bezeichnen eine Statistik mit T (X1 , . . . , Xn ).

Eine besondere Art von Statistiken sind Sch¨ atzfunktionen.

Definition Sch¨ atzfunktion X

Die Zufallsvariable X besitze die Verteilungsfunktion F (x; ϑ); diese sei bis auf den Parameter ϑ ∈ Θ bekannt. Schätzungen f¨ ur den unbekannten Parameter ϑ k¨ onnen u ¨ber Statistiken berechnet werden, die wir entsprechend Tϑ (X1 , . . . , Xn ) nennen. Eine solche Statistik zum Schätzen eines Parameters wird Sch¨ atzfunktion genannt. Sind die Realisationen x1 , . . . , xn von X1 , . . . , Xn gegeben, kann der % berechnet werden als ϑ% = Tϑ (x1 , . . . , xn ). resultierende Sch¨ atzwert ϑ

56


Weitere gebräuchliche Bezeichnungen f¨ ur eine Sch¨ atzfunktion Tϑ (X1 , . . . , Xn ) sind die Begriffe Punktsch¨ atzer, Sch¨ atzer oder auch Sch¨ atzstatistik. % Der beobachtete Sch¨ atzwert ϑ wird h¨ aufig als Sch¨ atzung bezeichnet. Eine Sch¨ atzfunktion ist also nichts anderes als eine Funktion der Beobachtungen, die einen Sch¨ atzwert ϑ% f¨ ur den unbekannten Parameter ϑ liefern soll. Die Schätzfunktion Tϑ (X1 , . . . , Xn ) nimmt Werte aus dem Parameterraum Θ an. Soll nicht der Parameter ϑ einer Verteilung geschätzt werden, sondern eine Funktion ϕ(ϑ), die von ϑ abh¨ angt, benutzt man entsprechend eine Sch¨ atzfunktion Tϕ(ϑ) (X1 , . . . , Xn ). Dabei ist ϕ eine Abbildung ϕ : Θ → R. Die Sch¨ atzung von ϕ(ϑ), das heißt der aus der Stichprobe realisierte Wert bezeichnet. Entsprechendes gilt, wenn eine Tϕ(ϑ) (x1 , . . . , xn ), wird mit ϕ(ϑ) allgemeine Kenngr¨ oße der Verteilung, beispielsweise ein Quantil, gesch¨ atzt werden soll.

Die Statistik Tϑ (X1 , . . . , Xn ) ist eine Zufallsvariable, da sie als Funktiallig ist. Die Verteilung on der Zufallsvariablen X1 , . . . , Xn ebenfalls zuf¨ angt somit von der Verteilung der Zufallsvariablen von Tϑ (X1 , . . . , Xn ) h¨ X1 , . . . , Xn ab. Seien also X1 , . . . , Xn unabh¨ angige und identisch wie X verteilte Zufallsatzer f¨ ur einen unbekannten variablen und sei Tϑ (X1 , . . . , Xn ) ein Punktsch¨ Parameter ϑ der Verteilungsfunktion von X. Da der Sch¨ atzer Tϑ (X1 , . . . , Xn ) ebenfalls eine Zufallsvariable ist, ist es möglich, eine Dichte- bzw. Verteilungsfunktion dieses Sch¨ atzers anzugeben. Das heißt, das Verhalten des Punktschätzers in Abh¨ angigkeit der m¨ oglichen Stichproben l¨ asst sich durch die Dichte- oder Verteilungsfunktion beschreiben. B

Beispiel Verteilungen von Sch¨ atzfunktionen

1. Die Zufallsvariable X sei normalverteilt mit Erwartungswert µ und Variangig und identisch anz σ 2 . Die Zufallsvariablen X1 , . . . , Xn seien unabh¨ wie X verteilt. Die Dichte von X ist gegeben durch (x − µ)2 1 · exp − , x ∈ R, µ ∈ R, σ ∈ R+ . f X (x; µ, σ 2 ) = √ 2 · σ2 2·π·σ Der Erwartungswert kann durch das arithmetische Mittel n Tµ (X1 , . . . , Xn ) = X = n1 · i=1 Xi geschätzt werden. Das arithmetische alligen StichproMittel X ist selbst eine Zufallsvariable, da es von den zuf¨ angt. Um das Verhalten von X als Schätzer benvariablen X1 , . . . , Xn abh¨

3.2

Grundlagen zur Punktsch¨ atzung

57

zu verstehen, ist es daher hilfreich, die Verteilung bzw. die Dichtefunktion von X zu betrachten. Unter den genannten Voraussetzungen ist die Verteilung von X 43 eine Normalverteilung mit Erwartungswert µ, jedoch mit Varianz σ 2 /n √ (x − µ)2 n X 2 √ · exp −n · , x ∈ R, µ ∈ R, σ ∈ R+ . f (x; µ, σ ) = 2 2 · σ 2·π·σ Man beachte, dass die Xi , i = 1, . . . , n, normalverteilt sind mit Erwartungswert µ und Varianz σ 2 .

2. Die Verteilungsfunktion einer auf dem Intervall [a; b] rechteckverteilten Zufallsvariable X ist gegeben durch ⎧ f¨ ur x < a ⎨ 0 x−a f¨ u r a≤x≤b FX (x; a, b) = ⎩ b−a 1 f¨ ur x > b. Die Verteilung des Maximums Tmax (X1 , . . . , Xn ) = X(n) der Stichprobe als ein intuitiver Sch¨ atzer f¨ ur die obere Grenze b des Intervalls [a; b] ist gegeben durch ⎧ ur x < a ⎪ ⎨ & 0 'n f¨ X(n) x−a F (x) = f¨ ur a ≤ x ≤ b b−a ⎪ ⎩ 1 f¨ ur x > b. Die Verteilungsfunktionen sind also voneinander abh¨ angig.

B

Veranschaulichung Zur Verdeutlichung, dass Punktsch¨ atzer ebenfalls Zufallsvariablen sind und sich ihr Verhalten durch eine Dichte- bzw. Verteilungsfunktion beschreiben l¨ asst, bietet sich folgende kleine Simulation an, die zum Beispiel uhrt werden kann. mit dem Programmpaket R durchgef¨

58


Wir ziehen dazu 100-mal (m = 100) eine Stichprobe vom Umfang n = 5 aus einer Normalverteilung42 mit Erwartungswert µ = 5 und Varianz atzer verwenden wir das arithmetische Mittel σ 2 = 1. Als Punktsch¨ Tµ (X1 , . . . , X5 ) =

5 1 · Xj 5 j=1

Die 100 resultierenden arithmetischen Mittelwerte xi werden dann in einem Histogramm abgetragen und sollten im Idealfall ebenfalls einer Normalverteilung folgen. Das Histogramm sollte also ungef¨ ahr eine glockenähnliche Form besitzen. Programm in R: Mittelwerte< − rep(0,100) for (i in 1:100) { x.i< − rnorm(5,5,1) Mittelwerte[i]< − mean(x.i) } hist(Mittelwerte, nclass=15)

0.0

0.0

0.2

0.2

0.4

0.4

0.6

0.6

0.8

0.8

1.0

Eine viermalige Durchf¨ uhrung dieses Programmes resultierte in den hier gezeigten vier Grafiken.

3

4

5

6

7

3

4

5

6

7

6

7

0.8 0.4 0.0

0.0

0.4

0.8

1.2

M ttelwerte

1.2

Mittelwerte

3

4

5 Mittelwerte

6

7

3

4

5 M ttelwerte

3.3

Beispiele

59

0.0

0.2

0.4

0.6

0.8

1.0

Mit m = 100 ist die Anzahl der Simulationen nicht ausreichend groß, um die Normalverteilung der arithmetischen Mittel erkennen zu k¨ onnen. Werden die vier simulierten Datensätze jeweils vom Umfang m = 100 zusammengefasst, so dass m = 400 ist, so erhält man eine wesentlich bessere Veranschaulichung daf¨ ur, dass die Mittelwerte tats¨ achlich einer Normalverteilung folgen.

3

4

5

6

7

Mittelwerte

W¨ urde die Anzahl der Simulationen noch weiter erh¨ oht, beispielsweise m = 1000, w¨ urde man die Normalverteilung noch besser aus dem Histogramm erkennen.

3.3 Beispiele Beispiel (Fortsetzung 4) Klinischer Versuch Im Beispiel 4 des klinischen Versuchs aus der Einleitung kann man die Anzahl der geheilten Patienten als Indikator f¨ ur die Heilungswahrscheinlichkeit des Medikaments ansehen. Die Zufallsvariable, die diese Anzahl erfasst, ist binomialverteilt mit Parametern n und p. Dabei entspricht n der Anzahl der Patienten in der Studie, und die Heilungswahrscheinlichkeit ist p ∈ [0; 1]. Aus den zu den Beobachtungen x1 , . . . , xn gehörenden Stichprobenvariablen X1 , . . . , Xn soll nun eine geeignete Schätzfunktion Tp (X1 , . . . , Xn ) konstruiert werden, so dass T (x1 , . . . , xn ) eine möglichst genaue Sch¨ atzung p% f¨ ur die Heilungswahrscheinlichkeit liefert.

3.3

60

B


Beispiel K¨ orpergr¨ oße

In einer Studie wird die K¨ orpergr¨ oße von Kindern ermittelt, sobald diese das 5. Lebensjahr erreicht haben. Es kann angenommen werden, dass die K¨ orpergr¨ oße gut durch eine normalverteilte Zufallsvariable beschrieben werden kann mit Lageparameter µ und Streuungsparameter σ 2 . Die Klasse aller Normalverteilungen ist gegeben durch {N (µ, σ 2 ),

µ ∈ R; σ 2 ∈ R+ }.

Darin befindet sich auch die Normalverteilung, die die Verteilung der K¨ orpergr¨ oße der Kinder zu Beginn des 5. Lebensjahres beschreibt. Basierend auf einer Stichprobe kann nun versucht werden, µ und σ 2 möglichst genau zu schätzen. Alternativ k¨ onnen auch Bereiche geschätzt werden, die die unbe¨ berkannten Parameter µ und σ 2 mit einer gewissen Wahrscheinlichkeit u decken. Gesucht sind dann Konfidenzintervalle f¨ ur die Parameter µ und B σ2 . Beispiel Straßenk¨ unstler Ein Straßenk¨ unstler stellt sich des o¨fteren als bronzene Caesarstatue verkleidet auf den Markusplatz in Venedig. Als unbewegliches Objekt ist er dort hilflos den abgelassenen Exkrementen der zahlreichen Tauben ausgesetzt. Er geht davon aus, dass die Anzahl der Treffer innerhalb einer halben Stunde poissonverteilt ist mit unbekanntem Parameter λ. Um den f¨ ur ihn angenehmsten Standort herauszufinden, dokumentiert er f¨ ur verschiedene Standorte, wie oft er pro halber Stunde in seinen Statue-Spielzeiten von einer Taube getroffen wird, und erh¨ alt die folgenden Daten

2

1

2

0

0

1

1

1

0

1

Interessante Fragestellungen k¨ onnen sein: Welche Schätzfunktionen eignen sich zur Sch¨ atzung des Parameters λ, des Erwartungswerts, der Varianz oder der mittleren Trefferrate? Wie schätzt man die Wahrscheinlichkeit, dass er während seines halbst¨ undigen Stillstehens komplett verschont bleibt? Welche Eigenschaften besitzen diese Schätzfunktionen? Wie sehen die Sch¨ atzwerte am konkreten Beispiel aus? Antworten auf diese Fragen werden in den folgenden Abschnitten zur Sch¨ atztheorie gegeben.

3.4

Was ist ein guter Punktsch¨ atzer?

61

3.4 Was ist ein guter Punktsch¨ atzer? Im Beispiel 59 soll die Heilungswahrscheinlichkeit p eines Medikaments in einem klinischen Versuch geschätzt werden. F¨ ur eine gute“ Schätzung von p ” muss das richtige Sch¨ atzverfahren verwendet werden. Wie wird aber entschieden, welche Verfahren gute“ Sch¨ atzungen liefern? Offensichtlich ben¨ otigen ” wir geeignete G¨ utekriterien als Grundlage f¨ ur die Herleitung von Sch¨ atzverfahren, die zu guten“ Sch¨ atzern f¨ ur unbekannte Parameter, Funktionen von ” Parametern oder andere Kenngr¨ oßen von Verteilungen f¨ uhren. Nachdem wir definiert haben, was eine Sch¨ atzfunktion ist, geben wir nun ein Beispiel daf¨ ur, wie Sch¨ atzfunktionen aussehen k¨ onnen. Beispiel (Fortsetzung 4 59) Klinischer Versuch Wir betrachten die bernoulliverteilte Zufallsvariable X mit Parameter angige und p, die den Heilungserfolg beschreibt. X1 , . . . , Xn seien unabh¨ identisch wie X verteilte Stichprobenvariablen. Der Parameterraum Θ ist das Intervall [0; 1]. Bezeichne X den Wertebereich von X. Dann sind alle Funktionen Tp mit

Tp : X → [0; 1] mögliche Schätzfunktionen, um den Parameter p zu schätzen. Konstante Funktionen der Form Tp (X1 , . . . , Xn ) = c sind nach dieser Definition zugelassen, erscheinen jedoch nicht besonders sinnvoll, da sie von den Daten unabh¨ angig sind. Es k¨ onnen beispielsweise folgende Schätzfunktionen betrachtet werden: a) Tp (X1 , . . . , Xn ) = 0, 9, b) Tp (X1 , . . . , Xn ) =

n ( i=1

eine konstante Sch¨ atzfunktion;

Xi ,

das Produkt aller Beobachtungen aus der Stichprobe; ) n * 1 · Xi + 2 , c) Tp (X1 , . . . , Xn ) = n + 4 i=1 das arithmetische Mittel aller Beobachtungen aus der Stichprobe, in die noch zwei Erfolge und zwei Misserfolge aufgenommen wurden;

3.4

62


d) Tp (X1 , . . . , Xn ) =

n 1 · Xi , n i=1

das arithmetische Mittel aller Beobachtungen der Stichprobe; n/4 n 1 · Xi + Xi , e) Tp (X1 , . . . , Xn ) = n/2 i=1 i=n−n/4+1 das arithmetische Mittel des ersten und des letzten Viertels der Stichprobenvariablen, wobei wir davon ausgehen, dass n durch vier teilbar ist. Sei folgende Stichprobe x1 , . . . , x12 realisiert worden 1

1

0

1

1

1

1

1

1

1

0

0

F¨ ur die Sch¨ atzfunktionen aus a) bis e) ergeben sich damit die folgenden Sch¨ atzungen: a) p% = Tp (x1 , . . . , x12 ) = 0, 9 b) p% = Tp (x1 , . . . , x12 ) =

12 ( i=1

xi = 1 · 1 · 0 · 1 · 1 · 1 · 1 · 1 · 1 · 1 · 0 · 0 = 0

) 12 * 1 11 · = 0, 6875 c) p% = Tp (x1 , . . . , x12 ) = xi + 2 = 16 i=1 16 12 1 9 · = 0, 75 xi = d) p% = Tp (x1 , . . . , x12 ) = 12 i=1 12 ) 3 * 12 1 1 e) p% = Tp (x1 , . . . , x12 ) = · xi + xi = · [2 + 1] = 0, 5 6 i=1 6 i=10 Welcher dieser Schätzer ist sinnvoll? Sicherlich darf die Eignung von Tp aus a) zur Sch¨ atzung von p bezweifelt werden, da unabh¨ angig von der gezogenen Stichprobe p immer konstant mit p% = 0, 9 geschätzt wird. Außer f¨ ur den Fall, dass tats¨ achlich p = 0, 9 ist, ist er daher unbefriedigend. Da Tp aus b) das Produkt der Einzelbeobachtungen ist und diese als bernoulliverteilte Zufallsvariablen nur die Werte 0 und 1 annehmen k¨ onnen, k¨ onnen auch Sch¨ atzungen nur diese beiden Werte annehmen.

3.4


63

Ist auch nur einer der beobachteten Werte 0, so wird sofort auch die Sch¨ atzung 0. Bei Verwendung der Schätzfunktion Tp aus c) fließt die gesamte Information aus der Stichprobe in die Sch¨ atzung ein, jedoch ist zweifelhaft, warum man zwei Erfolge und zwei Misserfolge zur Stichprobe hinzunehmen soll. Die verbleibenden Sch¨ atzfunktionen aus d) und e) basieren auf dem arithmetischen Mittel von Beobachtungen aus der Stichprobe. Sie unterscheiden sich nur in der Anzahl der Beobachtungen, die in ihre Berechnung einfließen. Nachdem sich die ersten zwei Schätzer als ungeeignet f¨ ur die Sch¨ atzung des Parameters p erwiesen haben, stellt sich die Frage, wie die verbleibenden sinnvoll zu bewerten sind, so dass wir die geeignetste unter ihnen f¨ ur die Sch¨ atzung von p finden. Dazu sollte man die Eigenschaften dieser Schätzer betrachten. W¨ unschenswert ist zum Beispiel, dass bei wiederholter Stichprobenziehung die Sch¨ atzungen f¨ ur p im Mittel“ um den wahren Parameterwert streuen. Diese Ei” atzers genannt. Die genschaft wird Erwartungstreue 64 eines Punktsch¨ Sch¨ atzfunktion sollte aber auch eine m¨ oglichst geringe Varianz besitzen, das heißt bei wiederholten Schätzungen sollten die erhaltenen Sch¨ atzwerte nur wenig streuen. Kriterien, die die Streuung eines Sch¨ atzers bewerten, sind der MSE (mittlerer quadratischer Fehler) 71 und die Effizienz 76. Eine weitere Eigenschaft einer Schätzfunktion ist die Konsistenz 86. Sie beschäftigt sich mit dem Grenzverhalten der Sch¨ atzfunktion f¨ ur wachsende Stichprobenumf¨ ange. Eine suffiziente Sch¨ atzfunktion 94 verwertet die gesamte Information, die in der Stichprobe u ¨ber den zu sch¨ atzenden Parameter enthalten ist. Es geht keine wesentliche Information verloren. Gute Sch¨ atzer werden daher immer auf suffizienten Statistiken beruhen. Im Folgenden werden die beschriebenen Eigenschaften formal definiert und erl¨ autert. Zur Erinnerung Die Erarbeitung von Eigenschaften und G¨ utekriterien f¨ ur Punktsch¨ atzer setzt das Bewusstsein voraus, dass jeder Punktschätzer selbst eine Zufallsvariable ist.

Erwartungstreue und asymptotische Erwartungstreue

Eine der wichtigsten Eigenschaften f¨ ur Punktsch¨ atzer ist die Erwartungsur ϑ betreue. Ein Punktsch¨ atzer Tϑ (X1 , . . . , Xn ) wird als erwartungstreu f¨ zeichnet, wenn Tϑ (X1 , . . . , Xn ) im Mittel den wahren Parameter ϑ schätzt.

64


Dies ist genau dann der Fall, wenn der Erwartungswert des Punktsch¨ atzers dem zu schätzenden Parameterwert entspricht. H¨ aufig wird diese Eigenschaft auch Unverzerrtheit eines Punktsch¨ atzers genannt.

Definition Erwartungstreue

Seien X1 , . . . , Xn unabhängige Stichprobenvariablen mit identischer Verteilungsfunktion, welche von einem Parameter ϑ aus einer Menge Θ möglicher Parameterwerte abhängig ist. Ein Punktschätzer Tϑ (X1 , . . . , Xn ) wird als erwartungstreu oder unverzerrt (englisch unbiased) f¨ ur den Parameter ϑ bezeichnet, wenn gilt f¨ ur alle ϑ ∈ Θ.

Eϑ [Tϑ (X1 , . . . , Xn )] = ϑ

Soll eine Funktion ϕ(ϑ) des Parameters geschätzt werden, so heißt eine Schätzfunktion Tϕ(ϑ) (X1 , . . . , Xn ) f¨ ur ϕ(ϑ) erwartungstreu, wenn gilt f¨ ur alle ϑ ∈ Θ.

Eϑ [Tϕ(ϑ) (X1 , . . . , Xn )] = ϕ(ϑ)

Beispiel (Fortsetzung 4 59 61) Klinischer Versuch Im Beispiel der Bernoulliverteilung haben sich die Sch¨ atzfunktionen (n Tp (X1 , . . . , Xn ) = 0, 9 und Tp (X1 , . . . , Xn ) = i=1 Xi bereits als ungeeignet erwiesen. F¨ ur die drei verbleibenden Sch¨ atzfunktionen betrachten wir nun den Erwartungswert. Unter der Annahme, dass die Zufallsvariablen X1 , . . . , Xn identisch verteilt sind, ergibt sich n 2 n·p 1 · + , c) Ep [Tp (X1 , . . . , Xn )] = Ep Xi + 2 = n+4 n+4 n+4 i=1

d) Ep [Tp (X1 , . . . , Xn )]

= Ep ⎡

e) Ep [Tp (X1 , . . . , Xn )]

= Ep ⎣

=

n n 1 1 · Xi = · Ep [Xi ] = p, n i=1 n i=1 ⎛

n/4

1 ⎝ · Xi + n/2 i=1

n i=n−n/4+1

n , 1 +n · · p + · p = p. n/2 4 4

⎞⎤ Xi ⎠⎦

3.4


65

Es zeigt sich, dass nur Tp aus d) und e) die Eigenschaft der Erwartungstreue besitzen. F¨ ur den Sch¨ atzer Tp aus c) gilt aber immerhin limn→∞ Ep [Tp (X1 , . . . , Xn )] = p. Diese Eigenschaft ist als asymptotische Erwartungstreue 67 bekannt. Da die beiden Sch¨ atzer aus d) und e) beide erwartungstreu sind, k¨ onnen sie in diesem Sinne als gleich gut betrachtet werden. Um zu entscheiden, ob einer der beiden Sch¨ atzer besser“ ist, kann man zusätzlich ihre ” Varianzen betrachten. Unter der Annahme, dass die Zufallsvariablen X1 , . . . , Xn unabh¨ angig und identisch verteilt sind, ergibt der Vergleich von Tp aus d) und e) bez¨ uglich ihrer Varianz d) Varp [Tp (X1 , . . . , Xn )]

= Varp =

p · (1 − p) , n

⎡ e) Varp [Tp (X1 , . . . , Xn )]

= Varp ⎣

=

n n 1 1 · Xi = 2 · Varp [Xi ] n i=1 n i=1

⎛

n/4

1 ⎝ · Xi + n/2 i=1

n

⎞⎤ Xi ⎠⎦

i=n−n/4+1

2 · p · (1 − p) . n

Beide Sch¨ atzer werden also im Mittel den richtigen Wert sch¨ atzen, wobei Tp aus d) jedoch eine zweimal kleinere Varianz besitzt als Tp aus e). Dass ein Schätzer, der nur eine kleine Varianz besitzt oder der nur erwartungstreu ist, noch nicht unbedingt als zufriedenstellend“ bezeichnet wer” den kann, kann man sich in EMILeA-stat e in einem interaktiven Applet ansehen. Der abgebildete Screenshot zeigt, wie sich die Realisierungen zweier Sch¨ atzer um den zu schätzenden Parameter verteilen, wobei der eine Schätzer erwartungstreu ist, aber eine große Varianz besitzt, w¨ ahrend der andere eine kleine Varianz aufweist, jedoch nicht erwartungstreu ist.

66


Zus¨ atzlich sollte eine weitere Betrachtung beider Punktschätzer bez¨ uglich der anderen G¨ utekriterien und Eigenschaften, wie Effizienz 76, Konsistenz 86 oder Suffizienz 93 vorgenommen werden. Die Definition der Erwartungstreue zieht die Definition des Bias einer Sch¨ atzfunktion nach sich. Ist eine Sch¨ atzfunktion n¨ amlich nicht erwartungstreu, dann m¨ ochte man gerne wissen, um welchen Wert sie im Mittel vom wahren Parameterwert abweicht.

Definition Bias

Seien X1 , . . . , Xn unabhängige Stichprobenvariablen mit identischer Verteilungsfunktion, welche von einem Parameter ϑ aus einer Menge Θ möglicher Parameterwerte abhängt. Dann nennt man die mittlere“ Abweichung eines Punktschätzers ” Tϑ (X1 , . . . , Xn ) vom wahren Parameter ϑ Bias oder auch Verzerrung und schreibt Biasϑ [Tϑ (X1 , . . . , Xn )] = Eϑ [Tϑ (X1 , . . . , Xn )] − ϑ. F¨ ur Funktionen ϕ(ϑ) ist der Bias analog definiert durch Biasϑ [Tϕ(ϑ) (X1 , . . . , Xn )] = Eϑ [Tϕ(ϑ) (X1 , . . . , Xn )] − ϕ(ϑ).

F¨ ur die Sch¨ atzfunktion Tp aus Teil c) des Beispiels 64 hatten wir festgestellt, dass sich ihr Erwartungswert f¨ ur wachsenden Stichprobenumfang n dem Parameter p zunehmend ann¨ ahert. Diese so genannte asymptotische Erwartungstreue bedeutet, dass der Bias von Tp mit wachsendem Stichprobenumfang verschwindet. Ist also n ausreichend groß, so kann die Sch¨ atzfunktion durchaus zuverl¨ assige Schätzwerte f¨ ur p liefern.

3.4


67

Definition Asymptotische Erwartungstreue

Bezeichne {T }n = {Tϑ (X1 , . . . , Xn )}n , n ∈ N, eine Folge von Punktschätzern. Diese heißt asymptotisch erwartungstreu f¨ ur ϑ bzw. ϕ(ϑ), wenn gilt

lim {Eϑ [Tϑ (X1 , . . . , Xn )]}n = ϑ, lim {Eϑ Tϕ(ϑ) (X1 , . . . , Xn ) }n = ϕ(ϑ).

n→∞

bzw.

n→∞

Asymptotisch erwartungstreue Punktsch¨ atzer m¨ ussen also f¨ ur eine endliche Stichprobe nicht erwartungstreu sein, ihr Erwartungswert konvergiert aber f¨ ur n → ∞ gegen den wahren Parameterwert ϑ bzw. ϕ(ϑ). Ein Beispiel daf¨ ur ist gegeben, wenn f¨ ur eine auf dem Intervall [0; b] rechteckverteilte Zufallsvariable der Parameter b durch die maximale Beobachtung der Stichprobe geschätzt wird. Das Zweifache des arithmetischen Mittels, 2 · X, ist hingegen erwartungstreu f¨ ur b, unabh¨ angig vom Stichprobenumfang. Beispiel Rechteckverteilung Sei X eine auf dem Intervall [0; b] rechteckverteilte Zufallsvariable, also angige und identisch wie X X ∼ R[0; b], und seien X1 , . . . , Xn unabh¨ verteilte Stichprobenvariablen. Zwei m¨ ogliche Sch¨ atzfunktionen f¨ ur den Parameter b sind Tb und Tb mit

Tb (X1 , . . . , Xn ) =

n 2 · Xi = 2 · X n i=1

und

Tb (X1 , . . . , Xn ) = max{X1 , . . . , Xn } = X(n) . Die Untersuchung auf Erwartungstreue ergibt f¨ ur Tb Eb [Tb (X1 , . . . , Xn )] = Eb [2 · X] = 2 · Eb [X] =

b 2 · n · = b. n 2

Somit ist Tb f¨ ur b erwartungstreu. ur Tb (X1 , . . . , Xn ) = F¨ ur Tb gilt dies nicht, denn der Erwartungswert f¨ asst sich wie folgt berechnen X(n) l¨ +

,

Eb Tb (X1 , . . . , Xn ) = Eb [X(n) ]

(∗)

∞ x · f X(n) (x)dx

=

−∞

68


b = 0

b n · xn−1 n · xn+1 n · b. x· dx = = n n b (n + 1) · b 0 n+1

n−1 (∗) Die Dichte des Maximums ist gegeben durch f X(n) (x) = nb · xb f¨ ur 0 ≤ x ≤ b und 0 sonst 37. Das Maximum der Stichprobe ist also keine erwartungstreue Sch¨ atzfunktion. L¨ asst man jedoch den Stichprobenumfang n beliebig groß werden, ur den Parameter b asymso konvergiert n/(n + 1) gegen 1. X(n) ist also f¨ ptotisch erwartungstreu, denn es gilt n+1 · b = b. n→∞ n

lim Eb (X(n) ) = lim

n→∞

Aus diesem asymptotisch erwartungstreuen Sch¨ atzer Tb l¨ asst sich nun ein erwartungstreuer Sch¨ atzer konstruieren, indem Tb um einen entsprechenden Vorfaktor korrigiert wird. Betrachtet man den korrigierten Sch¨ atzer

Tb (X1 , . . . , Xn ) =

n+1 · X(n) , n

dann zeigt sich, dass dieser Schätzer f¨ ur b erwartungstreu ist + , n+1 n+1 n · Eb X(n) = · · b = b. Eb Tb (X1 , . . . , Xn ) = n n n+1

Regel Sch¨ atzung des Erwartungswerts einer Zufallsvariable mit beliebiger Verteilung Seien X1 , . . . , Xn Stichprobenvariablen, die identisch wie X verteilt sind mit Verteilungsfunktion FX . Sei weiter mit µ = E[X] der Erwartungswert von X bezeichnet. Dann kann gezeigt werden, dass Tµ (X1 , . . . , Xn ) = X =

n 1 · Xi n i=1

ein erwartungstreuer Punktsch¨ atzer f¨ ur den Erwartungswert µ ist, falls E[X] existiert: n n n 1 1 n 1 · E[X] = E Xi = · E[Xi ] = · E[X] = · E[X] = µ. n i=1 n i=1 n i=1 n

3.4


69

Regel Sch¨ atzung der Varianz einer Zufallsvariable mit beliebiger Verteilung Seien X1 , . . . , Xn unabh¨ angige Stichprobenvariablen, die identisch wie X verteilt sind mit Verteilungsfunktion FX . Sei weiter µ = E[X] der Erwartungswert und σ 2 = Var(X) die Varianz von X. Wir setzen voraus, dass beide Größen existieren. Die Schätzfunktion Tσ2 (X1 , . . . , Xn ) = S∗2 =

n n 1 1 2 2 · (Xi − X)2 = · X −X n i=1 n i=1 i

ist nicht erwartungstreu f¨ ur die Varianz σ 2 : n n 1 1 2 2 2 2 · E[S∗ ] = E Xi − X = · E[Xi2 ] − E[X ] n i=1 n i=1 =

n 2 1 · Var[Xi ] + [E[Xi ]]2 − Var[X] − E[X] n i=1

=

σ 2 + µ2 −

=

1 n−1 2 · σ2 = ·σ . 1− n n

(∗)

1 · σ 2 − µ2 n

(∗) Anwendung des Verschiebungssatzes 27 Der Bias von Tσ2 (X1 , . . . , Xn ) berechnet sich somit zu Bias [Tσ2 (X1 , . . . , Xn )]

= E [Tσ2 (X1 , . . . , Xn )] − σ 2 =

n−1 n

· σ2 − σ2 = −

1 2 ·σ . n

Das heißt, die Varianz wird durch S∗2 untersch¨ atzt. Jedoch gilt f¨ ur S∗2 n−1 asymptotische Erwartungstreue, da der Term n f¨ ur n → ∞ gegen 1 strebt. Eine erwartungstreue Sch¨ atzfunktion f¨ ur σ 2 ist dagegen durch die Stichprobenvarianz S2 =

n 1 n · · S2 (Xi − X)2 = n − 1 i=1 n−1 ∗

70


gegeben, denn E[S 2 ] =

n−1 2 n n · E[S∗2 ] = · · σ = σ2 . n−1 n−1 n

Aus diesem Grund wird in der Stichprobenvarianz S 2 der Vorfaktor 1 1 ahlt. Das Prinzip der Momentensch¨ atzung 108 n−1 anstelle von n gew¨ und das Prinzip der Maximum-Likelihood-Sch¨ atzung 120 liefern als Sch¨ atzer f¨ ur σ 2 jedoch S∗2 (siehe Beispiele 111 und 123). B

Beispiel Binomialverteilung

Im Rahmen einer Qualit¨ atssicherungsmaßnahme bei der Produktion von Winterreifen interessiert der Anteil defekter Reifen in einer produzierten Charge. Zur Bestimmung des Ausschussanteils p wird eine Stichprobe vom Umfang n aus der Produktion genommen. Zu sch¨ atzen sei außerdem die Wahrscheinlichkeit, dass von zwei gezogenen Teilen beide defekt sind. Diese Wahrscheinlichkeit ist gerade p2 , so dass erwartungstreue Schätzungen von p und p2 gesucht sind. Seien also X1 , . . . , Xn unabh¨ angige und identisch wie X verteilte Stichprobenvariablen, wobei Xi , i = 1, . . . , n den Wert 1 annimmt, wenn es sich um einen defekten Reifen handelt, und 0 sonst. Dann sind X1 , . . . , Xn bernoulliverteilt mit Parameter p, wobei p die Wahrscheinlichkeit angibt, dass ein Reifen defekt ist. Bezeichne nun Y die Anzahl der defekten Reifen in der n Stichprobe. Dann ist Y = i=1 Xi binomialverteilt, Y ∼ Bin(n; p). Sei zun¨ achst der Anteil defekter Reifen zu schätzen. Das arithmetische Mittel Tp (X1 , . . . , Xn ) = X = Yn als Schätzfunktion ist erwartungstreu f¨ ur den Ausschussanteil p, da der Erwartungswert von Bin(n; p)-verteilten Zufallsvaochte man nun die riablen n · p ist (39 oder auch aus der Regel 68). M¨ achst vermuten, dass p2 Wahrscheinlichkeit p2 schätzen, so könnte man zun¨ 2 durch Tp2 (X1 , . . . , Xn ) = X erwartungstreu geschätzt werden kann. Dies ist jedoch nicht der Fall 2

Ep [X ] = =

1 (∗) 1 · Ep [Y 2 ] = 2 · Varp [Y ] + [Ep [Y ]]2 2 n n p · (1 − p) 1 . · n · p · (1 − p) + n2 · p2 = p2 + n2 n

(∗) Anwendung des Verschiebungssatzes 27 Der Schätzer ist jedoch asymptotisch erwartungstreu, da der zweite Term f¨ ur steigenden Stichprobenumfang n gegen Null konvergiert.

3.4


71

Die Schätzfunktion Tp2 (X1 , . . . , Xn ) = tungstreu

n n−1

+ 2 · X −

1 n

, · X ist f¨ ur p2 erwar-

Ep [Tp2 (X1 , . . . , Xn )] ) ) * * 1 1 n p · (1 − p) n 2 · Ep [X ] − · Ep [X] = · p2 + − ·p = n−1 n n−1 n n ) * n n · p2 p2 (n − 1) · p2 p2 = · p2 − = − = = p2 . n−1 n n−1 n−1 n−1 atzt werden, dann ist Soll also p2 erwartungstreu gesch¨ Tp2 (X1 , ..., Xn ) =

n 1 2 · (X − · X) n−1 n

ein geeigneter Sch¨ atzer.

B

Der mittlere quadratische Fehler (MSE)

Der Mittlere Quadratische Fehler, kurz MSE (englisch: mean-squared error), ist ebenfalls ein G¨ utemaß f¨ ur Punktsch¨ atzer. Er setzt sich zusammen aus dem Bias und der Varianz des Punktsch¨ atzers. Betrachtet man einen erwartungstreuen Sch¨ atzer, so wird dieser nicht zufriedenstellend sein, wenn er eine große Varianz aufweist. Daher ist die Varianz als G¨ utekriterium sinnvoll. Betrachtet man andererseits zwei nicht erwartungstreue Schätzer, die beide dieselbe Varianz besitzen, von denen aber der erste einen deutlich gr¨ oßeren Bias besitzt als der zweite, so wird man den zweiten Schätzer als besser ansehen. Der MSE schafft als G¨ utekriterium einen Ausgleich, denn f¨ ur nicht notwendig erwartungstreue Sch¨ atzer mit unterschiedlichen Varianzen erweist sich eine Kombination aus Bias und Varianz als sinnvoll. Dies konnten wir bereits in der Abbildung 65 erkennen. Eine solche Kombination der beiden Gr¨ oßen Bias und Varianz ergibt sich aus der Bestimmung des erwarteten quadrierten Abstands des Punktsch¨ atzers vom zu schätzenden Parameter. Definition Mittlerer quadratischer Fehler (MSE)

ur einen Der mittlere quadratische Fehler eines Punktschätzers Tϑ (X1 , . . . , Xn ) f¨ Parameter ϑ ist definiert als MSEϑ [Tϑ (X1 , . . . , Xn )] = Eϑ (Tϑ (X1 , . . . , Xn ) − ϑ)2 . Der MSE kann als Vergleichskriterium f¨ ur Punktschätzer herangezogen werden. Schätzer mit kleinem MSE sind dabei vorzuziehen.

72


Das Kriterium kombiniert die Forderung nach einer geringen Verzerrung (Bias) mit der nach einer geringen Varianz, indem beide Maße gemeinsam betrachtet werden. Insbesondere gilt, dass der MSE die Summe aus der Varianz und dem Quadrat des Bias ist MSE = Varianz + Bias2 . Sei Tϑ = Tϑ (X1 , . . . , Xn ), dann ist + , 2 MSEϑ [Tϑ ] = Eϑ (Tϑ − ϑ) =

Eϑ [Tϑ2 ] − 2 · Eϑ [Tϑ ] · ϑ + ϑ2

=

Eϑ [Tϑ2 ] − [Eϑ [Tϑ ]] + [Eϑ [Tϑ ]] − 2 · Eϑ [Tϑ ] · ϑ + ϑ2

=

Varϑ [Tϑ ] + [E[Tϑ ] − ϑ] = Varϑ [Tϑ ] + [Biasϑ [Tϑ ]]2 .

2

(da Eϑ [ϑ] = ϑ) 2

2

Ist ein Schätzer erwartungstreu, so ist der Bias gleich Null, und der MSE entspricht der Varianz MSEϑ [Tϑ ] = Varϑ [Tϑ ]. B

Beispiel Beispiel Exponentialverteilung

Sei X eine exponentialverteilte Zufallsvariable mit Parameter λ > 0, das heißt mit Dichtefunktion f X (x; λ) = λ · exp{−λ · x},

λ > 0.

angige und identisch wie X verteilte StichprobenvaSeien X1 , . . . , Xn unabh¨ riablen. Als Sch¨ atzfunktion f¨ ur den Parameter λ wird der Sch¨ atzer Tλ (X1 , . . . , Xn ) =

1 −1 =X X

vorgeschlagen. Der MSE ist definiert als der erwartete quadratische Abstand der Sch¨ atzfunktion Tλ (X1 , . . . , Xn ) vom wahren Parameterwert λ 2 1 MSEλ [Tλ (X1 , . . . , Xn )] = Eλ (Tλ (X1 , . . . , Xn ) − λ)2 = Eλ −λ X

3.4


73

=

Eλ

1 X

2

) − 2 · λ · Eλ

* 1 + λ2 . X

Um den MSE explizit auszurechnen, m¨ ussen zunächst die Größen ) * 2 1 1 und Eλ Eλ X X bestimmt werden. Dazu benötigt man die Verteilung der Summe von X1 , . . . , Xn . Aus den Eigenschaften der Gammaverteilung 48 wissen wir, dass die Summe unabh¨ angiger und identisch exponentialverteilter Zufallsvariablen gammaverteilt ist, genauer n Y = Xi ∼ Γ(λ, n). i=1

Basierend auf dieser Kenntnis lassen sich nun beide Erwartungswerte berechnen als ) Eλ

1 X

* = Eλ ∞ = 0

=

+n, Y

∞ = −∞

n Y · f (y) dy y

n · λn · y n−2 · exp{−λ · y} dy Γ(n)

n · Γ(n − 1) ·λ· Γ(n)

∞ 0

Dichte einer Gammavtlg. mit Parametern n−1 und λ

=

1 · λn−1 · y n−2 · exp{−λ · y} dy Γ(n − 1) ./ 0 ./

=1

n ·λ n−1

und Eλ

1 X

2

) =

Eλ

* ∞ 2 n2 n · λn · y n−3 · exp{−λ · y} dy = 2 Y Γ(n) 0

2

=

n · Γ(n − 2) · Γ(n)

0

74


λ2 ·

∞

0

=

1 · λn−2 · y n−3 · exp{−λ · y} dy Γ(n − 2) ./ 0 Dichte einer Gammavtlg. mit Parametern n−2 und λ

./

=1

0

λ2 · n2 . (n − 1) · (n − 2)

Damit l¨ asst sich nun der MSE berechnen als MSEλ [Tλ (X1 , . . . , Xn )]

=

n 2 · λ2 n − 2 · λ2 · + λ2 (n − 1) · (n − 2) n−1

=

n+2 · λ2 . (n − 1) · (n − 2) B

B

Beispiel Rechteckverteilung

Seien X1 , . . . , Xn unabh¨ angige und identisch wie X verteilte Zufallsvariablen mit X ∼ R[ϑ; ϑ + 1]. Der Parameter ϑ ∈ R sei unbekannt. Eine m¨ ogliche Sch¨ atzfunktion f¨ ur ϑ ist T = Tϑ (X1 , . . . , Xn ) = X − c, wobei c ∈ R zun¨ achst beliebig gewählt werden kann. F¨ ur welchen Wert c wird der MSE dieser Schätzfunktion, das heißt MSEϑ [Tϑ (X1 , . . . , Xn )], am kleinsten? Der Erwartungswert und die Varianz der Sch¨ atzfunktion berechnen sich zu Eϑ [T ] = Eϑ [X − c] = Eϑ [X] − c = Eϑ [X1 ] − c = ϑ + Varϑ [T ] = Varϑ [X − c] = Varϑ [X] =

1 − c, 2

1 Varϑ [X1 ] = . n 12 · n

Daraus folgt 2

MSEϑ [T ] = Varϑ (T ) + [Eϑ (T ) − ϑ] =

) *2 1 1 + −c , 12 · n 2

woraus ersichtlich wird, dass der MSE f¨ ur c = 1/2 minimiert wird. Das heißt, unter allen m¨ oglichen Sch¨ atzfunktionen T = Tϑ (X1 , . . . , Xn ) = X − c, c ∈ R, B besitzt Tϑ∗ = X − 1/2 den kleinsten MSE. Ein im Sinne des MSE guter“ Punktsch¨ atzer soll einen kleinen MSE besit” zen. Der beste“ Schätzer wäre in diesem Zusammenhang also derjenige mit ” dem kleinsten MSE unter allen möglichen Schätzern f¨ ur den interessierenden

3.4


75

Parameter. Allerdings h¨ angt der mittlere quadratische Fehler eines Schätzers in der Regel vom zu schätzenden Parameter ϑ ab. Der beste Schätzer m¨ usste also eine MSE-Funktion (in Abh¨ angigkeit von ϑ) besitzen, die f¨ ur alle möglichen Werte von ϑ kleinere Werte besitzt als die MSE-Funktionen aller anderen Sch¨ atzer f¨ ur den Parameter. Oftmals u ¨berschneiden sich die MSE zweier Sch¨ atzfunktionen, wenn der MSE als Funktion von ϑ ∈ Θ betrachtet wird. Ei oglicherweise nur f¨ ur einen ne Sch¨ atzfunktion Tϑ (X1 , . . . , Xn ) besitzt dann m¨ Teil der m¨ oglichen Werte f¨ ur ϑ einen kleineren MSE, w¨ ahrend f¨ ur andere Werte von ϑ ein anderer Punktsch¨ atzer Tϑ (X1 , . . . , Xn ) einen kleineren MSE besitzt. Da aber der Wert von ϑ unbekannt ist, kann auch keine der beiden Sch¨ atzfunktionen als die bessere gewählt werden. Die folgenden Grafiken verdeutlichen dieses Problem.

In der ersten Grafik schneiden sich die MSE-Funktionen der Sch¨ atzer Tϑ und Tϑ . MSEJ

MSE J(T J'' )

MSE J(T J' )

0

2

4

6

8

J

In der zweiten Grafik ist ersichtlich, dass die Schätzfunktion Tϑ u ¨ber den gesamten Parameterraum einen kleineren MSE aufweist und somit besser zur Sch¨ atzung des Parameters ϑ geeignet ist als Tϑ . MSEJ MSE J(T J'' )

MSE J(T J' )

0

2

4

6

8

J

76


Effizienz

Der mittlere quadratische Fehler (MSE) ist ein geeignetes G¨ utekriterium f¨ ur Sch¨ atzfunktionen, wobei eine Sch¨ atzfunktion aus statistischer Sicht umso besser ist, je kleiner ihr MSE ist. Handelt es sich zudem um eine f¨ ur den Parameter erwartungstreue Sch¨ atzfunktion, so reduziert sich der MSE einer Sch¨ atzfunktion auf deren Varianz und der Vergleich unterschiedlicher erwartungstreuer Sch¨ atzfunktionen auf einen Vergleich der Varianzen. Das Ziel im Folgenden ist es, ein Kriterium zu finden, das es uns ermöglicht, die im statistischen Sinne beste“ Schätzfunktion zu finden. ”

Definition MSE-effizientere Sch¨ atzfunktion

ur einen Parameter ϑ heißt MSE-effizienter Eine Schätzfunktion Tϑ (X1 , . . . , Xn ) f¨ oder auch MSE-wirksamer als eine Schätzfunktion Tϑ (X1 , . . . , Xn ), falls gilt

MSEϑ [Tϑ (X1 , . . . , Xn )] ≤ MSEϑ [Tϑ (X1 , . . . , Xn )] für alle ϑ ∈ Θ. F¨ ur erwartungstreue Sch¨ atzfunktionen kann die Suche nach einem effizienteren Sch¨ atzer f¨ ur einen Parameter ϑ auf den Vergleich der Varianzen reduziert werden. Dies ist darin begr¨ undet, dass der mittlere quadratische Fehler eines Sch¨ atzers Tϑ (X1 , . . . , Xn ) geschrieben werden kann als 72 + , 2 MSEϑ [Tϑ (X1 , . . . , Xn )] = Eϑ (Tϑ (X1 , . . . , Xn ) − ϑ) =

Varianz + Bias2 .

ur den PaSind die Sch¨ atzfunktionen Tϑ (X1 , . . . , Xn ) und Tϑ (X1 , . . . , Xn ) f¨ rameter ϑ erwartungstreu, so ist ihr Bias gleich Null, und der Vergleich ihrer mittleren quadratischen Fehler reduziert sich auf den Vergleich ihrer Varianzen.

Definition Effizienterer Sch¨ atzer

F¨ ur zwei erwartungstreue Schätzfunktionen Tϑ (X1 , . . . , Xn ) und Tϑ (X1 , . . . , Xn ) heißt

Tϑ (X1 , . . . , Xn ) effizienter/wirksamer als Tϑ (X1 , . . . , Xn ), falls

Varϑ [Tϑ (X1 , . . . , Xn )] ≤ Varϑ [Tϑ (X1 , . . . , Xn )] für alle ϑ ∈ Θ.

3.4


77

Die Schätzfunktion Tϑ (X1 , . . . , Xn ) liefert also im Mittel genauere Sch¨ atz atzwerte von Tϑ (X1 , . . . , Xn ) weniger werte als Tϑ (X1 , . . . , Xn ), da die Sch¨ stark um den wahren Parameterwert ϑ streuen als die von Tϑ (X1 , . . . , Xn ). Definition Gleichm¨ aßig bester erwartungstreuer Schätzer (UMVUE)

ur einen Parameter ϑ ∈ Θ Sei mit E die Klasse aller erwartungstreuen Schätzer f¨ bezeichnet. Dann ist Tϑ∗ (X1 , . . . , Xn ) ∈ E eine effiziente Schätzfunktion in dieser Klasse, wenn gilt

Varϑ [Tϑ∗ (X1 , . . . , Xn )] ≤ Varϑ [Tϑ (X1 , . . . , Xn )] f¨ ur alle ϑ ∈ Θ und f¨ ur alle Tϑ ∈ E . Das heißt, Tϑ∗ (X1 , . . . , Xn ) besitzt die gleichmäßig kleinste Varianz unter allen erwartungstreuen Schätzfunktionen. Der Schätzer Tϑ∗ (X1 , . . . , Xn ) heißt dann gleichm¨ aßig bester erwartungstreuer Sch¨ atzer (englisch: Uniformly minimum-variance unbiased estimator (UMVUE)). Beispiel (Fortsetzung 67) Rechteckverteilung

B

Seien X1 , . . . , Xn unabh¨ angige und identisch auf dem Intervall [0; b] rechteckverteilte Stichprobenvariablen, b > 0. Zwei f¨ ur den Parameter b erwartungstreue Schätzfunktionen sind gegeben durch Tb (X1 , . . . , Xn ) = 2 · X

und Tb (X1 , . . . , Xn ) =

n+1 · X(n) , n

wobei X(n) das Maximum der Zufallsvariablen X1 , ..., Xn ist. Dann gilt: Tb (X1 , . . . , Xn ) ist effizienter als Tb (X1 , . . . , Xn ), denn

ur alle b > 0. Varb [Tb (X1 , . . . , Xn )] ≤ Varb [Tb (X1 , . . . , Xn )] f¨ Berechnen wir f¨ ur den Nachweis die Varianzen beider Sch¨ atzfunktionen. n 4 · Varb Xi Varb [Tb (X1 , . . . , Xn )] = Varb [2 · X] = n2 i=1 34 =

=

n 4 · Varb [Xi ] n2 i=1

b2 3·n

42 =

4 b2 ·n· 2 n 12

78


und

Varb [Tb (X1 , . . . , Xn )]

= (∗)

=

=

=

n+1 n

2

· Varb X(n)

2 ) * n+1 n n2 2 2 ·b − · ·b n n+2 (n + 1)2 * ) n · (n + 2) (n + 1)2 − b2 · n · (n + 2) n · (n + 2)

b2 . n · (n + 2)

F¨ ur alle n ∈ N gilt b2 b2 ≤ , n · (n + 2) 3·n womit die obige Behauptung nachgewiesen ist. (∗) Zur Berechnung der Varianz von X(n) muss die Verteilung des Maximums B 37 herangezogen werden.

Ob eine erwartungstreue Sch¨ atzfunktion Tϑ (X1 , . . . , Xn ) effizienter ist als ei asst sich also ne andere erwartungstreue Sch¨ atzfunktion Tϑ (X1 , . . . , Xn ), l¨ u ¨berpr¨ ufen, indem die Varianzen der beiden Sch¨ atzfunktionen miteinander verglichen werden. Von Interesse ist aber vor allem, ob eine Schätzfunktion im Vergleich zu allen anderen erwartungstreuen Sch¨ atzfunktionen die kleinste Varianz besitzt und somit der gleichmäßig beste erwartungstreue Sch¨ atzer, also UMVUE ist. Es existiert eine untere Schranke f¨ ur die Varianz eines erwartungstreuen Sch¨ atzers, das heißt, es gibt einen kleinstmöglichen und damit besten Varianzwert f¨ ur die Sch¨ atzer aus der Klasse E aller erwartungstreuen Sch¨ atzer. Zur Bestimmung dieser Schranke dient die ultigkeit dieser Ungleichung h¨ angt von Cram´ er-Rao-Ungleichung 82. Die G¨ bestimmten Voraussetzungen ab, die Regularitätsbedingungen genannt werden.

Definition Regularit¨ atsbedingungen

Gegeben sei eine reellwertige Zufallsvariable X mit einer Verteilung aus der Familie P X = {Pϑ ; ϑ ∈ Θ} von Verteilungen mit Parameter ϑ ∈ Θ ⊂ R. P X wird eine regul¨ are Familie von Verteilungen genannt, falls folgende Bedingungen gelten R1) Θ ist ein offenes Intervall auf R.

3.4


79

R2) F¨ ur alle ϑ ∈ Θ existiert zu Pϑ aus der Familie P X von Verteilungen die entsprechende Dichte f X (x; ϑ). R3) Die Ableitung der logarithmierten Dichte nach ϑ: existiert und ist stetig in ϑ ∈ Θ f¨ ur alle x ∈ R. + , X R4) F¨ ur alle ϑ ∈ Θ gilt: Eϑ ∂ ln f∂ϑ(X;ϑ) = 0.

∂ ∂ϑ

ln f X (x; ϑ)

Die Bedingungen R1) bis R4) heißen Regularit¨ atsbedingungen.

Regel Regularit¨ atsbedingungen F¨ ur diskrete Zufallsvariablen lassen sich die Regularit¨ atsbedingungen entsprechend modifizieren. Damit bleiben alle folgenden Eigenschaften bei Einhaltung der Regularit¨ atsbedingungen f¨ ur diskrete Zufallsvariablen ebenso g¨ ultig. Die Bedingung R4) ist im Allgemeinen erf¨ ullt, wenn die Reihenfolge von Differentiation und Integration bzw. Summation vertauschbar ist, das heißt, wenn gilt ∞

∂ ∂ ln f X (x; ϑ)dx = ∂ϑ ∂ϑ

−∞

bzw.

∞ ln f X (x; ϑ)dx −∞

∂ ∂ ln f X (xi ; ϑ) = ln f X (xi ; ϑ). ∂ϑ ∂ϑ x x i

i

Die Bedingung R4) ist in der Regel nicht erf¨ ullt, wenn der Definitionsbereich der Dichte vom Parameter ϑ abh¨ angt. Ein Beispiel daf¨ ur ist die Dichte der Rechteckverteilung R[0; b] die auf dem Intervall [0; b] definiert ist. Der Tr¨ ager ist somit abh¨ angig von der oberen Grenze b, dem Parameter.

Beispiel Normalverteilung

Bezeichne P X = {N (µ, σ02 ), µ ∈ R} die Familie der Normalverteilungen mit atsunbekanntem Parameter µ und bekannter Varianz σ02 > 0. Die Regularit¨ bedingungen sind f¨ ur diese Familie von Verteilungen erf¨ ullt:

B

80


R1) Θ = R ist ein offenes Intervall. R2) Die Dichte der Normalverteilung f¨ ur x ∈ R 2 1 x−µ 1 1 X · exp − · f (x; µ) = √ 2 σ0 2 · π · σ0 existiert f¨ ur alle µ ∈ R. R3) Die Ableitung der logarithmierten Dichte (nach µ) 1 ∂ ln f X (x; µ) = 2 · (x − µ) ∂µ σ0 existiert und ist stetig in µ. + , X R4) Eµ ∂ ln f∂µ(X;µ) = σ12 · Eµ [X − µ] = 0, 0

da Eµ [X] = µ.

Daraus folgt, dass die Familie der Normalverteilungen mit bekannter Varianz σ02 eine regul¨ are Familie ist. B B

Beispiel Rechteckverteilung

Bezeichne P X = {R[0; b]; b > 0} die Familie der Rechteckverteilungen auf dem Intervall [0; b] mit unbekanntem Parameter b. Diese Familie von Verteilungen ist keine regul¨ are Familie, da die Regularit¨ atsbedingungen R3) und R4) nicht erf¨ ullt sind. Wir u ¨berlegen uns dazu, dass die Dichte gegeben ist ur alle 0 ≤ x ≤ b (f X (x; b) = 0 sonst) und somit nicht durch f X (x; b) = 1b f¨ stetig in b ist. Die Ableitung der Dichte ist demnach an der Stelle b nicht B definiert, und R3) und R4) sind somit nicht erf¨ ullt. Sind die obigen Regularit¨ atsbedingungen erf¨ ullt, so kann die minimale Varianz eines erwartungstreuen Sch¨ atzers in Abhängigkeit der so genannten Fisher-Information angegeben werden. Sie gibt Auskunft dar¨ uber, wie informativ eine Stichprobe f¨ ur einen interessierenden Parameter u ¨berhaupt sein kann. Je gr¨ oßer der Wert dieser Fisher-Information ist, desto präziser kann ein Parameter ϑ mit einer geeigneten Sch¨ atzfunktion gesch¨ atzt werden. Wei¨ terf¨ uhrende Uberlegungen zum Konzept der Fisher-Information findet man beispielsweise bei Lehmann und Casella (1998).

3.4


81

Definition Fisher-Information

Sei f¨ ur festes ϑ ∈ Θ ⊆ R die Abbildung L∗ : R → R definiert als

L∗ (x; ϑ) =

∂ X f (x; ϑ) ∂ ln f X (x; ϑ) = ∂ϑ X . ∂ϑ f (x; ϑ)

Dann heißt die Abbildung FI : Θ → R mit ∗

FI(ϑ) = FIX (ϑ) = Varϑ [L (X; ϑ)]

)

∂ ln(f X (X; ϑ)) = Varϑ ∂ϑ ∂ X ∂ϑ f (X; ϑ) = Varϑ f X (X; ϑ)

*

die Fisher-Information.

Einfacher zu berechnen ist die Fisher-Information, wenn sie in folgender Form geschrieben wird 2 X ∂ ln f (X; ϑ) . FI(ϑ) = Varϑ [L∗ (X; ϑ)] = Eϑ L∗ (X; ϑ)2 = Eϑ ∂ϑ Dies gilt, da Varϑ [L∗ (X; ϑ)]

= R4)

=

2

Eϑ [L∗ (X; ϑ)2 ] − [Eϑ [L∗ (X; ϑ)]] Eϑ [L∗ (X; ϑ)2 ] − 0.

Satz Fisher-Information bei Unabh¨ angigkeit Seien die Zufallsvariablen X1 , . . . , Xn voneinander unabh¨ angig mit Dichtefunktionen f Xi (xi ; ϑ), i = 1, . . . , n. Dann gilt unter den Regularit¨ atsbedingungen 79 * ) n ∂ ln f X1 ,...,Xn (X1 , . . . , Xn ; ϑ) = FIX1 ,...,Xn (ϑ) = Varϑ FIXi (ϑ). ∂ϑ i=1

Den Nachweis findet man in EMILeA-stat e.

82


Folgerung Sind die Zufallsvariablen X1 , . . . , Xn unabh¨ angig und identisch verteilt wie X, dann gilt unter Regularit¨ atsbedingungen FIX1 ,...,Xn (ϑ) = n · FIX (ϑ).

Satz Cram´ er-Rao-Ungleichung Gegeben seien reellwertige Zufallsvariablen X1 , . . . , Xn , die unabh¨ angig und identisch wie X verteilt sind mit Dichtefunktion f X (x; ϑ), atzϑ ∈ Θ ⊆ R. Sei weiter Tϕ(ϑ) (X1 , . . . , Xn ) eine erwartungstreue Sch¨ funktion f¨ ur ϕ(ϑ), das heißt Eϑ [Tϕ(ϑ) (X1 , . . . , Xn )] = ϕ(ϑ), wobei ϕ(ϑ) eine Funktion des Parameters ϑ ∈ Θ ist. Es gelte zusätzlich atsbedingungen seien 0 < Var[Tϕ(ϑ) (X1 , . . . , Xn )] < ∞. Die Regularit¨ erf¨ ullt, die Funktion ϕ : Θ → R sei differenzierbar und f¨ ur die FisherInformation gelte 0 < FI(ϑ) = FIX (ϑ) < ∞. a) Dann gibt es eine Tϕ(ϑ) (X1 , . . . , Xn )

untere

Schranke

f¨ ur

2

Varϑ [Tϕ(ϑ) (X1 , . . . , Xn )] ≥

∂ϕ(ϑ) ∂ϑ

die

·

Varianz

von

1 . n · FI(ϑ)

Diese Ungleichung wird Cram´ er-Rao-Ungleichung genannt.

b) In der obigen Ungleichung tritt Gleichheit ein, das heißt die untere Schranke wird angenommen, genau dann, wenn eine Funktion K(ϑ) existiert, so dass n ∂ ln f X (xi ; ϑ) i=1

∂ϑ

= K(ϑ) · Tϕ(ϑ) (x1 , . . . , xn ) − ϕ(ϑ)

f¨ ur alle x1 , . . . , xn , bis auf eine Nullmenge, gilt. Das bedeutet, dass die Ableitung fast u ¨berall existiert und die Stellen, an denen sie nicht existiert, nur mit Wahrscheinlichkeit Null von X angenommen werden. Es gilt dann 2 ∂ϕ(ϑ) 1 . Varϑ [Tϕ(ϑ) (X1 , . . . , Xn )] = · ∂ϑ n · FI(ϑ)

3.4


83

c) Ist die Dichte f X (x; ϑ) mindestens zweimal stetig differenzierbar, so l¨ asst sich die untere Schranke schreiben als 2 2 ∂ϕ(ϑ) ∂ϕ(ϑ) 1 1 + 2 X ,. = · · ∂ ln f (X;ϑ) ∂ϑ n · FI(ϑ) ∂ϑ −n · E 2 ϑ

∂ϑ

d) Im Spezialfall ϕ(ϑ) = ϑ f¨ ur alle ϑ ∈ Θ gilt Varϑ [Tϑ (X1 , . . . , Xn )] ≥

1 . n · FI(ϑ)

Den Nachweis findet man in EMILeA-stat e. Beispiel UMVUE f¨ ur den Parameter λ der Poissonverteilung Sei X poissonverteilt mit unbekanntem Parameter λ ∈ Θ = (0; ∞), das heißt λx · exp{−λ}, x ∈ N0 . f X (x; λ) = x!

Seien X1 , . . . , Xn unabh¨ angig und identisch wie X verteilt. Ist die Schätzn funktion Tλ (X1 , . . . , Xn ) = n1 · i=1 Xi = X gleichmäßig bester erwartungstreuer Sch¨ atzer, also UMVUE f¨ ur den Parameter λ? ¨ Berechnen wir zunächst die Fisher-Information f¨ ur X1 , ..., Xn . Eine Uberpr¨ ufung der Regularit¨ atsbedingungen zeigt, dass diese erf¨ ullt sind: R1) Θ = (0, ∞) ist ein offenes Intervall auf R. R2) f X (x; λ) =

λx x!

· exp{−λ} existiert f¨ ur alle λ ∈ Θ.

R3) ∂ ln f X (x; λ) ∂λ

=

) x * λ ∂ ln · exp{−λ} ∂λ x!

=

x ∂ [x · ln λ − ln x! − λ] = − 1 ∂λ λ

existiert und ist stetig in λ f¨ ur alle x ∈ N0 .

84


R4) F¨ ur alle λ ∈ Θ gilt * ) ∂ ln f X (X; λ) = Eλ ∂λ

) Eλ

* 1 X λ − 1 = · Eλ [X] − 1 = − 1 = 0. λ λ λ

F¨ ur die Fisher-Information gilt 2 2 ∂ ln f X (X; λ) X FIX (λ) = Eλ −1 = Eλ ∂λ λ ) * 2 X X + Eλ [1] − 2 · Eλ = Eλ λ λ = (∗)

=

2 1 1 · Eλ [X 2 ] − · Eλ [X] + 1 = 2 · Eλ [X 2 ] − 1 2 λ λ λ 1 1 · λ · (1 + λ) − 1 = . λ2 λ

(∗) Anwendung des Verschiebungssatzes 27: Varλ [X] = Eλ [X 2 ] − [Eλ [X]]2

⇒

λ = Eλ [X 2 ] − λ2

⇔

Eλ [X 2 ] = λ · (1 + λ).

⇒ F¨ ur X1 , ..., Xn gilt FIX1 ,...,Xn (λ)

= n · FIX (λ) = n · FI(λ) =

n . λ

Um zu zeigen, dass X tats¨ achlich UMVUE ist, m¨ ussen wir ihn nun auf Erwartungstreue und Varianz u ¨berpr¨ ufen: n n 1 1 1 · Eλ [X] = Eλ Xi = · Eλ [Xi ] = · n · λ = λ. n i=1 n i=1 n

Varλ [X] =

n n 1 λ 34 1 · Var X = · Varλ [Xi ] = . λ i 2 n2 n n i=1 i=1

Nach der Cramér-Rao-Ungleichung gilt Varλ [Tλ (X1 , . . . , Xn )] ≥

λ 1 = n · FI(λ) n

3.4


85

f¨ ur jeden erwartungstreuen Sch¨ atzer Tλ mit endlicher Varianz. X nimmt die untere Schranke an mit Varλ [X] =

1 λ = . n n · FI(λ)

Es gibt also unter diesen Bedingungen keinen Sch¨ atzer, der eine noch kleinere Varianz besitzt. Daher kann man schließen, dass X gleichmäßig bester erwartungstreuer Sch¨ atzer, also UMVUE ist. Dies lässt sich alternativ auch durch die Aussage in Teil b) des Satzes 82 zeigen. Es ist n n n ln f X (xi ; λ) = −n · λ + xi · ln λ − ln xi ! i=1

⇒

i=1

n ∂ ln f X (xi ; ϑ) i=1

∂ϑ

i=1

n

=

−n +

=

−n · λ + λ

i=1

λ

xi xi

=

n · (x − λ) λ

= K(λ) · [Tλ (x1 , . . . , xn ) − ϕ(λ)], mit K(λ) = nλ , Tλ (x1 , . . . , xn ) = x und ϕ(λ) = λ und es folgt, dass f¨ ur den Sch¨ atzer Tλ (X1 , . . . , Xn ) = X die Gleichheit gilt. Das heißt, die untere Schranke der Cramér-Rao-Ungleichung wird angenommen, und Tλ (X1 , . . . , Xn ) = X ist tatsächlich gleichmäßig bester erwartungstreuer Sch¨ atzer f¨ ur λ. Die untere Schranke der Cramér-Rao-Ungleichung existiert immer, sie muss jedoch nicht notwendigerweise erreicht werden. Wird sie f¨ ur einen Schätzer ur ϑ Tϑ (X1 , . . . , Xn ) angenommen, so bedeutet dies, dass seine Schätzwerte f¨ minimale Varianz besitzen (unter allen erwartungstreuen Sch¨ atzern). Stammt die Verteilung FX von X aus der Klasse der so genannten einparametrigen atzer Exponentialfamilien 101, so existiert ein erwartungstreuer Sch¨ ur ϑ, dessen Varianz der Cramér-Rao-Schranke entspricht. Tϑ (X1 , . . . , Xn ) f¨ Das heißt, der gleichmäßig beste erwartungstreue Schätzer (UMVUE) exiatzer f¨ ur stiert. Umgekehrt gilt: Ist Tϑ (X1 , . . . , Xn ) ein erwartungstreuer Sch¨ ϑ, dessen Varianz gleich der unteren Cramér-Rao-Schranke ist, so gehört f X (x; ϑ) zu einer Verteilung aus der Klasse der einparametrigen Exponentiur ist die Poissonverteilung. alfamilien. Ein Beispiel 83 hierf¨

86


Konsistenz

Generell verbindet man mit der Erhebung von Daten die Vorstellung, dass die Resultate der Datenauswertung um so besser sein sollten, je mehr Beobachtungen man zur Analyse zur Verf¨ ugung hatte. Besteht die Analyse aus der Sch¨ atzung eines Parameters, so erwartet man, dass die Schätzung um so genauer werden sollte, je mehr Daten in ihre Berechnung eingehen. Die bisher besprochenen G¨ utekriterien sichern im Wesentlichen, dass bei wiederholter Stichprobenziehung und Parametersch¨ atzung die Sch¨ atzwerte im Mittel“ ” entweder um den Erwartungswert streuen (Erwartungstreue) oder nicht zu stark um einen Wert streuen, der zumindest nicht zu weit vom Erwartungswert entfernt liegt (kleiner MSE). Das bedeutet aber noch nicht, dass sich die Schätzungen mit wachsendem Stichprobenumfang auch dem wahren Wert des Parameters nähern. B

Beispiel Kein Informationsgewinn bei wachsendem Stichprobenumfang

Betrachten wir das Beispiel 15 24 des zwölfseitigen W¨ urfels. Bezeichnet X das Ergebnis eines W¨ urfelwurfs, so ist E(X) = 6, 5 24. Sind X1 , . . . , Xn unabh¨ angige und identisch wie X verteilte Stichprobenvariablen, so ist X = n 1 · atzer f¨ ur ϑ = E(X) 68. i=1 Xi ein erwartungstreuer Sch¨ n Aber auch der folgende Sch¨ atzer ist erwartungstreu: Tϑ (X1 , . . . , Xn ), der mit Wahrscheinlichkeit 0,5 den Wert 6 und mit Wahrscheinlichkeit 0,5 den Wert 7 annimmt, denn: 24 ti · P (Tϑ (X1 , . . . , Xn ) = ti ) E(Tϑ (X1 , . . . , Xn )) = ti

=

0, 5 · 6 + 0, 5 · 7 = 3 + 3, 5 = 6, 5.

oßer werdendem Stichprobenumfang immer mehr InW¨ ahrend nun X mit gr¨ formation aufnimmt, ist Tϑ (X1 , . . . , Xn ) zwar erwartungstreu, verwertet aber die durch eine gr¨ oßere Anzahl an Stichprobenvariablen gelieferte Mehrinforoßer werdenden mation in keiner Weise. Insbesondere n¨ ahert sich X mit gr¨ Werten von n in gewissem Sinn immer weiter dem wahren Parameterwert 6,5 aherung (man sagt, X ist konsistent), während bei Tϑ (X1 , . . . , Xn ) keine Ann¨ an den Wert 6,5 stattfindet. B G¨ unstiger ist offenbar der Sch¨ atzer, der sich f¨ ur wachsendes n dem Wert 6,5 ann¨ ahert. Denn bei diesem Sch¨ atzer stimmt unsere Vorstellung, dass mehr

3.4


87

Information auch eine bessere Sch¨ atzung liefert. Schätzfunktionen mit einer solchen Eigenschaft nennt man konsistent. Die Eigenschaft der Konsistenz ist eine asymptotische Eigenschaft, die das Verhalten eines Punktsch¨ atzers beschreibt, wenn der Stichprobenumfang un” endlich groß“ wird. Es wird dabei angenommen, dass das betrachtete Zufallsexperiment Teil einer Folge von Experimenten ist. Statt nach einer festen Anzahl n von Experimenten aufzuh¨ oren, betrachtet man diese Folge der Experimente immer weiter, so dass der Stichprobenumfang n wächst. Nach jeder neuen Durchf¨ uhrung des Experiments berechnet man den Wert des Punktschätzers neu, jeweils basierend auf allen bisher durchgef¨ uhrten Experimenten. Konvergiert die so entstehende Folge der Punktschätzer f¨ ur steigenden Stichprobenumfang n → ∞ in gewissem, noch näher zu spezifizierenden Sinn gegen den wahren Parameterwert, so ist der Sch¨ atzer konsistent. Es gibt verschiedene Formen der Konsistenz f¨ ur Punktsch¨ atzer; die schwache Konsistenz, die starke Konsistenz und die Konsistenz im quadratischen Mittel, die einer Hierarchie unterliegen. Aus starker Konsistenz kann die schwache Konsistenz f¨ ur eine Folge von Punktsch¨ atzern gefolgert werden. Genauso folgt die schwache Konsistenz aus der Konsistenz im quadratischen Mittel. Die Umkehrung gilt in beiden F¨ allen nicht.

Definition Schwache Konsistenz

Bezeichne {Tn }n = {Tϑ (X1 , . . . , Xn )}n , n ∈ N, eine Folge von Punktschätzern f¨ ur einen Parameter ϑ. Diese heißt f¨ ur ϑ schwach konsistent, wenn f¨ ur jedes ε > 0 und alle ϑ ∈ Θ gilt

lim Pϑ (|Tn − ϑ| > ε) = 0.

n→∞

Dies ist äquivalent zu der Aussage, dass

lim Pϑ (|Tn − ϑ| < ε) = 1.

n→∞

Man schreibt auch P

Tn −→ ϑ

f¨ ur alle ϑ ∈ Θ.

Liegt schwache Konsistenz vor, so wird oft auch von Konvergenz in Wahrscheinlichkeit gesprochen.

88


Definition Starke Konsistenz

Bezeichne {Tn }n = {Tϑ (X1 , . . . , Xn )}n , n ∈ N, eine Folge von Punktschätzern f¨ ur einen Parameter ϑ. Diese heißt f¨ ur ϑ stark konsistent, wenn f¨ ur alle ϑ ∈ Θ gilt & ' Pϑ lim Tn = ϑ = 1. n→∞

Man schreibt auch f.s.

Tn −→ ϑ

f¨ ur alle ϑ ∈ Θ.

Liegt starke Konsistenz vor, so wird oft auch von fast sicherer (f.s.) Konvergenz gesprochen.

Definition Konsistenz im quadratischen Mittel

Bezeichne {Tn }n = {Tϑ (X1 , . . . , Xn )}n , n ∈ N, eine Folge von Punktschätzern f¨ ur den Parameter ϑ. Diese heißt f¨ ur ϑ konsistent im quadratischen Mittel, wenn f¨ ur alle ϑ ∈ Θ gilt lim Eϑ (Tn − ϑ)2 = 0. n→∞

Das ist gleichbedeutend mit

lim MSEϑ [Tn ] = 0

n→∞

und impliziert damit

lim Eϑ [Tn ] = ϑ und

n→∞

lim Varϑ [Tn ] = 0 für alle ϑ ∈ Θ,

n→∞

da MSEϑ (Tn ) = Varϑ (Tn ) + [Biasϑ (Tn )]2 . B

Beispiel Schwache Konsistenz

Seien X1 , . . . , Xn unabh¨ angig und identisch normalverteilt mit Parametern µ ∈ R und σ 2 = 1. Sei {Tn }n = {Tϑ (X1 , . . . , Xn )}n eine Folge von Punktschätzern f¨ ur den Parameter µ, die definiert ist durch Tϑ (X1 , . . . , Xn ) = X n =

n 1 · Xi . n i=1

3.4


89

Das arithmetische Mittel ist ebenfalls normalverteilt, X n ∼ N (µ, 1/n), so dass damit gilt Pµ

|X n − µ| < ε =

1 2 & n ' 12 (x − µ) dx · exp −n · 2·π 2

µ+ε

µ−ε

ε & = −ε

u2 n ' 12 du · exp −n · 2·π 2

√ ε n

= √ −ε n

=

1 2·π

P0 (−ε ·

12

t2 dt · exp − 2

(u = x − µ)

(t =

√ n · u)

√ √ n ≤ Z ≤ ε · n),

wobei Z ∼ N (0, 1) ist. F¨ ur n −→ ∞ folgt √ √ P0 (−ε · n ≤ Z ≤ ε · n) −→ 1. Somit ist gezeigt, dass {Tµ (X1 , . . . , Xn )}n = {X n }n eine schwach konsistente B Folge von Punktschätzern f¨ ur den Parameter µ ist. Beispiel Konsistenz im quadratischen Mittel

B

Seien X1 , . . . , Xn unabh¨ angige und identisch wie X verteilte Zufallsvariablen mit Dichtefunktion f X (x; λ) = exp{−(x − λ)}, λ < x < ∞, λ > 0. Die Folge {Tn }n von Schätzfunktionen mit Tn = Tλ (X1 , . . . , Xn ) = min{X1 , . . . , Xn } ist konsistent im quadratischen Mittel f¨ ur den Parameter λ. Um dies zu zeigen, ben¨ otigen wir das folgende Resultat: Die Folge {Yn }n von Zufallsvariablen mit Yn = n · (Tn − λ) folgt einer Exp(1)-Verteilung und besitzt somit den Erwartungswert Eλ [Yn ] = asst sich der MSE von Tn wie folgt berechnen 1 = Varλ [Yn ]. Damit l¨ MSEλ [Tn ]

=

2

Varλ [Tn ] + [Biasλ [Tn ]]

90


2

= Varλ [Tn ] + [Eλ [Tn ] − λ] ) = Varλ

=

* ) ) * *2 Yn Yn + λ + Eλ +λ −λ n n

⎤2 ⎡ 1 2 1 · Varλ [Yn ] + ⎣ · Eλ [Yn ]⎦ = 2 n2 - ./ 0 n - ./ 0 n 1

und es gilt limn→∞ MSEλ [Tn ] = B

1

limn→∞ n22

= 0 f¨ ur alle λ > 0.

B

Beispiel Konsistenzeigenschaften des arithmetischen Mittels

Seien X1 , . . . , Xn unabh¨ angige und identisch verteilte Zufallsvariablen mit Eµ [Xi ] = µ und Varµ [Xi ] = σ 2 . Sei wieder mit {Tµ (X1 , . . . , Xn )}n eine Folge von Punktsch¨ atzern f¨ ur den Parameter µ bezeichnet, die definiert sind als Tµ (X1 , . . . , Xn ) = X n =

n 1 · Xi . n i=1

ur den Parameter µ konsistent im quaDann kann gezeigt werden, dass X n f¨ dratischen Mittel ist. Gemäß der Definition des MSE mit Eµ [X n ] = µ gilt f¨ ur n → ∞ + , + 2 2 , MSEµ (X n ) = Eµ X n − µ = Eµ X n − Eµ [X n ] =

Varµ [X n ] =

σ2 −→ 0. n

Im Beispiel zur schwachen Konsistenz 88 haben wir gezeigt, dass das arithmetische Mittel schwach konsistent f¨ ur den Erwartungswert µ = Eµ [Xi ] ist, wenn die Zufallsvariablen Xi normalverteilt sind. Aus der Konsistenz im quadratischen Mittel 91 und dem Gesetz der Großen Zahlen e folgt P aber auch X n −→ µ = Eµ [Xi ], wenn die Xi nicht normalverteilt sind. B

3.4


91

Zusammenhang der Konsistenzarten Die drei Arten der Konsistenz h¨ angen wie folgt zusammen: 1. Ist ein Punktsch¨ atzer konsistent im quadratischen Mittel, so ist er auch schwach konsistent. 2. Ist ein Punktsch¨ atzer stark konsistent, so ist er auch schwach konsistent. Die schwache Konsistenz eines Punktschätzers f¨ ur einen Parameter ϑ kann also aus dem Vorliegen einer der beiden anderen Konsistenzarten gefolgert werden.

Den Nachweis findet man beispielsweise bei Serfling (1980), oder auch in EMILeA-stat e. Beispiel Arithmetisches Mittel

B

Das arithmetische Mittel ist nicht immer ein konsistenter Punktsch¨ atzer. Seien beispielsweise Y1 , . . . , Yn unabh¨ angige und identisch verteilte Zufallsur i = 1, . . . , n. Sei variablen mit Eϑ [Yi ] = ϑ + 1 und Varϑ [Yi ] = σ 2 f¨ ur den Parameter ϑ, die {Tϑ (Y1 , . . . , Yn )}n eine Folge von Punktschätzern f¨ definiert sind als n 1 Yi . Tϑ (Y1 , . . . , Yn ) = Y n = · n i=1 ¨ Eine Uberpr¨ ufung auf schwache Konsistenz zeigt, dass f¨ ur n → ∞ gilt Pϑ |Y n − ϑ| > 1/2 = Pϑ {Y n − ϑ − 1} + 1 > 1/2 ≥

Pϑ |Y n − ϑ − 1| < 1/2 −→ 1,

wobei Pϑ |Y n − ϑ − 1| < 1/2 gegen 1 konvergiert, da nach dem Gesetz P

der Großen Zahlen Y n −→ Eϑ [Yi ] = ϑ + 1 gilt. Somit ergibt sich aber ur ϑ gemäß Pϑ |Y n − ϑ| > 1/2 → 1 was jedoch bedeutet, dass {Y n }n f¨ B Definition nicht schwach konsistent ist.

92


Neben der Frage, ob die Werte einer Schätzfunktion mit wachsendem Stichprobenumfang gegen den zu sch¨ atzenden Parameter konvergieren, kann man sich auch daf¨ ur interessieren, welche Verteilung der Schätzer bei wachsender Informationsaufnahme besitzt. G¨ unstig sind Sch¨ atzer, deren Verteilung sich mit wachsendem Stichprobenumfang einer Normalverteilung n¨ ahert, da man dies beispielsweise zur Konstruktion von Konfidenzintervallen 147 und Tests 205 217 ausnutzen kann. Asymptotische Normalverteilung

Definition Asymptotische Normalverteilung

Seien X1 , . . . , Xn Stichprobenvariablen, die unabhängig und identisch wie eine Zufallsvariable X verteilt sind. Eine Schätzfunktion T (X1 , . . . , Xn ) heißt asymptotisch normalverteilt, wenn es Konstanten a, b, c ∈ R, b > 0, gibt, so dass die Verteilung der Zufallsvariablen

nc ·

T (X1 , . . . , Xn ) − a b

gegen die Verteilungsfunktion Φ der Standardnormalverteilung N (0, 1) 42 konvergiert. Genauer gilt T (X1 , . . . , Xn ) − a ≤ z −→ P(Z ≤ z) = Φ(z) (n → ∞) P nc · b f¨ ur Z ∼ N (0, 1).

Welche speziellen Schätzfunktionen asymptotisch normalverteilt sind, geht aus den verschiedenen Varianten des Zentralen Grenzwertsatzes e hervor, vergleiche auch Casella, Berger (1990), Mood et al. (1974). Die bekannteste Version besagt, dass das arithmetische Mittel unabh¨ angiger und identisch verteilter Stichprobenvariablen, die alle den Erwartungswert µ und die Varianz σ 2 besitzen, asymptotisch normalverteilt ist, wobei in diesem Fall die Konstante c den Wert 0,5 annimmt: √ X −µ P ≤ z −→ Φ(z) f¨ ur n → ∞. n· σ

3.4


93

Weiterf¨ uhrende Konzepte: Suffizienz, Vollst¨ andigkeit, Exponentialfamilien

Suffizienz und Vollständigkeit

Die Suffizienz eines Punktschätzers ist eine Eigenschaft, die auf der Suche nach dem gleichmäßig besten erwartungstreuen Schätzer sehr hilfreich ist. Es zeigt sich, dass die Suche nach diesem Schätzer auf die Klasse der suffizienten Sch¨ atzer eingeschränkt werden kann. Dabei wird ein Sch¨ atzer als suffizient bezeichnet, wenn er die gleiche Information u ¨ber den Parameter enth¨ alt wie die Stichprobe selbst. Das folgende Beispiel verdeutlicht diese Idee. Beispiel Bernoulliverteilung Ein Bernoulliexperiment werde zweimal durchgef¨ uhrt, dabei steht das Ergebnis 1 f¨ ur Erfolg und 0 f¨ ur Misserfolg. Der Stichprobenraum X der m¨ oglichen Ausg¨ ange besteht dann gerade aus den vier Tupeln

X = {(0; 0), (1; 0), (0; 1), (1; 1)}. angig und identisch bernoulliverteilt mit Parameter p Seien X1 , X2 unabh¨ ur und sei Tp (X1 , X2 ) = X das arithmetische Mittel als Schätzfunktion f¨ den Parameter p ∈ [0; 1]. Dann kann Tp (X1 , X2 ) die folgenden drei Werte annehmen: ⎧ ⎨ 0 Tp (x1 , x2 ) =

1/2 ⎩ 1

wenn

(x1 ; x2 ) = (0; 0) (x1 ; x2 ) ∈ {(1; 0), (0; 1)} (x1 ; x2 ) = (1; 1).

Durch den Sch¨ atzer Tp (X1 , . . . , Xn ) = X konnte die Information aus der Stichprobe u ¨ber den Parameter p verdichtet werden: anstelle von vier m¨ oglichen Ausg¨ angen des Bernoulliversuchs m¨ ussen nur noch drei M¨ oglichkeiten unterschieden werden. Wichtig ist aber: Haben wir durch diese Verdichtung Information u ¨ber den Parameter verloren? Dies kann nur dort geschehen sein, wo verschiedene Ausg¨ ange des Bernoulliversuchs zu gleichen Werten der Statistik f¨ uhren. Betrachten wir also die Menge {(1; 0), (0; 1)}. Die Elemente dieser Menge unterscheiden sich nur in der Anordnung der Erfolge. Deren Reihenfolge ist aber wegen der Unabh¨ angigkeit der Einzelversuche irrelevant. Um p zu schätzen, geht also uber der Betrachtung der Oridurch die Betrachtung von Tp = X gegen¨ ginalstichprobe keine relevante Information verloren. Eine solche Statistik nennt man suffizient. Aus demselben Grund ist zum Beispiel auch 2 Tp = i=1 Xi eine suffiziente Statistik.

94


Ein Gegenbeispiel stellt die Schätzfunktion T2p (X1 , X2 ) = max{X1 , X2 } dar ⎧ (x1 ; x2 ) = (0; 0) ⎨ 0 T2p (x1 ; x2 ) = 1 wenn (x1 ; x2 ) ∈ {(1; 0), (0; 1)} ⎩ 1 (x1 ; x2 ) = (1; 1). Um den Parameter p zu sch¨ atzen, ist die Häufigkeit der Erfolge eine relevante Information. Die Statistik T2p liefert aber beispielsweise sowohl f¨ ur (1; 0) als auch f¨ ur (1; 1) denselben Wert. Die Information, wieviele Erfolge beobachtet wurden, kann aus dem Resultat T2p = 1 nicht mehr r¨ uckgeschlossen werden. Hier ist die Verdichtung der Information also eindeutig mit Informationsverlust verbunden. Eine viel ausgepr¨ agtere Informationsverdichtung liegt vor, wenn das Bernoulliexperiment dreimal durchgef¨ uhrt wird. Dies wird im Beispiel 95 verdeutlicht.

Definition Suffiziente Statistik

Seien X1 , . . . , Xn unabhängige und identisch wie X verteilte Stichprobenvariablen mit Dichtefunktion f X (x, ϑ). Eine Statistik S = Sϑ (X1 , . . . , Xn ) heißt suffizient f¨ ur den Parameter ϑ f¨ ur alle ϑ ∈ Θ genau dann, wenn die bedingte Dichte von X1 , . . . , Xn für festes S = s n (

f

X1 ,...,Xn

f (x1 ; ϑ) · . . . · f (xn ; ϑ) = (x1 , . . . , xn |S = s) = f S (s; ϑ) X

X

i=1

f X (xi ; ϑ)

f S (s, ϑ)

nicht von ϑ abhängt.

Wird die Statistik S zur Sch¨ atzung des Parameters ϑ benutzt, so handelt es sich dabei nat¨ urlich um eine Sch¨ atzfunktion. In diesem Fall wird die suffiziente Statistik S auch als suffizienter Sch¨ atzer bezeichnet und in der f¨ ur Sch¨ atzer eingef¨ uhrten Notation als T = Tϑ (X1 , . . . , Xn ) geschrieben. Die Idee ist also, dass bei bekanntem Wert der suffizienten Statistik S die Beobachtungswerte aus der Stichprobe nicht mehr ben¨ otigt werden, da sie keine zusätzliche Information u ¨ber den Parameter mehr liefern, die nicht schon in der suffizienten Statistik enthalten ist. W¨ urde die Stichprobe noch zusätzliche Information u ¨ber den Parameter enthalten, dann k¨ onnte die obige bedingte Dichte nicht von ϑ unabh¨ angig sein.

3.4


95

Beispiel (Fortsetzung 93) Bernoulliverteilung

B

Angenommen das Bernoulliexperiment wird dreimal durchgef¨ uhrt. Dann besteht der Stichprobenraum X aus den acht Elementen (0; 0; 0), (1; 0; 0), (0; 1; 0), (0; 0; 1), (1; 1; 0), (0; 1; 1), (1; 0; 1), (1; 1; 1). Wird Tp (X1 , X2 , X3 ) = X als Sch¨ atzfunktion f¨ ur p verwendet, so ist eine Verdichtung der Information ohne Informationsverlust wie folgt m¨ oglich ⎧ 0 (x1 ; x2 ; x3 ) = (0; 0; 0) ⎪ ⎪ ⎨ 1/3 wenn (x1 ; x2 ; x3 ) ∈ {(1; 0; 0), (0; 1; 0), (0; 0; 1)} Tp (x1 ; x2 ; x3 ) = ⎪ 2/3 (x1 ; x2 ; x3 ) ∈ {(1; 1; 0), (0; 1; 1), (1; 0; 1)} ⎪ ⎩ 1 (x1 ; x2 ; x3 ) = (1; 1; 1). Anstelle von acht m¨ oglichen Ausg¨ angen m¨ ussen nur noch vier verschiedene M¨ oglichkeiten unterschieden werden. W¨ ahlt man als Sch¨ atzfunktion wieder T2p = max{X1 , X2 , X3 }, so ist der Informationsverlust offensichtlich ⎧ (x1 ; x2 ; x3 ) = (0; 0; 0) ⎪ ⎪ 0 ⎨ 1 wenn (x1 ; x2 ; x3 ) ∈ {(1; 0; 0), (0; 1; 0), (0; 0; 1)} T2p (x1 , x2 , x3 ) = ⎪ 1 (x1 ; x2 ; x3 ) ∈ {(1; 1; 0), (0; 1; 1), (1; 0; 1)} ⎪ ⎩ 1 (x1 ; x2 ; x3 ) = (1; 1; 1). B Wie bei der Notation von Sch¨ atzfunktionen Tϑ (X1 , . . . , Xn ), in denen der Index ϑ daf¨ ur steht, dass es sich um eine Schätzfunktion f¨ ur den Parameter ϑ handelt, gilt auch f¨ ur die Schreibweise von suffizienten Statistiken S = ur den Parameter ϑ angibt Sϑ (X1 , . . . , Xn ), dass der Index ϑ die Suffizienz f¨ und nicht f¨ ur eine Abh¨ angigkeit der suffizienten Statistik S von ϑ steht. Satz von Fisher-Neyman Seien X1 , . . . , Xn unabh¨ angige Stichprobenvariablen mit identischer Verteilungsfunktion, die von einem Parameter ϑ abh¨ angt. Eine Statistik ur den Parameter ϑ f¨ ur alle ϑ ∈ Θ, das heißt S(X1 , . . . , Xn ) ist suffizient f¨ S(X1 , . . . , Xn ) = Sϑ (X1 , . . . , Xn ), genau dann, wenn sich die gemeinsame Dichte von X1 , . . . , Xn schreiben lässt als Produkt aus der Dichtefunktion f S von S(X1 , . . . , Xn ) und einer Funktion h(x1 , . . . , xn ), die nicht von ϑ abh¨ angt. Also f X1 (x1 ; ϑ) · . . . · f Xn (xn ; ϑ) = f S (s(x1 , . . . , xn ); ϑ) · h(x1 , . . . , xn ).

96


Die Faktorisierung ist im Allgemeinen wesentlich einfacher zu zeigen, als die Unabh¨ angigkeit von f X1 ,...,Xn (x1 , . . . , xn ; ϑ|S = s) vom interessierenden Parameter ϑ. Der Satz von Fisher-Neyman wird in der Literatur h¨ aufig auch als Faktorisierungssatz bezeichnet. B

Beispiel (Fortsetzung 93) Bernoulliverteilung

Seien die Zufallsvariablen X1 , . . . , Xn unabh¨ angig und identisch bernoulliverteilt mit Erfolgswahrscheinlichkeit p. Die Summe aller Erfolge von n unabh¨ angigen Bernoulliexperimenten Sp (X1 , . . . , Xn ) =

n

Xi ,

i=1

ist eine suffiziente Statistik. Der Nachweis erfolgt mit dem Satz von FisherNeyman 95. Zu zeigen ist f X1 (x1 ; p) · . . . · f Xn (xn ; p) = f S (s(x1 , . . . , xn ); p) · h(x1 , . . . , xn ). Die gemeinsame Dichtefunktion von X1 , . . . , Xn ist gerade das Produkt von n Dichten der Bernoulliverteilung f

X1

(x1 ; p) · . . . · f

Xn

(xn ; p)

=

n

pxi · (1 − p)1−xi

i=1

=

p

n

i=1

xi

n

· (1 − p)n−

i=1

xi

,

mit xi ∈ {0, 1}, p ∈ [0; 1]. Die Statistik Sp (X1 , . . . , Xn ), die Anzahl der Erfolge in n Versuchen, ist binomialverteilt mit Parametern n und p n n n n S s n−s · p · (1 − p) · p i=1 xi · (1 − p)n− i=1 xi f (s; p) = = n s i=1 xi n f¨ ur s = i=1 xi = 0, 1, . . . , n. Man kann sehen, dass die Funktion h(x1 , . . . , xn ) als −1 n h(x1 , . . . , xn ) = n i=1 xi gewählt werden muss, um die Faktorisierung nach Fisher-Neyman zu erf¨ ullen, n ur den Parameter p suffiziente das heißt Sp (X1 , . . . , Xn ) = i=1 Xi ist eine f¨ Statistik.

3.4


97

Das arithmetische Mittel n 1 Tp (X1 , . . . , Xn ) = · Xi n i=1

ist eine Funktion von Sp (X1 , . . . , Xn ) und selbst suffiziente Statistik f¨ ur p. atzung von p verGleichzeitig kann die Statistik Tp auch sinnvoll zur Sch¨ wendet werden, da sie ein erwartungstreuer Sch¨ atzer f¨ ur den Parameter p B ist. Der Satz von Fisher-Neyman 95 setzt voraus, dass f S (s; ϑ) bekannt ist. Eine Verallgemeinerung dieses Satzes, bei der nur noch eine Funktion g[S(X1 , . . . , Xn )] als bekannt vorausgesetzt werden muss, ist der folgende Satz. Satz Verallgemeinerter Faktorisierungssatz Seien X1 , . . . , Xn unabh¨ angige Stichprobenvariablen mit identischer Verteilungsfunktion, die von einem Parameter ϑ abh¨ angig ist. Die Statistik ur den Parameter ϑ genau dann, wenn gilt S(X1 , . . . , Xn ) ist suffizient f¨ f X1 (x1 ; ϑ) · . . . · f Xn (xn ; ϑ) = g[s(x1 , . . . , xn ); ϑ] · m(x1 , . . . , xn ), angt und m unwobei g von der Stichprobe nur durch s(x1 , . . . , xn ) abh¨ abh¨ angig von ϑ ist.

Wie mit Hilfe suffizienter Statistiken verbesserte Sch¨ atzer gewonnen werden k¨ onnen, erl¨ autert der folgende Satz. Satz von Rao-Blackwell Seien X1 , . . . , Xn unabh¨ angige Stichprobenvariablen mit identischer Verteilungsfunktion, die von einem Parameter ϑ abh¨ angig ist. Sei weiter S = Sϑ (X1 , . . . , Xn ) eine suffiziente Statistik und T = Tϑ (X1 , . . . , Xn ) ein erwartungstreuer Sch¨ atzer f¨ ur ϑ. Sei V = Vϑ (X1 , . . . , Xn ) = Eϑ [T |S = s]. Dann gilt a) Vϑ (X1 , . . . , Xn ) ist eine Funktion der suffizienten Statistik S = angt nicht von ϑ ab. Sϑ (X1 , . . . , Xn ) und h¨ b) V ist ein erwartungstreuer Sch¨ atzer f¨ ur ϑ, das heißt Eϑ [V ] = ϑ.

98


c) F¨ ur alle ϑ ∈ Θ mit Varϑ [T ] < ∞ gilt Varϑ [Vϑ (X1 , . . . , Xn )] ≤ Varϑ [Tϑ (X1 , . . . , Xn )]. Falls Tϑ (X1 , . . . , Xn ) = Vϑ (X1 , . . . , Xn ), so tritt mit Wahrscheinlichkeit 1 f¨ ur einige ϑ eine echt kleinere Varianz auf. ¨bereinstimmt, ist Wenn der Sch¨ atzer V = Vϑ (X1 , . . . , Xn ) nicht mit Tϑ u er also ein verbesserter Schätzer f¨ ur ϑ, da seine Varianz kleiner ist. Den Nachweis findet man in EMILeA-stat e. Der Satz von Rao-Blackwell sagt aus, dass es möglich ist, aus einem beliebigen, f¨ ur ϑ erwartungstreuen Sch¨ atzer Tϑ (X1 , . . . , Xn ) und einer suffizienatzer Vϑ (X1 , . . . , Xn ) abzuleiten Statistik Sϑ (X1 , . . . , Xn ) einen neuen Sch¨ ten. Nach Rao-Blackwell ist dann Vϑ (X1 , . . . , Xn ) ebenfalls erwartungstreu f¨ ur ϑ und besitzt eine Varianz kleiner oder gleich der von Tϑ (X1 , . . . , Xn ). F¨ ur die Suche nach dem gleichm¨ aßig besten erwartungstreuen Sch¨ atzer, dem UMVUE kann also die Suche nach erwartungstreuen Sch¨ atzern auf solche eingeschr¨ ankt werden, die suffiziente Funktionen von Statistiken sind. Stellt atzer dar, der selbst FunkTϑ (X1 , . . . , Xn ) schon einen erwartungstreuen Sch¨ tion einer suffizienten Statistik ist, so wird die Anwendung von Rao-Blackwell zu keinem besseren Sch¨ atzer f¨ uhren, sondern Vϑ (X1 , . . . , Xn ) wird dann mit atzen von Rao-Blackwell und LehTϑ (X1 , . . . , Xn ) identisch sein. In den S¨ ur mann-Scheffé werden erwartungstreue Sch¨ atzfunktionen Tϑ (X1 , . . . , Xn ) f¨ den Parameter ϑ vorausgesetzt. Beide Sätze lassen sich ebenso f¨ ur Sch¨ atzer Tϕ(ϑ) (X1 , . . . , Xn ) verallgemeinern, wenn Tϕ(ϑ) (X1 , . . . , Xn ) eine erwartungstreue Schätzfunktion f¨ ur ϕ(ϑ) ist, wobei ϕ eine beliebige Funktion des Parameters ϑ bezeichnet. Das im Folgenden eingef¨ uhrte Prinzip der Vollst¨ andigkeit erlaubt es, den gleichmäßig besten erwartungstreuen Schätzer (den UMVUE) f¨ ur einen Parameter zu finden. Wie das funktioniert, zeigt der Satz von Lehmann-Scheff´ e 101 am Ende dieses Abschnitts.

Definition Vollst¨ andigkeit

Seien X1 , . . . , Xn unabhängige und identisch wie X verteilte Stichprobenvariablen mit identischer Dichtefunktion f X (x; ϑ). Sei weiter Tϑ (X1 , ..., Xn ) eine Schätzfunktion f¨ ur den Parameter ϑ.

3.4


99

3 4 a) Die Familie f X (x; ϑ) : ϑ ∈ Θ von Dichten heißt vollst¨ andig genau dann, wenn f¨ ur jede beliebige Funktion H aus dem Zusammenhang Eϑ [H(X)] = 0

f¨ ur alle ϑ ∈ Θ

folgt

Pϑ [H(X) = 0] = 1. b) Eine Statistik T = Tϑ (X1 , . . . , Xn ) heißt vollst¨ andig, wenn f¨ ur alle Dichten 3 4 der Familie f X (x; ϑ) : ϑ ∈ Θ die zu Tϑ (X1 , . . . , Xn ) geh¨ orende Familie von Dichten {f T (t; ϑ) : ϑ ∈ Θ} vollständig ist. Das heißt, aus

Eϑ [H(T )] = 0


folgt

Pϑ [H(T ) = 0] = 1. Allgemein lässt sich also sagen, dass eine Familie von Dichten vollständig ist, wenn der einzige unverzerrte Schätzer f¨ ur den Wert Null derjenige Sch¨ atzer ist, welcher mit Wahrscheinlichkeit 1 selbst nur den Wert Null annimmt. Beispiel Normalverteilung

B

Die Familie der Dichten der Normalverteilung mit bekanntem Erwartungswert µ0 und unbekannter Varianz σ 2 ∈ R+ (N (µ0 , σ 2 )) ist nicht vollst¨ andig. Sei X ∼ N (µ0 , σ 2 ). Wird beispielsweise f¨ ur H(X) = X − µ0 gewählt, dann gilt Eσ2 [H(X)] = Eσ2 [X − µ0 ] = Eσ2 [X] − µ0 = µ0 − µ0 = 0. Jedoch ergibt sich Pσ2 (H(X) = 0) = Pσ2 (X = µ0 ) = 0, da X eine stetige Zufallsvariable ist.

B

Beispiel Geometrische Verteilung

Die zur geometrischen Verteilung mit Parameter 0 < p < 1 und Dichtefunktion f X (x; p) = p · (1 − p)x−1 , x ∈ N, geh¨ orende Dichtefamilie ist vollst¨ andig.

B

100


Um die Vollständigkeit zeigen zu k¨ onnen, nehmen wir eine beliebige Funktion H an, so dass Ep [H(X)] = 0, also Ep [H(X)] =

∞

H(x) · p · q x−1 = 0

f¨ ur alle 0 < p < 1,

x=1

wobei q = 1 − p ist. Multipliziert man dies mit erh¨ alt man H(k) · k! + H(k + 1) · q ·

q p

und leitet k-mal nach q ab,

(k + 2)! (k + 1)! + H(k + 2) · q 2 · + ··· = 0 1! 2!

f¨ ur 0 < q < 1. F¨ ur q → 0 folgt, dass H(k) · k! = 0 bzw. H(k) = 0 f¨ ur jedes beliebige k ≥ 1. Somit ergibt sich Pp [H(X) = 0] = Pp [X ∈ {1, 2, . . .}] = 1,

f¨ ur alle 0 < p < 1.

B

Beispiel (Fortsetzung 67) Rechteckverteilung angige und identisch rechteckverteilte StichproSeien X1 , ..., Xn unabh¨ benvariablen auf dem Intervall [0; b] mit b > 0. Wird T = Tb (X1 , . . . , Xn ) = max{Xi } = X(n) gewählt, so kann gezeigt werden, dass T die Dichte 37

f T (t; b) = n ·

tn−1 , bn

0 ≤ t ≤ b,

besitzt und vollst¨ andig ist. Dazu nehmen wir zun¨ achst an, dass Eb [H(T )] = 0 gilt f¨ ur alle b > 0. Dann folgt bn bn · Eb [H(T )] = · 0= n n

b 0

tn−1 H(t) · n · n dt = b

b H(t) · tn−1 dt. 0

Bestimmt man nun die Ableitung des letzten Integrals nach b, so erhält man 0 = H(b) · bn−1 . Dabei ist zugelassen, dass es einzelne Stellen gibt, an denen diese Ableitung nicht existiert. Die Wahrscheinlichkeit daf¨ ur beträgt dann gerade Null. Man sagt, die obige Beziehung gilt f¨ ur fast alle b > 0. Damit muss aber ebenfalls H(t) = 0 f¨ ur (fast) alle t > 0 gelten, so dass Pb [H(T ) = 0] = 1 folgt.

3.4


101

Satz von Lehmann-Scheff´ e Seien X1 , . . . , Xn unabh¨ angige Stichprobenvariablen mit identischer Verteilungsfunktion, die von einem Parameter ϑ abh¨ angt. Sei weiter S = andige und suffiziente Statistik und V = Sϑ (X1 , . . . , Xn ) eine vollst¨ atzfunkVϑ (X1 , . . . , Xn ) = Vϑ (Sϑ (X1 , . . . , Xn )) eine erwartungstreue Sch¨ angt. Dann ist tion f¨ ur ϑ, die nur von Sϑ (X1 , . . . , Xn ) abh¨ Vϑ (X1 , . . . , Xn ) gleichmäßig bester erwartungstreuer Sch¨ atzer f¨ ur ϑ, also UMVUE. Den Nachweis findet man in EMILeA-stat e. Durch Ausnutzung der Suffizienz oder Anwendung der Cramér-Rao-Ungleichung bzw. des Satzes von Rao-Blackwell erhält man immer nur einen besseren Schätzer im Sinne einer kleineren Varianz. Die Identifizierung eines gleichmäßig besten unverzerrten Sch¨ atzers gelingt damit jedoch nicht notwendigerweise. Mit Hilfe der Eigenschaft der Vollst¨ andigkeit ist es dagegen möglich, den gleichm¨ aßig besten erwartungstreuen Schätzer f¨ ur ϑ zu finden. Dar¨ uber hinaus kann auch die Existenz eines solchen Sch¨ atzers durch diese Eigenschaft gesichert werden. Insbesondere gilt f¨ ur Verteilungen, die eine einparametrige Exponentialfamilie bilden, dass der UMVUE immer existiert. Exponentialfamilien

Viele Verteilungsfamilien lassen sich in die so genannte Klasse der Exponentialfamilien einordnen. Ist eine Verteilung eine Exponentialfamilie, so k¨ onnen f¨ ur ihre Parameter Sch¨ atzfunktionen gefunden werden, die sich durch besonders gute statistische Eigenschaften auszeichnen. Im Folgenden werden die Exponentialfamilien und ihre Charakteristika vorgestellt. Definition Einparametrige Exponentialfamilie

Eine Familie P X = {Pϑ : ϑ ∈ Θ} von Verteilungen bildet eine einparametrige Exponentialfamilie, falls sich die Dichtefunktion jeder ihrer Verteilungen schreiben lässt als

f X (x; ϑ) = c(ϑ) · h(x) · exp{q(ϑ) · G(x)} f¨ ur alle x ∈ R und alle ϑ ∈ Θ. Dabei sind c(ϑ) und q(ϑ) geeignete Funktionen des Parameters ϑ, h(x) und G(x) sind geeignete Funktionen von x, wobei weder q noch G konstant sein dürfen und beide nicht vom Parameter ϑ abhängen.

102


Eine Auswahl einparametriger Exponentialfamilien Die folgenden Verteilungsfamilien bilden jeweils eine einparametrige Exponentialfamilie: Bernoulliverteilung Bin(1; p) mit Parameter p ∈ (0; 1) Binomialverteilung Bin(n; p) f¨ ur festes n mit Parameter p ∈ (0; 1) Poissonverteilung Poi(λ) mit Parameter λ > 0 Normalverteilung N (µ, σ02 ) mit fester, bekannter Varianz σ02 ∈ R+ und Parameter µ ∈ R Normalverteilung N (µ0 , σ 2 ) mit festem, bekanntem Erwartungswert µ0 und Parameter σ 2 ∈ R+ Exponentialverteilung Exp(λ) mit Parameter λ > 0 Gammaverteilung Γ(λ, α0 ) mit festem, bekanntem α0 > 0 und Parameter λ > 0

In den folgenden Beispielen benötigen wir den Begriff der Indikatorfunktion.

Definition Indikatorfunktion

uglich einer Menge R ⊆ R ist Die Indikatorfunktion I{R} (x) : R → {0, 1} bez¨ definiert als 1, für x ∈ R; I{R} (x) = 0, sonst. B


F¨ ur festes n bilden die Binomialverteilungen {Bin(n; p), p ∈ (0; 1)} eine einparametrige Exponentialfamilie, denn f¨ ur jede solche Verteilung l¨ asst sich die diskrete Dichtefunktion schreiben als x p n · f X (x; p) = (1 − p)n · · I{0,1,...,n} (x) x 1−p

3.4


=

103

6 5 n p · I{0,1,...,n} (x) · exp -./0 , (1 − p)n · x · ln - ./ 0 x 1−p ./ 0 ./ 0 G(x) c(p) h(x)

q(p)

wobei die Funktion G(x) der Identität entspricht und I{0,1,...,n} die IndikaB torfunktion ist. Beispiel Exponentialverteilung

B

Die Exponentialverteilungen {Exp(λ); λ > 0} bilden eine einparametrige Exponentialfamilie. Die Dichtefunktion der Exponentialverteilung l¨ asst sich schreiben als f X (x; λ)

= λ · exp{−λ · x} · I{(0;∞)} (x) 6 5 = -./0 λ · exp -./0 x · (−λ) · I{(0;∞)} (x) . - ./ 0 - ./ 0 c(λ)

G(x)

q(λ)

h(x)

Die Funktionen c(λ), G(x) entsprechen der Identität und I{(0;∞)} (x) der InB dikatorfunktion. Beispiel Poissonverteilung

B

Die Familie {Poi(λ); λ > 0} der Poissonverteilungen ist eine einparametrige Exponentialfamilie, da die Dichtefunktion geschrieben werden kann als f X (x; λ)

λx · exp{−λ} · I{0,1,2,...} (x) x! 1 ·I (x) · exp{-./0 x · -./0 ln λ }. = exp{−λ} · - ./ 0 x! {0,1,2,...} ./ 0 G(x) q(λ) c(λ) =

h(x)

Die Funktion G(x) ist die Identit¨ at und I{0,1,2,...} (x) die Indikatorfunktion. B Beispiel Rechteckverteilung

Die Rechteckverteilungen R[a; b] bilden keine Exponentialfamilie. Dasselbe gilt im Allgemeinen f¨ ur Verteilungen, deren Tr¨ ager direkt von Parametern abh¨ angt. B

B

104


Regel Sei X eine reellwertige Zufallsvariable, deren Verteilung zu einer einparametrigen Exponentialfamilie 101 gehört, dann gilt: T (X) = G(X) ist eine suffiziente Statistik. Stammt PϑX aus einer einparametrigen Exponentialfamilie, so existiert ur ϑ, deren Varianz die eine erwartungstreue Sch¨ atzfunktion Tϑ (X) f¨ untere Cramér-Rao-Schranke annimmt, das heißt, der gleichmäßig beste erwartungstreue Sch¨ atzer (UMVUE) f¨ ur ϑ existiert. Umgekehrt gilt, wenn Tϑ∗ (X) eine erwartungstreue Sch¨ atzfunktion f¨ ur ϑ ist, deren Varianz gleich der unteren Cramér-Rao-Schranke ist, dann geh¨ ort PϑX zu einer einparametrigen Exponentialfamilie. Es kann gezeigt werden, dass jede suffiziente Statistik Tϑ (X) f¨ ur den Parameter ϑ einer Verteilung aus der Exponentialfamilie auch vollst¨ andig ist und somit der gleichm¨ aßig besten erwartungstreuen Sch¨ atzfunktion f¨ ur ϑ entspricht. Insbesondere resultiert daraus, dass f¨ ur einen zu schätzenden Parameter ϑ gilt 1 , FIX (ϑ) = Varϑ [Tϑ (X)] wenn PϑX einer einparametrigen Exponentialfamilie angeh¨ ort. Dabei ur ϑ. Die ist Tϑ (X) der gleichmäßig beste erwartungstreue Schätzer f¨ Fisher-Information berechnet sich also aus der Varianz der Schätzur ϑ. funktion Tϑ (X) f¨

Satz Vollst¨ andigkeit und Suffizienz in einparametrigen Exponentialfamilien Seien X1 , . . . , Xn unabh¨ angige und identisch wie X verteilte Stichproort die Verteilung von X benvariablen mit Dichtefunktion f X (x; ϑ). Geh¨ zu einer einparametrigen Exponentialfamilie, so l¨ asst sich f X (x; ϑ) schreiben als f X (x; ϑ) = c(ϑ) · h(x) · exp{q(ϑ) · G(x)} f¨ ur alle x ∈ R und alle ϑ ∈ Θ, und Tϑ (X1 , . . . , Xn ) = eine vollst¨ andige und suffiziente Statistik.

n i=1

G(Xi ) ist

3.4


105

Beispiel (Fortsetzung 93 96) Bernoulliverteilung angige und identisch bernoulliverteilte ZufallsvaSeien X1 , . . . , Xn unabh¨ riablen mit Erfolgswahrscheinlichkeit p ∈ (0; 1). Das arithmetische Mittel atzer Tp (X1 , . . . , Xn ) = X ist gleichmäßig bester erwartungstreuer Sch¨ f¨ ur den Parameter p. Die Dichtefunktion der Bernoulliverteilung kann geschrieben werden als

f X (x; p)

= px · (1 − p)1−x · I{0,1} (x) =

· exp (1 − p) · I - ./ 0 -{0,1} ./ 0 c(p)

h(x)

5

x · ln -./0 G(x) -

6 p , 1−p ./ 0 q(p)

aß des Satzes zu einwobei I{0,1} (x) die Indikatorfunktion darstellt. Gem¨ parametrigen Exponentialfamilien und vollst¨ andigen und suffizienten Stan tistiken 104 gilt, dass die Statistik Sp (X1 , . . . , Xn ) = i=1 G(Xi ) = n X vollst¨ a ndig und suffizient ist. Weiterhin ist zu bemerken, dass i i=1 Tp (X1 , . . . , Xn ) unverzerrt und eine Funktion der suffizienten Statistik Sp (X1 , . . . , Xn ) ist Ep [Tp (X1 , . . . , Xn )] = Ep [X] = p,

Tp (X1 , . . . , Xn ) =

Sp (X1 , . . . , Xn ) . n

Mit dem Satz von Lehmann-Scheff´ e 101 folgt dann, dass X der gleichmäßig beste unverzerrte Schätzer (UMVUE) f¨ ur den Parameter p ist.

Definition k -parametrige Exponentialfamilie

Ist eine Familie von Verteilungen durch mehr als nur einen Parameter charakterisiert, so bildet sie eine k-parametrige Exponentialfamilie, wenn sich ihre Dichtefunktion schreiben lässt als k 1 X f (x; ϑ1 , ..., ϑk ) = c(ϑ1 , ..., ϑk ) · h(x) · exp qi (ϑ1 , . . . , ϑk ) · Gi (x) . i=1

f¨ ur alle x ∈ R und alle (ϑ1 , . . . , ϑk ) ∈ Θ. Dabei sind c(ϑ1 , . . . , ϑk ) und qi (ϑ1 , . . . , ϑk ) geeignete Funktionen des Parametervektors (ϑ1 , . . . , ϑk ), und h(x) und Gi (x) sind geeignete Funktionen von x, wobei weder qi noch Gi konstant sein d¨ urfen und beide nicht von ϑ1 , . . . , ϑk abhängen.

106


Wie schon bei einparametrigen Exponentialfamilien gilt auch hier der Zusamn n menhang zu Vollständigkeit und Suffizienz: ( i=1 G1 (xi ), . . . , i=1 Gk (xi )) ist suffizient und vollst¨ andig f¨ ur (ϑ1 , . . . , ϑk ). B

Beispiel Normalverteilung

Die Klasse der Normalverteilungen N (µ, σ 2 ) mit Parametern µ ∈ R und σ 2 ∈ R+ bildet eine zweiparametrige Exponentialfamilie, da sich ihre Dichten wie folgt umschreiben lassen f X (x; µ, σ 2 )

=

2 1 x−µ 1 1 √ · exp − · 2 σ 2·π·σ

=

6 5 1 µ2 6 5 1 µ 1 √ . · exp − · 2 · -./0 1 · exp − · -./0 x2 + · -./0 x 2 2 2 σ 2./· σ 0 σ 2·π·σ -./0 ./ 0 h(x) G1 (x) G2 (x) q1 (µ,σ 2 )

c(µ,σ 2 )

q2 (µ,σ 2 )

B Bisher haben wir uns mit den Eigenschaften von Sch¨ atzfunktionen auseinandergesetzt. Dabei haben wir stets angenommen, dass wir bereits eine Schätzfunktion kennen, f¨ ur deren Eigenschaften wir uns interessieren. Der folgende Abschnitt besch¨ aftigt sich nun mit der Frage, wie wir Sch¨ atzfunktionen konstruieren k¨ onnen.

3.5

3.5 Wie kommt man zu einer Sch¨ atzfunktion? Ein intuitives Vorgehen zur Sch¨ atzung von Parametern ist das Verwenden ihrer empirischen Pendants. Die Parameter der Normalverteilung sind der Erucke sind das wartungswert µ und die Varianz σ 2 . Deren empirischen Gegenst¨ arithmetische Stichprobenmittel und die Stichprobenvarianz, gegeben durch n 1 x= · xi , n i=1

n 1 · s = (xi − x)2 . n − 1 i=1 2

Jedoch haben die Parameter einer Verteilung nicht immer solche empirischen Gegenst¨ ucke. Ebensowenig m¨ ussen die Parameter stets dem Erwartungswert und der Varianz entsprechen, wie die folgenden Beispiele zeigen. Die Recht-

3.5

Wie kommt man zu einer Sch¨ atzfunktion?

107

eckverteilung ist definiert auf dem Intervall [a; b] mit a, b ∈ R, a < b. Sie wird durch die Parameter a und b eindeutig charakterisiert. Dabei entsprechen a und b nicht dem Erwartungswert und der Varianz einer rechteckverteilten Zufallsvariablen X, denn es gilt E(X) =

a+b 2

und

Var(X) =

(b − a)2 . 12

Zur Sch¨ atzung von a und b w¨ urde man intuitiv das Minimum Xmin = X(1) bzw. das Maximum Xmax = X(n) der Stichprobe verwenden. Die Exponentialverteilung wird eindeutig definiert durch den Parameter λ. Der Erwartungswert einer exponentialverteilten Zufallsvariablen X ist gegeben durch 1 E(X) = , λ so dass auch hier der Parameter nicht dem Erwartungswert entspricht. F¨ ur die Cauchy-Verteilung e existiert der Erwartungswert gar nicht, und f¨ ur die Poissonverteilung mit Parameter λ sind Erwartungswert und Varianz gleich λ. Ein allgemeines Prinzip, mit dem Sch¨ atzfunktionen f¨ ur Charakteristika von Verteilungen gefunden werden k¨ onnen, ist also w¨ unschenswert. In den folgenden Kapiteln werden Methoden zur Konstruktion von Punktsch¨ atzern eingef¨ uhrt. Diese Verfahren f¨ uhren in vielen Situationen zu sinnvollen Sch¨ atzfunktionen. Im Folgenden wollen wir die Momentenmethode 107 Maximum-Likelihood-Sch¨ atzung 115 Methode der Kleinsten Quadrate 134 als Punktsch¨ atzmethoden vorstellen.

Momentenmethode

Die Momentenmethode ist ein Verfahren zur Konstruktion von Punktsch¨ atzern f¨ ur die Parameter ϑ1 , . . . , ϑk der Verteilungsfunktion FX (x; ϑ1 , . . . , ϑk ) einer Zufallsvariablen X. Die Momentenmethode beruht auf dem Prinzip, durch das Gleichsetzen der empirischen und theoretischen Momente Schätzfunktionen f¨ ur die Parameter ϑ1 , . . . , ϑk aus der Lösung des resultierenden

108


Gleichungssystems zu erhalten. Diese Schätzfunktionen werden als Momentensch¨ atzer bezeichnet. Das r-te (theoretische) Moment der Zufallsvariablen X ist definiert als ∞ xr · f X (x; ϑ1 , . . . , ϑk ) dx,

r

µ(r) = E[X ] = −∞

wobei f X (x; ϑ1 , . . . , ϑk ) die Dichtefunktion von X bezeichne. F¨ ur r = 1 entspricht dies dem Erwartungswert von X. Das r-te empirische Moment ist definiert als n 1 r X . m(r) = · n i=1 i F¨ ur r = 1 entspricht dies dem arithmetischen Mittel der Stichprobenvariablen. Ist X verteilt gemäß FX (x; ϑ1 , . . . , ϑk ) und existiert eine Dichte ahern sich f¨ ur wachsenden Stichprobenumfang n die f X (x; ϑ1 , . . . , ϑk ), so n¨ empirischen Momente m(r) den theoretischen Momenten µ(r) an.

Definition Momentensch¨ atzer

Seien X1 , . . . , Xn unabhängig und identisch wie X verteilte Stichprobenvariablen mit Verteilungsfunktion FX (x; ϑ1 , . . . , ϑk ), die durch den Parametervektor ϑ = (ϑ1 , . . . , ϑk ) charakterisiert wird. Seien weiter die ersten k Momente von X bezeichnet mit µ(r) und entsprechend die ersten k empirischen Momente mit m(r) für r = 1, . . . , k. Schätzfunktionen für die k Parameter ϑ1 , . . . , ϑk sind die L¨ osungen ω1 , . . . , ωk des k -elementigen Gleichungssystems

µ(1)

=

m(1)

µ(2)

= .. .

m(2)

µ(k)

=

m(k) .

Die Lösungen ω1 , . . . , ωk werden als Momentensch¨ atzer f¨ ur ϑ1 , . . . , ϑk bezeichnet.

Resultiert eine Sch¨ atzfunktion f¨ ur einen Parameter ϑ aus der Momentenmeonnen auch die r-ten zentralen thode, so bezeichnen wir sie mit TϑM . Es k¨ Momente anstelle der r-ten Momente verwendet werden. F¨ ur r > 1 ist das

3.5


109

r-te zentrale Moment definiert als r

µz(r) = E [X − E[X]] . F¨ ur r > 1 ist das r-te empirische zentrale Moment gegeben durch mz(r) =

n 1 · (Xi − X)r . n i=1

Ein Beispiel f¨ ur das zweite zentrale Moment ist die Varianz mit 2

µz(2) = Var[X] = E [X − E[X]] . Das zweite empirische zentrale Moment entspricht also mz(2) = S∗2 =

n 1 · (Xi − X)2 . n i=1

atzung der Varianz verwendet werden, gebr¨ auchlicher Zwar kann S∗2 zur Sch¨ n 1 2 2 aufig als ist jedoch die modifizierte Version S = n−1 · i=1 (Xi − X) , die h¨ Stichprobenvarianz bezeichnet wird. Die zentralen Momente können auch aus den nicht zentralen berechnet werden. F¨ ur das zweite, dritte und vierte zentrale Moment lauten die Berechnungvorschriften beispielsweise µz(2)

=

µ(2) − µ2(1)

µz(3)

=

µ(3) − 3 · µ(2) · µ(1) + 2 · µ3(1)

µz(4)

=

µ(4) − 4 · µ(3) · µ(1) + 6 · µ(2) · µ2(1) − 3 · µ4(1)

Die empirischen Momente lassen sich analog bestimmen. Die Momentenmethode ist in der Regel leicht anzuwenden. Sie liefert jedoch nicht grunds¨ atzlich die im statistischen Sinne besten“ Sch¨ atzer. Momen” tenschätzer besitzen nicht immer Eigenschaften wie Erwartungstreue, Effizienz oder Suffizienz. Der Momentenschätzer muss zudem nicht immer existieren. Ein Beispiel f¨ ur eine Verteilung, f¨ ur die sich keine Momentenschätzer konstruieren lassen, ist die Cauchy-Verteilung e. Ist die Zufallsvariable X Cauchy-verteilt, so gilt µ(1) = E[X] = ∞, das heißt, das erste theoretische Moment existiert nicht.

110


Beispiel Momentensch¨ atzer

B

Sei X eine Zufallsvariable mit Verteilungsfunktion FX (x; ϑ) und Dichte ur 0 < x < 1. Der Parameter ϑ soll mit Hilfe f X (x; ϑ) = (ϑ + 1) · xϑ f¨ der Momentenmethode geschätzt werden. Das erste Moment ist definiert als ∞ µ(1) = E[X]

1 x · f (x; ϑ) dx =

x · (ϑ + 1) · xϑ dx =

X

= −∞

0

ϑ+1 . ϑ+2

Wird das erste Moment µ(1) nun mit dem ersten empirischen Moment gleichur ϑ ermittelt werden gesetzt, kann daraus der Momentenschätzer TϑM f¨ =

m(1) n 1 = · Xi = X. n i=1

µ(1) ϑ+1 ϑ+2

Das Aufl¨ osen dieser Gleichung nach ϑ liefert dann ω1 = TϑM (X1 , . . . , Xn ) =

2·X −1 , 1−X B

den Momentensch¨ atzer f¨ ur den Parameter ϑ.

B

Beispiel Geometrische Verteilung

Bei einem Experiment mit den zwei möglichen Ergebnissen Erfolg und Misserfolg beschreibe X die Anzahl der Versuche bis zum ersten Erfolg. Die Wahrscheinlichkeit f¨ ur das Ergebnis Erfolg sei p ∈ (0; 1). Dann ist X geometrisch verteilt mit Parameter p. Die Erfolgswahrscheinlichkeit p soll geschätzt werden. Das erste Moment von X, der Erwartungswert, ergibt sich als µ(1) = E[X]

=

∞

x · p · (1 − p)x−1 =

x=1

1 . p

F¨ ur die Stichprobenvariablen X1 , . . . , Xn , die unabh¨ angig und identisch wie X verteilt sind, erh¨ alt man durch Gleichsetzen des theoretischen Moments mit dem ersten empirischen Moment µ(1)

=

m(1)

1 p

=

n 1 · Xi = X. n i=1

3.5


111

Der Momentenschätzer f¨ ur p wird nun durch Aufl¨ osen der obigen Gleichung nach p errechnet 1 B ω1 = TpM (X1 , . . . , Xn ) = . X Beispiel Normalverteilung

B

Die Zufallsvariable X sei normalverteilt mit Parametern µ ∈ R und σ 2 ∈ R+ . Die simultane Schätzung beider Parameter mit Hilfe der Momentenmethode erfordert das L¨ osen eines zwei-elementigen Gleichungssystems. Das erste Moment entspricht dem Erwartungswert von X µ(1) = E(X) = µ. Die Varianz von X kann mit Hilfe des Verschiebungssatzes 27 σ 2 = Var[X]

=

E[X 2 ] − [E[X]]

=

µ(2) − µ2(1)

2

aus dem ersten und zweiten Moment berechnet werden. Daraus lässt sich ableiten, dass das zweite Moment gegeben ist als µ(2) und somit

µ(2)

= =

σ 2 + µ2(1) 2

mit µ(1) = µ

2

σ +µ .

Der erste Schritt zur Bestimmung des Momentenschätzers ist das Gleichsetzen der ersten zwei Momente mit den entsprechenden empirischen Momenten f¨ ur Stichprobenvariablen X1 , . . . , Xn n 1 · Xi n i=1

µ(1)

=

m(1)

⇒

µ=

µ(2)

=

m(2)

⇒

σ 2 + µ2 =

n 1 2 · X . n i=1 i

Das Aufl¨ osen der Gleichungen nach µ und σ 2 ergibt die Momentenschätzer ω1 = X =

n 1 · Xi n i=1

112


als Sch¨ atzfunktion f¨ ur den Parameter µ und 2 n n n 1 2 1 1 · ω2 = · Xi − Xi = · (Xi − X)2 n i=1 n i=1 n i=1 als Sch¨ atzfunktion f¨ ur den Parameter σ 2 .

B

B

Beispiel Exponentialverteilung

Seien X1 , . . . , Xn unabh¨ angige und wie eine Zufallsvariable X verteilte Stichprobenvariablen mit Dichtefunktion f X (x; λ) = λ · exp{−λ · x}, x ≥ 0, λ > 0. Zu sch¨ atzen ist der Parameter λ der Exponentialverteilung mit Hilfe der Momentenmethode. Das erste Moment von X ist ∞ µ(1)

x · λ · exp{−λ · x}dx =

= E[X] = −∞

1 . λ

Das Gleichsetzen des ersten theoretischen Moments mit dem ersten empirischen Moment ergibt µ(1)

=

m(1)

1 λ

=

n 1 · Xi = X. n i=1

Den Momentenschätzer TλM = ω1 f¨ ur λ erh¨ alt man nun durch Aufl¨ osen der obigen Gleichung nach λ ω1 = TλM (X1 , . . . , Xn ) =

1 . X B

3.5


113

Beispiel (Fortsetzung 60) Straßenk¨ unstler) Die Dichtefunktion einer poissonverteilten Zufallsvariablen ist gegeben durch λx · exp{−λ} , x ∈ {0, 1, 2, . . .}, λ > 0. f X (x; λ) = x!

F¨ ur die Poissonverteilung gilt λ = E[X] = Var[X]. Das heißt, der Parameter λ, der Erwartungswert und die Varianz k¨ onnen mit der gleichen Stichprobenfunktion gesch¨ atzt werden. Die Wahrscheinlichkeit, dass der Straßenk¨ unstler innerhalb einer Zeitspanne von t Minuten verschont bleibt, ist definiert als p0 = Pλ (X = 0) = f (0; λ) = exp{−λ}. Die mittlere Trefferquote ist gegeben durch v=

λ . t

Bestimmung der Sch¨ atzer mit der Momentenmethode: Den Momentensch¨ atzer erhält man durch Gleichsetzen des ersten theoretischen und des ersten empirischen Moments, also µ(1) = E[X] =

n 1 · Xi = m(1) . n i=1

Da E[X] = λ gilt, folgt, dass der Momentensch¨ atzer f¨ ur λ gegeben ist durch n 1 Xi = X. ω1 = · n i=1 Die Schätzer f¨ ur die mittlere Trefferquote und f¨ ur die Wahrscheinlichkeit, dass der Straßenk¨ unstler nicht getroffen wird, k¨ onnen nun durch Einsetzen des Momentenschätzers f¨ ur λ in die entsprechenden Funktionen % = x ist erhalten werden. Basierend auf λ v% =

% λ t

die Sch¨ atzung f¨ ur die mittlere Trefferrate in einem Zeitraum von t Minuten. Die Sch¨ atzung f¨ ur die Wahrscheinlichkeit, dass der K¨ unstler nicht getroffen wird, ist demzufolge % p%0 = exp{−λ}.

114


Da aber auch λ = Var[X] gilt, ist als Sch¨ atzer f¨ ur λ auch ω2 =

n 1 · (Xi − X)2 n i=1

nahe liegend. Sch¨ atzungen f¨ ur die konkreten Daten Die Stichprobe des Straßenk¨ unstlers sah wie folgt aus 2

1

2

0

0

1

1

1

0

1

Somit ergibt sich als Sch¨ atzung f¨ ur λ mit ω1 % = x = 2 + 1 + 2 + 0 + 0 + 1 + 1 + 1 + 0 + 1 = 9 = 0, 9. λ 10 10 Die geschätzte mittlere Trefferrate v% und die Wahrscheinlichkeit p%0 , dass der Straßenk¨ unstler innerhalb von t = 30 Minuten nicht getroffen wird, sind % 0, 9 1 1 λ = 0, 03 = 1, 8 v% = = t 30 min min h sowie % = exp{−0, 9} = 0, 407. p%0 = exp{−λ} Der Straßenk¨ unstler wird also im Schnitt 1,8 mal pro Stunde getroffen. die Wahrscheinlichkeit, dass er bei einem 30 min¨ utigen Auftritt nicht getroffen wird, betr¨ agt 40,7%. Der geschätzte Erwartungswert f¨ ur die Anzahl der Treffer in einer halben Stunde ist 0,9. Wird der Momentensch¨ atzer ur λ genutzt, so ergibt sich ω2 f¨ ω2

=

% = λ

=

n 1 · (Xi − X)2 , n i=1

1 · (1, 21 + 0, 01 + 1, 21 + 0, 81 + 0, 81 + 0, 01 + 0, 01 10 + 0, 01 + 0, 81 + 0, 01) 49 = 0, 54 90

und somit % = v%(λ)

% 0, 54 1 1 λ = = 0, 018 = 1, 08 t 30 min h

3.5


115

und % = exp{−λ} % = exp{−0, 54} = 0, 583. p%0 (λ) Glaubt man dieser Sch¨ atzung, so wird der Straßenk¨ unstler im Schnitt nur 1,08 mal pro Stunde getroffen, und die Wahrscheinlichkeit, dass er 30 Minuten lang nicht getroffen wird, betr¨ agt 58,3%. Die geschätzte erwartete Anzahl der Treffer in einer halben Stunde betr¨ agt bei dieser Schätzung nur 0,54. Inwiefern die gew¨ ahlten Sch¨ atzfunktionen sinnvoll sind, also f¨ ur die Parameter vern¨ unftige Sch¨ atzungen liefern, h¨ angt davon ab, welche G¨ uteeigenschaften die verwendeten Schätzer besitzen. Dazu könnten beispielsweise Eigenschaften wie Erwartungstreue oder MSE f¨ ur die Sch¨ atzer ω1 und ω2 miteinander verglichen werden. Obwohl beide Sch¨ atzfunktionen den Parameter λ der Poissonverteilung sch¨ atzen (einmal als Erwartungswert, einmal als Varianz), kommen sie zu unterschiedlichen Schätzergebnissen. Der Sch¨ atzer ω2 ist nicht erwartungstreu und wird somit im Mittel verzerrte Schätzungen f¨ ur λ liefern, w¨ ahrend ω1 erwartungstreu ist. Man kann also nicht damit rechnen, dass die beiden Sch¨ atzfunktionen notwendigerweise sehr a¨hnliche Ergebnisse liefern. Mit wachsendem Stichprobenumfang sollten sich die Ergebnisse jedoch angleichen, da beide Sch¨ atzer konsistent sind f¨ ur λ. W¨ urde man f¨ ur eine große Stichprobe immer usste noch sehr unterschiedliche Schätzergebnisse aus ω1 und ω2 erhalten, m¨ man die Modellannahme der Poissonverteilung noch einmal u ¨berdenken. Eine alternative Idee, die ebenfalls zur Konstruktion von Sch¨ atzfunktionen benutzt werden kann, ist es herauszufinden, welcher Parameterwert einer Verteilung unter den realisierten Daten am plausibelsten erscheint. Dies f¨ uhrt zu den so genannten Maximum-Likelihood-Sch¨ atzern. Maximum-Likelihood-Methode

Die Likelihood-Funktion

Seien X1 , . . . , Xn unabh¨ angige Stichprobenvariablen, die identisch verteilt sind wie eine Zufallsvariable X mit Dichtefunktion f X (x; ϑ). Die gemeinsame Dichtefunktion von X1 , . . . , Xn ist gegeben durch f X1 ,...,Xn (x1 , . . . , xn ; ϑ) = f X (x1 ; ϑ) · . . . · f X (xn ; ϑ) =

n i=1

f X (xi ; ϑ).

116


Die gemeinsame Dichtefunktion der Stichprobenvariablen X1 , . . . , Xn wird als eine Funktion der Daten x1 , . . . , xn aufgefasst mit f X1 ,...,Xn (x1 , . . . , xn ) = f X1 ,...,Xn (x1 , . . . , xn ; ϑ). Die Beobachtungen x1 , . . . , xn werden als zufällige Realisationen der Stichprobenvariablen X1 , . . . , Xn angesehen, während der Parameter ϑ festgehalten wird. F¨ ur die Parametersch¨ atzung erweist es sich als sinnvoll, die Rolle des Parameters ϑ und der Daten x1 , . . . , xn zu vertauschen. Das heißt, die gemeinsame Dichtefunktion wird nun als Funktion des Parameters ϑ aufgefasst, w¨ ahrend die Beobachtungen x1 , . . . , xn festgehalten werden. Die so entstandene neue Funktion wird mit dem Buchstaben L bezeichnet, und man schreibt L = L(ϑ) = L(ϑ; x1 , . . . , xn ) =

n

f X (xi ; ϑ).

i=1

Definition Likelihood-Funktion

Seien X1 , . . . , Xn unabhängige Stichprobenvariablen mit identischer Dichtefunktion f X (xi ; ϑ) f¨ ur i = 1, . . . , n. Wird die gemeinsame Dichtefunktion f X1 ,...,Xn (x1 , . . . , xn ; ϑ) von X1 , . . . , Xn als eine Funktion von ϑ aufgefasst und die Daten x1 , . . . , xn als fest, dann heißt die Funktion

L = L(ϑ) =

n

f X (xi ; ϑ)

i=1

Likelihood-Funktion.

Die Likelihood-Funktion erweist sich f¨ ur das Sch¨ atzen von Parametern als sehr n¨ utzlich, denn auf ihr beruht das Prinzip der Maximum-LikelihoodSch¨ atzung, und sie legt damit einen wichtigen Grundstein f¨ ur die Punktschätzung. Die Likelihood-Funktion gibt zu jeder m¨ oglichen Wahl des Parameters ϑ an, wie plausibel es ist, dass gerade dieser Wert von ϑ zur beobachteten Stichprobe gef¨ uhrt hat. Je gr¨ oßer der Wert von L(ϑ) ist, um so plausibler ist es, dass solche Beobachtungen wie die in der Stichprobe realisiert werden. ur den L(ϑmax ) das Maximum der Likelihood-Funktion ist, Der Wert ϑmax , f¨ wird daher als einleuchtendste Wahl f¨ ur den Parameter ϑ angesehen. Darin atzung des Parameters ϑ. begr¨ undet sich die Verwendung von ϑmax zur Sch¨ Diese Methode wird als Maximum-Likelihood-Sch¨ atzung bezeichnet.

3.5


117

Interpretation der Likelihood-Funktion Bei diskreter Verteilung angige Stichprobenvariablen, die identisch Seien X1 , . . . , Xn unabh¨ verteilt sind wie eine diskrete Zufallsvariable X mit diskreter Dichtefunktion f X (x; ϑ). Dann beschreibt die Likelihood-Funktion die Wahrscheinlichkeit des Auftretens der tatsächlich realisierten Stichprobe x1 , . . . , xn , wenn der wahre Parameter der Verteilung gerade ϑ ist L(ϑ) = P(X1 = x1 , . . . , Xn = xn ; ϑ) = L(ϑ; x1 , . . . , xn ). Bei stetiger Verteilung angige Stichprobenvariablen, die identisch Seien X1 , . . . , Xn unabh¨ verteilt sind wie eine stetige Zufallsvariable X mit Dichtefunktion f X (x; ϑ). In diesem Fall gibt es folgende Interpretation der Dichte. F¨ ur kleines ε > 0 gilt approximativ & ε ε' ≈ f X (xi ; ϑ) · ε. P xi − ≤ X ≤ xi + 2 2 Der Wert der Dichtefunktion an der Stelle xi entspricht in etwa der Wahrscheinlichkeit, dass die Zufallsvariable X in einem symmetrischen Intervall der Breite ε um xi realisiert wird. Die Wahrscheinlichkeit f¨ ur das Auftreten einer Stichprobe in ε-Nähe zur tatsächlich realisierten Stichprobe x1 , . . . , xn ist damit approximativ berechenbar und proportional zur Likelihood-Funktion n & ε ε' X f (xi ; ϑ) · ε = εn · L(ϑ). ≈ P xi − ≤ X ≤ xi + 2 2 i=1 i=1 n

Beispiel Exponentialverteilung

Gegeben seien f¨ unf Beobachtungen x1 = 10, 0; x2 = 8, 6; x3 = 9, 2; x4 = 9, 7; x5 = 11, 0 einer exponentialverteilten Zufallsvariable X mit Dichtefunktion 1 · exp{−x/ϑ} f¨ ur x > 0. f X (x; ϑ) = ϑ Man beachte, dass hier eine Umparametrisierung der Exponentialverteilung vorgenommen wurde. Die Exponentialverteilung ist normalerweise durch den Parameter λ charakterisiert, welchen wir an dieser Stelle mit λ = ϑ1 gleichgesetzt haben. Damit können wir die Likelihood-Funktion in Abh¨ angigkeit von

B

118


ϑ leichter zeichnen. Die Likelihood-Funktion ergibt sich als L(ϑ) =

n

f X (xi ; ϑ) =

i=1

=

1 ϑ5

5 1 i=1

ϑ

· exp{−xi /ϑ}

5 6 1 5 3 4 · exp (−1/ϑ) · · exp − 48, 5/ϑ . xi = 5 ϑ i=1

8*10^-8

L(J)

0

2*10^-8 2 ^

4*10^-8 4 ^8

6*10^-8 *

Maaximum von L(J) für J= 9,7 97

0

10

5

15

20

2 25

30

J

Die Abbildung zeigt die Likelihoodfunktion in Abh¨ angigkeit von ϑ. Man sieht, dass an der Stelle ϑ = 9, 7 die Likelihoodfunktion ein Maximum besitzt. B B

Beispiel Likelihoodfunktion

Die Beobachtungen x1 = 0, 4; x2 = 0, 48 und x3 = 0, 36 seien Realisationen einer Zufallsvariablen X mit Dichtefunktion f X (x; ϑ) = ϑ · xϑ−1

0 < x < 1,

0 < ϑ < ∞.

Die Likelihood-Funktion l¨ asst sich schreiben als L(ϑ) =

n

f X (xi ; ϑ) =

i=1

= ϑ3 ·

3

ϑ · xϑ−1 i

i=1 3 i=1

xϑ−1 = ϑ3 · (0, 4ϑ−1 · 0, 48ϑ−1 · 0, 36ϑ−1 ). i

3.5


119

In der Abbildung ist die Likelihoodfunktion in Abh¨ angigkeit von ϑ abgetragen. An der Stelle ϑ = 1, 1436 besitzt sie ein Maximum.

L(J)

00

02

04

06

08

10

Maximum von L(J) für J= 1,1436

0

2

4

6

8

10

J B

Maximum-Likelihood-Schätzung

Beispiel Kaffeeautomat

Auf einer Mitarbeiterversammlung einer kleinen Firma wird u ¨ber die Anschaffung eines neuen Kaffeeautomaten abgestimmt. Leider sind 10 der 20 Kollegen aus betrieblichen Gr¨ unden, die aber nichts mit der Abstimmung zu tun haben, nicht anwesend. Unter den 10 Anwesenden gibt es neun F¨ urstimmen und eine Gegenstimme. Es stellt sich die Frage, wie groß die Anzahl der Gegner der Anschaffung im gesamten Kollegium ist. Wir bezeichnen die Anzahl aller Mitarbeiter mit s und die Anzahl der Mitarbeiter in der Besprechung mit n. Die Anzahl der Mitarbeiter, die bei der Besprechung mit nein gestimmt haben, sei k, was als Realisation einer hypergeometrisch verteilten Zufallsvariable K aufgefasst werden kann. Bezeichnet man die unbekannte Anzahl der Gegner im gesamten Kollegium mit r, dann ist die Wahrschein-

B

120


lichkeit, dass es nur eine Gegenstimme gibt r s−r r 20−r · 1 · n−1 s P(K = k; r) = P(K = 1; r) = = 1 209 . 10

n

In unserem Fall ist s = 20 und n = 10. Wir betrachten die jeweiligen Wahrscheinlichkeiten f¨ ur die denkbaren M¨ oglichkeiten f¨ ur r (r = 1, 2, . . . , 11) der gesamten Anzahl der Gegenstimmen im Kollegium, basierend auf der vorhandenen Information, n¨ amlich dass eine Gegenstimme unter 10 Kollegen bereits existiert, also k = 1 ist. In unserem Beispiel ergeben sich folgende Wahrscheinlichkeiten f¨ ur die verschiedenen M¨ oglichkeiten von r: r=1:

P(K = 1; r = 1)

= 0, 5

r=2:

P(K = 1; r = 2)

= 0, 526

r=3:

P(K = 1; r = 3)

= 0, 395.

F¨ ur Werte r ≥ 4 ergeben sich Wahrscheinlichkeiten f¨ ur das Ereignis K = 1, die sämtlich kleiner als P(K = 1; r = 3) = 0, 395 sind. Der Wert von r, f¨ ur den die Wahrscheinlichkeit f¨ ur die Beobachtung K = k = 1 am gr¨ oßten ist, wird als Sch¨ atzwert f¨ ur das wahre r angenommen. Somit ergibt sich als Sch¨ atzung f¨ ur r der Wert r% = 2, da in diesem Fall die Wahrscheinlichkeit f¨ ur B das Eintreten von K = k = 1 am gr¨ oßten ist.

Definition Maximum-Likelihood-Sch¨ atzung

Seien X1 , . . . , Xn unabhängige Stichprobenvariablen, die identisch wie eine Zufallsvariable X mit Dichtefunktion f X (x; ϑ) verteilt sind. Bezeichne weiter mit L(ϑ) die zugeh¨ orige Likelihood-Funktion. Der Wert ϑmax , bei dem die Likelihood-Funktion L(ϑ) ein globales Maximum annimmt, kann als Punktschätzung für den Parameter ϑ genutzt werden. Das heißt, der Wert ϑmax , für den gilt

L(ϑmax ) ≥ L(ϑ)


wird Maximum-Likelihood-(ML-)Sch¨ atzung f¨ ur ϑ genannt.

Als Notation f¨ ur die Maximum-Likelihood-Sch¨ atzung (den Maximum-Likeli% atzer f¨ ur hood-Sch¨ atzwert) verwenden wir ϑML . Der Maximum-Likelihood-Sch¨ ur eine realsierte ϑ wird mit TϑML , das heißt es gilt TϑML (x1 , . . . , xn ) = ϑ%ML f¨ % aufig die Notation ϑ, Stichprobe x1 , . . . , xn . In der Literatur findet man sehr h¨ die sowohl als Bezeichnung f¨ ur einen Sch¨ atzer als auch f¨ ur einen Sch¨ atzwert verwendet wird. Es sollte daher immer sorgf¨ altig darauf geachtet werden, ob

3.5


121

es sich bei ϑ% schon um eine realisierte Schätzung (Sch¨ atzwert) handelt oder ob damit der Sch¨ atzer gemeint ist. Zahlreiche Likelihood-Funktionen erf¨ ullen gewisse Regularitätsbedingungen, so dass der ML-Schätzer bestimmt werden kann, indem man die erste Ableitung der Likelihood-Funktion berechnet und sie mit Null gleichsetzt ∂L(ϑ) = 0. ∂ϑ Dabei muss sicher gestellt werden, dass es sich bei der Lösung tats¨ achlich um ein Maximum und kein Minimum handelt. Ein Maximum liegt vor, wenn die zweite Ableitung von L(ϑ) kleiner als Null ist. Gibt es mehrere Lösungen, so muss unter allen Maxima das globale Maximum bestimmt werden. Unter Regularit¨ atsbedingungen gilt in vielen F¨ allen, dass der Maximum-LikelihoodSch¨ atzer konsistent und effizient ist. Die so genannte Log-Likelihood-Funktion, der nat¨ urliche Logarithmus der Likelihood-Funktion ln(L(ϑ)), ist eine monotone Transformation der Likelihood-Funktion. Daher besitzen sowohl L(ϑ) als auch ln(L(ϑ)) ihr Maximum an der gleichen Stelle ϑmax . Diese Eigenschaft ist sehr hilfreich, da das Maximum von ln(L(ϑ)) oftmals einfacher zu bestimmen ist. Der Vorteil besteht insbesondere darin, dass sich die LogLikelihood-Funktion schreiben l¨ asst als Summe der logarithmierten Dichtefunktionen ln(L(ϑ)) = ln

n

f X (xi ; ϑ) =

i=1

n

ln(f X (xi ; ϑ)).

i=1

Das Maximum dieses Ausdrucks lässt sich in der Regel einfacher bestimmen als das Maximum von L(ϑ). angig, Ist die Likelihood-Funktion von k Parametern ϑ1 , . . . , ϑk abh¨ (n X f (x ; ϑ , . . . , ϑ ), dann wird das Maximum also L(ϑ1 , . . . , ϑk ) = i 1 k i=1 osung des (ϑ%1 , . . . , ϑ%k ) der (Log-)Likelihood-Funktion bestimmt durch die L¨ k-elementigen Gleichungssystems ∂L(ϑ1 , . . . , ϑk ) = ∂ϑ1 ∂L(ϑ1 , . . . , ϑk ) = ∂ϑ2 .. . ∂L(ϑ1 , . . . , ϑk ) ∂ϑk

=

0 0

0.

122


¨ Eine Uberpr¨ ufung, ob es sich bei den gefundenen Stellen tats¨ achlich um Maximalstellen handelt, ist in folgender Weise m¨ oglich. Bezeichne mit H eine k×k Matrix bestehend aus den partiellen Ableitungen der Likelihoodfunktion an der Stelle (ϑ%1 , . . . , ϑ%k ) ⎛ ⎞ h11 · · · h1k ∂L(ϑ1 , . . . , ϑk ) ⎜ .. ⎟ . . .. .. ⎠ mit hij = H=⎝ . . % ∂ϑi ∂ϑj %k ) (ϑ1 ,...,ϑ hk1 · · · hkk k k Ist die Matrix H negativ definit, das heißt es gilt i=1 j=1 yi yj hij < 0 f¨ ur jeden beliebigen Vektor y = (y1 , . . . , yk ) = (0, . . . , 0) ∈ Rk , so liegen Maximalstellen vor. Kann der Parameter ϑ nur diskrete Werte annehmen, bietet es sich an, die L(ϑ) Monotonieeigenschaften der Likelihood-Funktion bzw. des Quotienten L(ϑ+1) zu untersuchen. Wechselt der Wert des Quotienten von einem Wert kleiner als 1 auf einen Wert, der gr¨ oßer als 1 ist, so ist ein (lokales) Maximum erreicht. Unter allen lokalen Maxima ist dann das globale zu bestimmen. Alternativ kann das Maximum von L(ϑ) mit Hilfe numerischer Verfahren gefunden werden. Eigenschaften von ML-Sch¨ atzern Ein ML-Sch¨ atzer ist nicht notwendig erwartungstreu. Ein Beispiel ur ist S∗2 als ML-Schätzer f¨ ur σ 2 im Normalverteilungsmodell. 123 daf¨ Der ML-Schätzer ist nicht notwendig eindeutig; die Likelihoodfunktion kann mehrere Maxima besitzen. Daher heißt jede L¨ osung des Maximierungsproblems ML-Sch¨ atzer f¨ ur ϑ. Unter gewissen Bedingungen an die Dichtefunktion f gilt: Wenn mehur einen ML-Sch¨ atzer rere Sch¨ atzer Tϑ (X1 , . . . , Xn ) die Bedingungen f¨ erf¨ ullen, so gibt es unter diesen genau einen, der konsistent ist f¨ ur ϑ. Ist der ML-Sch¨ atzer eindeutig, so ist er damit nat¨ urlich konsistent f¨ ur ϑ. Der konsistente ML-Sch¨ atzer TϑML (X1 , . . . , Xn ) ist asymptotisch normalverteilt, das heißt ⎛ ⎞ ML T (X , . . . , X ) − ϑ 1 n P ⎝! ϑ ≤ z ⎠ −→ Φ(z) (n → ∞). ML Varϑ (Tϑ (X1 , . . . , Xn ))

3.5


123

Invarianz gegen¨ uber injektiven Transformationen Ist TϑML (x1 , . . . , xn ) = ϑ%ML der Maximum-Likelihood-Sch¨ atzwert f¨ ur den Parameter ϑ und ist ϕ : R → R eine injektive Funktion, dann ist atzwert f¨ ur ϕ(TϑML (x1 , . . . , xn )) = ϕ(ϑ%ML ) der Maximum-Likelihood-Sch¨ ϕ(ϑ). Die mit ϕ transformierte Maximum-Likelihood-Sch¨ atzung ist also selbst wieder Maximum-Likelihood-Sch¨ atung f¨ ur den mit ϕ transformierten Parameter, wenn die Funktion ϕ zu zwei verschiedenen Werten von ϑ stets auch voneinander verschiedene Funktionswerte besitzt. Das gleiche gilt f¨ ur die Sch¨ atzfunktionen. Die Injektivit¨ at von ϕ ist dabei hinreichend, aber nicht notwendig. Man sagt, der Maximum-Likelihood-Sch¨ atzer ist invariant gegen¨ uber injektiven Transformationen. Beispiel ML-Sch¨ atzer Ein Chemiker hat ein neues Instrument zur Bestimmung des Sauerstoffgehalts in Fl¨ ussigkeiten konstruiert. Er m¨ ochte wissen, ob das Instrument zuverl¨ assig funktioniert und bestimmt daher testweise den Sauerstoffgehalt im Wasser, da er in diesem Fall weiß, wie das Ergebnis der Messung aussehen muss. Nat¨ urlich liefert sein Ger¨ at nicht immer exakt den korrekten Wert, da durch aüßere Einfl¨ usse (Raumtemperatur, Luftdruck, Luftfeuchtigkeit etc.) gewisse zufällige Schwankungen bei der Messung entstehen. Der Chemiker bestimmt die Differenz zwischen seinen Messwerten und dem bekannten Sauerstoffgehalt von Wasser und erh¨ alt bei 10 Versuchen die folgende Beobachtungsreihe x1 , . . . , x10

-0,491 0,198

0,178 0,521

-1,398 0,092

1,106 0,936

-0,246 -2,000

Als empirisch arbeitender Wissenschaftler weiß der Forscher, dass solche Messfehler in der Regel Realisierungen normalverteilter Zufallsgrößen sind. Das heißt hier: x1 , . . . , x10 ist eine Stichprobe von X1 , . . . , X10 , at des Messgeräts zu beurteilen, wobei Xi ∼ N (µ, σ 2 ). Um die Qualit¨ ben¨ otigt der Chemiker Informationen u ¨ber µ und σ 2 , die er mit Hilfe der Maximum-Likelihood-Sch¨ atzer f¨ ur diese beiden Parameter erhalten möchte. Gesucht ist also der ML-Sch¨ atzer f¨ ur die Parameter einer Normalverteilung. Dazu wird zun¨ achst die Likelihoodfunktion bestimmt. Jede einzelne Stichprobenvariable Xi ist normalverteilt wie eine Zufallsvariable X mit ur Xi ist die Dichtefunktion gegeben Parametern µ und σ 2 , das heißt, f¨ durch

124


(xi − µ)2 1 · exp − f X (xi ; µ, σ) = √ 2 · σ2 2·π·σ Die gemeinsame Dichte von X1 , . . . , Xn ergibt sich dann (da wir voraussetzen, dass alle Experimente unabhängig voneinander durchgef¨ uhrt wurden, die Stichprobenvariablen damit auch stochastisch unabh¨ angig sind) als Produkt der einzelnen Dichtefunktionen der Xi f

X1 ,...,Xn

(x1 , . . . , xn ; µ, σ)

=

n

f X (xi ; µ, σ)

i=1

(xi − µ)2 1 √ = · exp − 2 · σ2 2·π·σ i=1 n

=

(2 · π)−n/2 · (σ 2 )−n/2 · n 1 (xi − µ)2 exp − 2 · σ2 i=1

Zur Bestimmung des ML-Sch¨ atzers betrachtet man diese Funktion nun ¨ber zur als Funktion in den Parametern µ und σ 2 und geht damit u Likelihood-Funktion 1 n (xi − µ)2 −n/2 2 −n/2 · (σ ) · exp − L(ϑ) = L(ϑ; x1 , . . . , xn ) = (2 · π) 2 · σ2 i=1 mit ϑ = (µ, σ 2 ). Als ML-Schätzer sucht man diejenige Stelle ϑ, an der diese Funktion ein Maximum besitzt. Dazu geht man folgendermaßen vor Bestimmung der Log-Likelihood: ln L(ϑ; x1 , . . . , xn )

−n/2

= ln (2 · π)

2 −n/2

· (σ )

· exp −

n (xi − µ)2 i=1

= −

1

2 · σ2

n n 1 n · ln(2 · π) − · ln(σ 2 ) − · (xi − µ)2 2 2 2 · σ 2 i=1

3.5


125

Log-Likelihood nach µ und nach σ 2 ableiten:

=

=

und

=

=

∂ ln L(ϑ; x1 , . . . , xn ) ∂µ n n n ∂ 1 − · ln(2 · π) − · ln(σ 2 ) − · (xi − µ)2 ∂µ 2 2 2 · σ 2 i=1 n 1 · (xi − µ) σ 2 i=1

(1)

∂ ln L(ϑ; x1 , . . . , xn ) ∂σ 2 n n n ∂ 1 2 · ln(2 · π) − · ln(σ − ) − · (xi − µ)2 ∂σ 2 2 2 2 · σ 2 i=1 −

n 1 n + · (xi − µ)2 2 · σ2 2 · σ 4 i=1

(2)

Nullsetzen der Ableitungen und L¨ osen des sich ergebenden Gleichungssystems n n 1 · (xi − µ) = 0 ⇔ (xi − µ) = 0 σ 2 i=1 i=1

(1) ⇔

n·x−n·µ=0⇔µ=x −

(2)

n 1 n + · (xi − µ)2 = 0 2 · σ2 2 · σ 4 i=1 2

n

(xi − µ)2 = 0

⇔

−n · σ +

⇔

n 1 (xi − µ)2 σ2 = · n i=1

i=1

⇔ σ2 =

n 1 · (xi − x)2 = s2∗ n i=1

(mit dem Ergebnis aus (1))

126


¨ Uberpr¨ ufung, ob es sich bei der berechneten Stelle tats¨ achlich um eine Maximalstelle handelt. Die Matrix H ist hier gegeben als −n 0 , H= n 0 − 2·s 4 ∗

wobei sich zeigen lässt, dass H negativ definit ist und es sich somit bei der berechneten L¨ osung um eine Maximalstelle handelt. urde man als Sch¨ atzwert f¨ ur F¨ ur eine konkrete Stichprobe x1 , . . . , xn w¨ µ, σ %2 ) bestimmen mit (µ, σ 2 ) also (% µ %=x=

n 1 · xi n i=1

und σ %2 = s2∗ =

n 1 · (xi − x)2 . n i=1

Als Schätzfunktion bzw. ML-Sch¨ atzer ergibt sich in dieser Situation somit ML T(µ,σ 2 ) (X1 , . . . , Xn )

n 1 · = (X, (Xi − X)2 ) n i=1

Im Beispiel des Chemikers erh¨ alt man µ % = x = −0, 1104

B

und σ %2 = 0, 953805.

Beispiel (Fortsetzung 119) Kaffeeautomat

Wir betrachten erneut das Kaffeeautomaten-Problem 119 und leiten den ML-Sch¨ atzer jetzt allgemein her. Sei wiederum s die Anzahl aller Mitarbeiter im Kollegium und n die Anzahl der anwesenden Mitarbeiter in der Besprechung. Sei k die Anzahl der Mitarbeiter, die mit nein gestimmt haben, und r die unbekannte Anzahl der Gegner im gesamten Kollegium. Dann ist k die Realisation einer hypergeometrisch verteilten Zufallsvariable K mit Dichtefunktion r s−r · P(K = k; r) = k s n−k , n, r, s ∈ N und r ≤ s, n ≤ s, n

k = max{0, n + r − s}, . . . , min{r, n}.

Da eine Realisation K = k als Resultat aus einer Stichprobe vom Umfang n angesehen werden kann, ist die Likelihood-Funktion zur Bestimmung des

3.5


127

Maximum-Likelihood-Sch¨ atzers f¨ ur den Parameter r gegeben durch r s−r · L(r) = k s n−k , f¨ ur k ≤ r ≤ s − (n − k). n

Da es sich hier um eine diskrete Verteilung handelt, bietet es sich an, die Monotonieeigenschaften der Likelihood-Funktion mit Hilfe des Quotienten L(r) L(r+1) zu untersuchen. Der Quotient ist gegeben als L(r) L(r + 1)

=

(∗)

=

(∗)

b+1 a

=

b a

·

r s−r s k · n−k s · r+1 ns−r−1 · n−k n k

f¨ ur k ≤ r < s − (n − k)

(s − r) · (r + 1 − k) (s − r − n + k) · (r + 1)

b+1 b+1−a ,

a≤b

Zu untersuchen ist nun, an welchen Stellen der Quotient gr¨ oßer bzw. kleiner als 1 ist > (s − r) · (r + 1 − k) L(r) = = 1 L(r + 1) (s − r − n + k) · (r + 1) < > (s + 1) · k ⇐⇒ r = − 1 =: r∗ . n < Damit ist L(r) monoton ⎧ ⎨ fallend ⎩

> r∗ f¨ ur r

steigend

≤ r∗

Ist r∗ < k, dann ist L(r) monoton fallend f¨ ur k ≤ r ≤ s − (n − k), so dass ur k ≤ r ≤ rˆML = k. Ist r∗ ≥ s − (n − k), dann ist L(r) monoton steigend f¨ s − (n − k), so dass die Maximum-Likelihood-Sch¨ atzung mit rˆML = s − (n − k) gegeben ist. Nehmen wir an, dass k ≤ r∗ < s − (n − k), dann unterscheiden wir die zwei folgenden F¨ alle: ur alle Fall 1: Sei r∗ ∈ N. Dann folgt, dass L(r∗ ) = L(r∗ + 1) gilt. F¨ ∗ ∗ anderen Werte von r = r oder r + 1 ist die Likelihood-Funktion kleiner.

128


Damit sind r%ML1 = r∗ und r%ML2 = r∗ + 1 Maximum-Likelihood-Sch¨ atzungen f¨ ur r. Fall 2: Sei r∗ ∈ N Dann folgt, dass r%ML = r∗ die Maximum-LikelihoodSch¨ atzung f¨ ur r ist. Dabei sei mit x die kleinste ganze Zahl gr¨ oßer oder gleich x bezeichnet. Betrachtet man die realisierten Werte aus dem Beispiel 119, so ergibt sich mit s = 20, n = 10 und k = 1, dass r∗ =

21 (s + 1) · k −1= − 1 = 1, 1 n 10

ist. Damit ist 1 = k ≤ r∗ < s − (n − k) = 11, und r∗ ist nicht ganzzahlig. Also atzung f¨ ur r. Das stimmt ist r%ML = r∗ = 2 die Maximum-Likelihood-Sch¨ ¨berein. mit der Lösung aus dem Beispiel 119 u Alternativ k¨ onnte der Maximum-Likelihood-Sch¨ atzer f¨ ur r mit Hilfe numerischer Verfahren gefunden werden. B B


Um den Anteil der mit Herpesviren infizierten Personen in der Bevölkerung zu schätzen, wird eine repr¨ asentative Stichprobe vom Umfang n gezogen. Der i-ten Person wird der Wert xi = 1 zugeordnet, wenn sie infiziert ist, und der Wert xi = 0, wenn sie nicht infiziert ist. Die Stichprobenwerte angig erhobene Realisationen einer bernoulliverx1 , . . . , xn sind also unabh¨ teilten Zufallsvariablen X mit Erfolgswahrscheinlichkeit p ∈ [0; 1]. Die Van riable K = i=1 Xi , die Anzahl aller Infizierten in der Stichprobe, ist dann binomialverteilt mit Parametern n und p und besitzt die Dichtefunktion n K · pk · (1 − p)n−k , k = 0, 1, . . . , n. f (k; p) = Pp (K = k) = k Damit ist die Likelihood-Funktion gegeben durch n · pk · (1 − p)n−k , L(p; k) = k n wobei k = i=1 xi ist und 0 < k < n. Das Maximum dieser Funktion l¨ asst sich einfacher u ¨ber die Ableitung der Log-Likelihood-Funktion ermitteln * ) n · pk · (1 − p)n−k ln L(p; k) = ln k

3.5


=

ln

129

n + k · ln p + (n − k) · ln(1 − p). k

Die erste Ableitung lautet ∂ ln L(p; k) ∂p

=

k n−k − . p 1−p

Gleichsetzen der ersten Ableitung mit Null ergibt k n−k − = 0. p 1−p Daraus folgt, dass p%ML =

n 1 k = · xi . n n i=1

2

∂ k n−k Da die zweite Ableitung ∂p 2 ln L(p; k) = − p2 − (1−p)2 negativ ist, ist die n k 1 achlich eine Maximalstelle. F¨ ur k = 0 lautet Stelle n = n · i=1 xi tats¨ n ur die Likelihood-Funktion L(p; k = 0) = (1 − p) , welche maximal wird f¨ p%ML = 0 = nk . Ist k = n, dann wird die Likelihood-Funktion L(p; k = n) = pn maximal an der Stelle p%ML = 1 = nk . Das heißt, der Maximum-LikelihoodSch¨ atzer ist gegeben durch

T ML (X1 , . . . , Xn ) =

K . n

Der Anteil der mit Herpes infizierten Personen lässt sich also durch n 1 K = · Xi n n i=1

schätzen.

B

Beispiel (Fortsetzung 117) Exponentialverteilung

Die in der Abbildung des Beispiels 117 zu erkennende Maximalstelle der Likelihood-Funktion kann bestimmt werden durch das Gleichsetzen der ersten Ableitung mit Null. Wir benutzen hier zur Bestimmung die Log-LikelihoodFunktion ln L(ϑ) 121, da mit ihr einfacher zu rechnen ist. Dies ist erlaubt, da es sich beim Logarithmus um eine monotone Transformation handelt und sich die Maximalstelle durch die Transformation nicht verändert.

B

130


1. Berechnung von ln L(ϑ) 5 6, 5 +1 xi ln L(ϑ) = ln 5 · exp (−1/ϑ) · ϑ i=1 5 x i = −5 · ln(ϑ) − i=1 , ϑ > 0. ϑ

2. Berechnung der ersten Ableitung der Log-Likelihood-Funktion und Gleichsetzen mit Null 5 xi 5 ∂ ln L(ϑ) = − + i=1 =0 ∂ϑ ϑ ϑ2 ⇒0 = ϑ−

5 i=1

xi

5

.

Das Aufl¨ osen nach ϑ liefert als potenzielle Maximalstelle der LikelihoodFunktion ϑ = ϑmax

=

5 1 48, 5 · = 9, 7. xi = 5 i=1 5

Da die zweite Ableitung der Log-Likelihood-Funktion negativ ist, handelt es sich tatsächlich um eine Maximalstelle. Sind die Beobachtungen x1 , . . . , x5 gegeben, nimmt die Likelihood-Funktion ihr Maximum an der Stelle ϑmax = 9, 7 an. Bei beobachteten Werten x1 , . . . , x5 wie oben angegeben ist dies derjenige B Wert ϑ, der die höchste Plausibilit¨ at besitzt. B

Beispiel (Fortsetzung 118) Likelihoodfunktion

Die Beobachtungen x1 = 0, 4; x2 = 0, 48 und x3 = 0, 36 seien Realisationen einer Zufallsvariablen X mit Dichtefunktion f X (x; ϑ) = ϑ · xϑ−1

0 < x < 1,

0 < ϑ < ∞.

Die Likelihood-Funktion war L(ϑ)

= ϑ3 · (0, 4ϑ−1 · 0, 48ϑ−1 · 0, 36ϑ−1 ).

Das Maximum der Likelihood-Funktion erh¨ alt man durch Gleichsetzen der ersten Ableitung der logarithmierten Likelihood-Funktion mit Null.

3.5


131

1. Berechnung von ln L(ϑ) +

ln L(ϑ)

=

3

ln ϑ ·

3

xϑ−1 i

,

= 3 · ln ϑ + ln

i=1

=

3 · ln ϑ +

3

xϑ−1 i

i=1

3

3

i=1

i=1

(ϑ − 1) · ln xi = 3 · ln ϑ + ϑ ·

ln xi −

3

ln xi .

i=1

2. Berechnung der ersten Ableitung der Log-Likelihood-Funktion und Gleichsetzen mit Null ∂ ln L(ϑ) ∂ϑ 1 ⇒ ϑ

3

=

3 + ln xi = 0 ϑ i=1

= −

3

i=1

3

ln xi

.

Das Aufl¨ osen nach ϑ liefert die Stelle, an der die Likelihood-Funktion maximal ist ϑmax = − 3

3

i=1

ln xi

=−

3 = 1, 144 (ln 0, 42 + ln 0, 48 + ln 0, 36) B

als ML-Sch¨ atzwert f¨ ur ϑ.

Beispiel (Fortsetzung 60 113) Straßenk¨ unstler Die Dichtefunktion einer poissonverteilten Zufallsvariable X ist gegeben durch λx · exp{−λ} , λ > 0, x ∈ N. f X (x; λ) = x!

F¨ ur die Poissonverteilung gilt λ = E[X] = Var[X]. Das heißt, der Erwartungswert und die Varianz k¨ onnen mit der gleichen Stichprobenfunktion geschätzt werden. Sei wieder eine Zeitspanne von t = 30 Minuten betrachtet. Die Wahrscheinlichkeit, dass der Straßenk¨ unstler in dieser Zeit verschont bleibt, l¨ asst sich aus p0 = Pλ (X = 0) = f (0; λ) = exp{−λ} berechnen. Die mittlere Trefferquote ist gegeben durch v=

λ . t

132


Maximum-Likelihood-Sch¨ atzer: Die gemeinsame Dichtefunktion von unabh¨ angig und identisch poissonverteilten Stichprobenvariablen X1 , . . . , Xn ist gegeben durch n xi 1 λxi · exp{−λ} = λi=1 ·exp{−n·λ}· ( (x1 , . . . , xn ; λ) = , n xi ! i=1 xi ! n

f

X1 ,...,Xn

i=1

ur i = 1, . . . , n und λ > 0. f¨ ur xi ∈ 0, 1, 2, . . . f¨ Die Likelihood-Funktion ist die gemeinsame Dichte, aufgefasst als Funktion des Parameters λ. Diese ist gegeben durch n

L(λ) = λ

i=1

xi

1 · exp{−n · λ} · ( , n xi !

λ > 0.

i=1

Zur Vereinfachung des Maximierungsproblems kann der nat¨ urliche Logarithmus dieser Funktion betrachtet werden ⎛ ⎞ ln(L(λ)) =

n

⎜ 1 ⎟ ⎟, xi · ln(λ) − n · λ + ln ⎜ n ⎝( ⎠ i=1 xi !

λ > 0.

i=1

Die erste Ableitung nach λ ist gegeben durch n 1 ∂ ln(L(λ)) = · xi − n, ∂λ λ i=1

und Gleichsetzen mit Null liefert

λ=

1 λ

·

n i=1

λ>0

xi − n = 0, woraus folgt

n 1 · xi = x. n i=1

F¨ ur die zweite Ableitung nach λ gilt n 1 ∂ 2 ln(L(λ)) = − · xi < 0, ∂λ2 λ2 i=1

λ > 0.

3.5


133

Die zweite Ableitung ist kleiner als Null, daher hat die Likelihood%ML = x ein Maximum. Somit ist Funktion L(λ) an der Stelle λ ML atzer f¨ ur λ, das heißt Tλ (X1 , . . . , Xn ) = X Maximum-Likelihood-Sch¨ f¨ ur den Erwartungswert und die Varianz der poissonverteilten Zufallsvariablen. Man beachte, dass sich der gleiche Schätzer f¨ ur λ auch schon aus ur das erste Moment ergab. Resultierend der Momentenmethode 113 f¨ aus der Invarianz des Maximum-Likelihood-Sch¨ atzers gegen¨ uber injektiven Transformationen gilt, dass die Maximum-Likelihood-Sch¨ atzungen f¨ ur die mittlere Trefferrate sowie f¨ ur die Wahrscheinlichkeit, dass der Straßenk¨ unstler verschont bleibt, gegeben sind durch v% =

%ML λ t

bzw.

%ML }. p%0 = exp{−λ

Maximum-Likelihood-Sch¨ atzungen aus den Daten Die Stichprobe, die angibt, wie oft der Straßenk¨ unstler von einer Taube getroffen wurde, war 2

1

2

0

0

1

1

1

0

1

Als Maximum-Likelihood-Sch¨ atzung f¨ ur den Parameter λ ergibt sich dann %ML = x = 2 + 1 + 2 + 0 + 0 + 1 + 1 + 1 + 0 + 1 = 9 = 0, 9. λ 10 10 Als Maximum-Likelihood-Sch¨ atzungen f¨ ur die Trefferrate v und die Wahrscheinlichkeit, dass er in einer Zeitspanne von 30 Minuten nicht getroffen wird, resultieren v% =

%ML 0, 9 1 1 λ = = 0, 03 = 1, 8 , t 30 min min h

%ML } = exp{−0, 9} = 0, 407 . p%0 = exp{−λ Der Straßenk¨ unstler wird also im Schnitt 1,8 mal pro Stunde getroffen und die Wahrscheinlichkeit, dass er in einem Zeitraum von 30 Minuten nicht getroffen wird, ist 40,7%.

134


Methode der kleinsten Quadrate

Die Methode der kleinsten Quadrate findet als Sch¨ atzmethode hauptsächlich Anwendung in der Regressionsanalyse. Die Regressionsanalyse dient zur Untersuchung von Zusammenh¨ angen zwischen Merkmalen. Im Unterschied zur Korrelationsrechnung e geht es dabei nicht nur um die Art, zum Beispiel linear oder monoton, und die St¨ arke des Zusammenhangs, sondern der Zusammenhang soll genauer durch eine Funktion beschrieben werden. Ein Beispiel, in dem eine solche Funktion gesucht ist, k¨ onnte das Folgende sein: Ein Unternehmer beobachtet, welchen Gewinn er jeweils erwirtschaftet, wenn er eine bestimmte Menge seines Produkts herstellt. Er vermutet, dass sein Gewinn Y von der produzierten Menge x im Wesentlichen linear abh¨ angt. Dabei wird der Zusammenhang in der Regel nicht ganz exakt eingehalten, da neben der produzierten Menge andere, von ihm nicht beobachtete Gr¨ oßen den Gewinn beeinflussen (etwa schwankende Nachfrage). Der Unternehmer vermutet also, dass Y =

+ ε β +β ·x -./0 - 0 ./ 1 0 alliger Fehler linearer Zusammenhang zuf¨

gilt. Dabei sind β0 , β1 unbekannt. Die produzierte Menge x wird nicht als zuf¨ allig betrachtet, sondern ist vom Unternehmer deterministisch vorgegeben. Der Unternehmer hat schon verschiedene Mengen produziert und die zugeh¨ origen Gewinne notiert. Er m¨ ochte nun wissen, mit welchem Gewinn er rechnen kann, wenn er eine weitere Menge x seines Produkts herstellt, und zwar, ohne dass er tats¨ achlich x Einheiten produziert und den Gewinn erwirtschaftet. W¨ urde er die Koeffizienten β0 und β1 der oben angegebenen Funktion kennen, so k¨ onnte er im Prinzip f¨ ur beliebige Werte von x den zu erwartenden Gewinn Y , bis auf einen zuf¨ alligen Fehler, vorhersagen. Die Methode der kleinsten Quadrate erlaubt es, aus beobachteten Datenpaaren (x1 , y1 ), . . ., (xn , yn ) die Koeffizienten einer solchen Regressionsfunktion zu sch¨ atzen. Wir werden uns zur Darstellung der Methode auf das einfachste Regressionsmodell beschränken, die oben schon dargestellte so genannte einfache lineare Regression.

3.5


135

Das einfache lineare Regressionsmodell Betrachtet wird ein interessierendes Merkmal Y , das von einem Merkmal x abh¨ angt. An n unabh¨ angigen Merkmalsträgern werden Realisationen (x1 , y1 ), . . . , (xn , yn ) der beiden Merkmale beobachtet. Im einfachen linearen Regressionsmodell Yi = β0 + β1 · xi + εi ,

i = 1, . . . , n

wird ein linearer Einfluss des Merkmals x auf das Merkmal Y unterstellt. Die Groß- bzw. Kleinschreibung bedeutet dabei, dass wir x als feste, einstellbare Gr¨ oße, Y dagegen als Zufallsvariable auffassen. F¨ ur die nicht beobachtbaren, zuf¨ alligen Fehler εi , i = 1, . . . , n, unterstellen wir, dass sie unabh¨ angig und identisch verteilt sind mit Erwartungswert Null und ur alle i = 1, . . . , n. gleicher Varianz σ 2 f¨ Man bezeichnet Y auch als Zielgr¨ oße, x als Einflussgr¨ oße und den zuf¨ alligen Fehler ε als St¨ orgr¨ oße. Die unbekannten Konstanten β0 und β1 heißen Regressionskoeffizienten und werden auch als Parameter des Regressionsmodells bezeichnet. Um das lineare Regressionsmodell den Beobachtungen möglichst gut anzupassen, sind β0 und β1 aus den beobachteten Werten (x1 , y1 ), . . . , (xn , yn ) zu schätzen. Dies kann mit der Methode der kleinsten Quadrate geschehen. Beispiel Anwendungsbeispiele

Der Unternehmer 134 hat in verschiedenen Monaten jeweils 5 000, 6 000, 8 000, 10 000 und 12 000 St¨ uck produziert. Die erzielten Gewinne hat er notiert. Er m¨ ochte demn¨ achst 9 000 St¨ uck pro Monat produzieren und den zu erwartenden Gewinn prognostizieren. Die Bedienung in einer Szene-Kneipe stellt fest – was nicht u ¨ berraschend ist – dass sie umso mehr Trinkgeld bekommt, je mehr G¨ aste sie am Abend bedient. Nach regelmäßiger Beobachtung kommt sie zu dem Schluss, dass der Zuwachs an Trinkgeld pro bedientem Gast ungef¨ ahr konstant ist. Der Zusammenhang zwischen der Anzahl der Gäste und dem eingenommenen Trinkgeld kann daher als linear angenommen werden. Die Bedienung möchte herausfinden, wie viele G¨ aste sie am Abend bedienen muss, um auf einen gewissen Betrag an Trinkgeld zu kommen. Ein neues Medikament zur Senkung des Blutzuckerspiegels soll auf den Markt gebracht werden. Dazu muss eine angemessene Konzentration des

B

136


Wirkstoffs in den Tabletten bestimmt werden. In einem kontrollierten klinischen Experiment mit freiwilligen Probanden werden verschiedene Dosierungen des Wirkstoffs verabreicht. Pro Patient werden jeweils die verabreichte Dosierung und der Blutzuckerspiegel vor und nach Verabreichung des Medikaments festgehalten. Daraus kann die erreichte Blutzuckersenkung bestimmt werden. Kann man davon ausgehen, dass die Reduktion des Blutzuckers linear von der Dosierung abh¨ angt, so ist es m¨ oglich, aus dem Experiment diejenige Dosierung zu bestimmen, bei der eine bestimmB te vorgegebene Blutzuckersenkung voraussichtlich erreicht wird. Betrachtet werden unabh¨ angige Zufallsvariablen Y1 , . . . , Yn , zusammen mit oße, so dass alle Paare (xi , Yi ) zugehörigen Werten x1 , . . . , xn der Einflussgr¨ dem gleichen einfachen linearen Regressionsmodell Yi = β0 + β1 · xi + εi ,

i = 1, . . . , n

45

folgen. Beobachtet seien die Paare (x1 , y1 ), . . . , (xn , yn ). Die Beobachtungspaare (xi , yi ), i = 1, . . . , n, kann man als Punkte in ein Koordinatensystem eintragen. Die Anpassung eines einfachen linearen Regressionsmodells bedeutet dann, dass man in diese Punktewolke eine Gerade einbeschreibt, die den Verlauf der Punkte m¨ oglichst gut wiedergibt. Diese Idee ist in der folgenden Abbildung veranschaulicht.

40

r9 r8

r10

r7

35

r5 r6

30

r4

r2

r1

r3

25

Y

r=y yˆ 1 1

1.0

1.2

1.4

1.6

X

1.8

2.0

3.5


137

Mathematisch wird die einbeschriebene Gerade durch die Funktionsgleichung y = β0 + β1 · x beschrieben. Die beobachteten yi haben von dieser Geraden die (senkrecht gemessenen) Abstände ei = yi − (β0 + β1 · xi ) = yi − β0 − β1 · xi , i = 1, . . . , n. Die Gr¨ oßen ei werden auch als Residuen bezeichnet. Ein nahe liegendes Kriterium, um die Gerade optimal in die beobachteten Punkte zu legen, ist es, die Summe der Residuenquadrate e2i zu minimieren. In diesem Fall liegt die Gerade möglichst nahe an m¨ oglichst vielen Punkten. Die Residuen ei werden hierbei quadriert, damit sich positive und negative Residuen nicht gegenseitig aufheben. Zu minimieren ist also n

e2i =

i=1

n

(yi − β0 − β1 · xi )2 .

i=1

ur die Regressionskoeffizienten sind diejenigen Die Schätzwerte β%0 und β%1 f¨ Werte, f¨ ur die diese Summe minimal wird. Im einfachen linearen Regressionsmodell k¨ onnen analytische Formeln zur Berechnung von β%0 und β%1 hergeleitet werden. Um das Minimum zu finden, leitet man die Summe der Residuenquadrate getrennt nach β0 und β1 ab und setzt die Ableitungen gleich Null. Dies f¨ uhrt zu den so genannten Normalengleichungen n

yi = n · β%0 + β%1 ·

i=1

n

xi

und

n

i=1

i=1

xi · yi = β%0 ·

n

xi + β%1 ·

i=1

n

x2i .

i=1

ost werden. Man erh¨ alt Diese Gleichungen können nach β%0 und β%1 aufgel¨ n n (x − x) · (yi − y) xi · yi − n · x · y i=1 ni n = i=1 , β%1 = 2 2 2 (x − x) i=1 i i=1 xi − n · x n n 1 % · yi − β%1 · xi = y − β%1 · x β0 = n i=1 i=1 mit x =

1 n

·

n

i=1

xi und y =

1 n

·

n

i=1

yi .

Als Zufallsvariablen geschrieben, ergeben sich die Sch¨ atzer n (xi − x) · (Yi − Y ) ((x1 , Y1 ), . . . , (xn , Yn )) = i=1n , TβKQ 1 2 i=1 (xi − x) ((x1 , Y1 ), . . . , (xn , Yn )) = Y − TβKQ ((x1 , Y1 ), . . . , (xn , Yn )) · x. TβKQ 0 1

138


Die Groß- bzw. Kleinschreibung steht dabei wiederum f¨ ur die Tatsache, dass wir die xi als feste Größen, die Yi als Zufallsvariablen betrachten.

Definition Kleinste-Quadrate-Sch¨ atzer

und TβKQ heißen Die aus dem hier vorgestellten Prinzip resultierenden Schätzer TβKQ 0 1 die Kleinste-Quadrate-(KQ-)Sch¨ atzer f¨ ur β0 und β1 . Entsprechend heißen die Schätzwerte β%0 und β%1 die KQ-Sch¨ atzungen.

Kleinste-Quadrate-Sch¨ atzer Im einfachen linearen Regressionsmodell 135 sind die KQSch¨ atzer f¨ ur die Regressionskoeffizienten gegeben durch n (x − x) · (Yi − Y ) i=1 ni ((x , Y ), . . . , (x , Y )) = , TβKQ 1 1 n n 1 2 i=1 (xi − x) ((x1 , Y1 ), . . . , (xn , Yn )) = Y − TβKQ ((x1 , Y1 ), . . . , (xn , Yn )) · x. TβKQ 0 1

Definition Prognose basierend auf Kleinste-Quadrate-Sch¨ atzung

Die Werte Y%i = TβKQ + TβKQ · xi sind Schätzer für die Yi und werden auch 0 1 Vorhersagen oder Prognosen genannt. Die zugeh¨ origen Schätzwerte sind y%i = β%0 + β%1 · xi . Die Abweichungen Ri = Yi − Y%i heißen Residuen, ihre Realisationen ri = yi − y%i nennt man gesch¨ atzte Residuen oder häufig ebenfalls Residuen. B

Beispiel (Fortsetzung 135) Gewinn eines Unternehmers

Der Unternehmer aus dem Beispiel 135 hat folgende Daten beobachtet Menge xi (in 1 000 St¨ uck) Gewinn yi (in Euro)

5 2 600

6 3 450

8 5 555

10 7 700

12 9 350

Die Vermutung des Unternehmers war, dass Yi = β0 + β1 · xi + εi ,

i = 1, . . . , n.

In der graphischen Darstellung sehen seine Beobachtungen wie folgt aus


139

6000 0

2000

4000

Gewinn

8000

10000

12000

3.5

0

5

10

15

Menge (in 1000)

M¨ ochte er nun wissen, mit welchem Gewinn er bei 9 000 produzierten St¨ ucken rechnen kann, wird er graphisch: eine Ausgleichsgerade durch die beobachteten Punktepaare legen und deren Wert an der Stelle x = 9 ablesen; rechnerisch: β0 und β1 anhand der Daten sch¨ atzen und x = 9 in den geschätzten Zusammenhang einsetzen. Zur Berechnung der Sch¨ atzwerte benutzt man die folgende Hilfstabelle i 1 2 3 4 5

xi 5 6 8 10 12 41 x = 8, 2

yi 2 600 3 450 5 555 7 700 9 350 28 655 y = 5 731

x2i 25 36 64 100 144 369

xi · yi 13 000 20 700 44 440 77 000 112 200 267 340

Mit den Formeln 137 f¨ ur die KQ-Sch¨ atzungen erhält man

140


n 267 340 − 5 · 8, 2 · 5731 i=1 xi · yi − n · x · y n = = 986, 860, 2 2 369 − 5 · (8, 2)2 i=1 xi − n · x

β%1

=

β%0

= y − β%1 · x = 5 731 −

32 369 · 8, 2 = − 2 361, 25. 32, 8

F¨ ur eine produzierte Menge von 9 000 St¨ uck schätzt man also, dass ein Gewinn von

6000

y=6520,49

0

2000

4000

Gewinn

8000

10000

12000

y = 2 361, 25 + 986, 860 · 9 = 6 520, 49 (Euro) % − erwirtschaftet wird.

0

x= 9

5

10

15

Menge (in 1000)

Zu beachten ist bei solchen Prognosen, dass sie nur sinnvoll sind f¨ ur neue x¨ber die Qualit¨ at Werte in der Nähe der tats¨ achlich beobachteten xi , da man u der Approximation des Zusammenhangs außerhalb des beobachteten Bereichs nichts aussagen kann. Solche Aussagen sind auch nicht immer sinnvoll. Im hier dargestellten Beispiel erhält man etwa f¨ ur sehr große Produktionsmengen die Prognose eines enormen Gewinns. Dabei werden aber andere Effekte, wie beispielsweise eine Markts¨ attigung, die bei sehr hohen Mengen produzierter B G¨ uter eintreten könnte, nicht ber¨ ucksichtigt. B

Beispiel Intelligenz und Probleml¨ osen

3.5


141

In einer Studie soll untersucht werden, wie stark der Zusammenhang zwischen der Intelligenz und der Probleml¨ osefähigkeit von Abiturienten ausgepr¨ agt ist. Dazu l¨ asst man zunächst 2 000 Abiturienten einen Intelligenztest bearbeiten und stellt ihren Intelligenzquotienten fest. F¨ ur eine festgelegte Auswahl von Intelligenzquotienten x1 , . . . , x8 wählt man dann aus den 2 000 Schulabg¨ angern 8 Personen aus, die gerade die festgelegten Intelligenzquotienten aufweisen. Diesen Sch¨ ulern stellt man eine komplexe Aufgabe und osung ben¨ otigen. Man misst jeweils die Zeit Yi (in Stunden), die sie zu ihrer L¨ erh¨ alt xi yi

100 3,8

105 3,3

110 3,4

115 2,0

120 2,3

125 2,6

130 1,8

135 1,6

0

1

2

Zeit

3

4

5

In der graphischen Darstellung sieht die Datenlage wie folgt aus

90

100

110

120

130

140

150

IQ

Es soll ein einfaches lineares Regressionsmodell angepasst werden, um vorherzusagen, wie lange ein Abiturient mit einem Intelligenzquotienten von 112 durchschnittlich zur L¨ osung der Aufgabe brauchen wird. ur das Modell Dazu werden die KQ-Sch¨ atzungen β%0 und β%1 f¨ Yi = β0 + β1 · xi + εi

142


ben¨ otigt. Zur Berechnung der Sch¨ atzwerte stellt man die folgende Hilfstabelle benötigter Gr¨ oßen auf i 1 2 3 4 5 6 7 8

xi 100 105 110 115 120 125 130 135 940 x = 117, 5

yi 3,8 3,3 3,4 2,0 2,3 2,6 1,8 1,6 20,8 y = 2, 6

x2i 10 000 11 025 12 100 13 225 14 400 15 625 16 900 18 225 111 500

xi · yi 380 346,5 374 230 276 325 234 216 2 381,5

Mit den Formeln 137 f¨ ur die KQ-Sch¨ atzungen erhält man

β%1

= =

β%0

n 2 381, 5 − 8 · 117, 5 · 2, 6 i=1 xi · yi − n · x · y n = 2 − n · x2 111 500 − 8 · (117, 5)2 x i=1 i − 62.5 = − 0, 060, 1 050

(− 62.5) · 117, 5 = 9, 59. = y − β%1 · x = 2, 6 − 1 050

Damit ist die Ausgleichsgerade gegeben durch die Gleichung y = 9, 59 − 0, 060 · x. F¨ ur einen Abiturienten mit einem IQ von 112 sch¨ atzt man, dass er y% = 9, 59 − 0, 060 · 112 = 2, 87 Stunden ben¨ otigen wird, um das Problem zu l¨ osen. Graphisch sieht der gesch¨ atzte Zusammenhang zwischen Problemlösefähigkeit und Intelligenzquotient von Abiturienten so aus


143

0

1

2

Zeit

3

4

5

3.5

90

100

110

120

130

140

150

IQ

B Kann man unterstellen, dass die Fehler εi im einfachen linearen Regressionsmodell Yi = β0 + β1 · xi + εi normalverteilt sind mit Erwartungswert Null und Varianz σ 2 , so gibt es einen engen Zusammenhang zwischen KQ-Schätzer und ML-Sch¨ atzer 119. In diesem Fall gilt n¨ amlich, dass die Zufallsvariablen Yi ebenfalls normalverteilt sind mit Erwartungswert β0 + β1 · xi und Varianz σ 2 , i = 1, . . . , n, das heißt Yi ∼ N (β0 + β1 · xi , σ 2 ), i = 1, . . . , n. Damit kann man die Dichte von Yi angeben 1 1 (yi − β0 − β1 · xi )2 . · exp − · f Yi (yi ) = √ 2 σ2 2 · π · σ2 Die Likelihood 116 f¨ ur die n Beobachtungen y1 , . . . , yn ist dann gegeben durch n 1 (yi − β0 − β1 · xi )2 1 √ L(β0 , β1 , σ 2 ) = · exp − · 2 σ2 2 · π · σ2 i=1

144


=

n 1 &√ 'n · exp − · (yi − β0 − β1 · xi )2 2 2 · σ 2 2·π·σ i=1

1

1 .

Sie h¨ angt von den drei unbekannten Parametern β0 , β1 und σ 2 ab. Zur Bestimmung der ML-Sch¨ atzer f¨ ur die drei Parameter ist die Likelihood ¨ zu maximieren. Aquivalent dazu kann man die Log-Likelihood 121 maximieren, also ln L(β0 , β1 , σ 2 ) = −

n n n 1 · ln(2 · π) − · ln(σ 2 ) − · (yi − β0 − β1 · xi )2 . 2 2 2 · σ 2 i=1

Setzen wir zun¨ achst die Varianz σ 2 als bekannt voraus, so sind die ersten beiden Terme der Log-Likelihood konstant bzgl. der interessierenden Parameter β0 und β1 , so dass man die Log-Likelihood auch schreiben kann als ln L(β0 , β1 )

=

const. −

n 1 · (yi − β0 − β1 · xi )2 . 2 · σ 2 i=1

¨ kann Dieser Ausdruck ist bez¨ uglich β0 und β1 zu maximieren. Aquivalent man auch n 1 − · (yi − β0 − β1 · xi )2 2 · σ 2 i=1 maximieren bzw. n 1 · (yi − β0 − β1 · xi )2 2 · σ 2 i=1

minimieren. Diese Minimierung ist (bei bekannter Varianz σ 2 ) wiederum äquivalent zur Minimierung von n (yi − β0 − β1 · xi )2 i=1

bez¨ uglich β0 und β1 . Die Maximierung der Likelihood ist in diesem Fall also a¨quivalent zur Minimierung von n (yi − β0 − β1 · xi )2 . i=1

3.5


145

Dies entspricht dem zu minimierenden Term f¨ ur den KQ-Sch¨ atzer. ML-Schät¨ berein. zer und KQ-Sch¨ atzer f¨ ur β0 und β1 stimmen also u Ist die Varianz σ 2 nicht bekannt, so f¨ uhrt das Maximum-Likelihood-Verfahren f¨ ur β0 und β1 ebenfalls zu denselben Schätzern wie die Methode der kleinsten Quadrate. Zus¨ atzlich erhält man als Sch¨ atzer f¨ ur σ 2 TσML 2 ((x1 , Y1 ), . . . , (xn , Yn ))

=

n 1 · (Yi − TβML − TβML · xi )2 0 1 n i=1

=

n 1 · (Yi − TβKQ − TβKQ · xi )2 . 0 1 n i=1

Dieser Maximum-Likelihood-Sch¨ atzer f¨ ur σ 2 ist verzerrt. Der unverzerrte ur σ 2 ergibt sich als Sch¨ atzer 64 f¨ TσU2 ((x1 , Y1 ), . . . , (xn , Yn )) =

n · T ML ((x1 , Y1 ), . . . , (xn , Yn )) 2 n−2 σ

Die Herleitung dieses unverzerrten Sch¨ atzers erfolgt bei der Betrachtung von Konfidenzintervallen im linearen Regressionsmodell 162 in der Regel zum Sch¨ atzer f¨ ur die Varianz 163. Satz von Gauß-Markov Der Satz von Gauß-Markov trifft eine Aussage u ¨ber die G¨ uteeigenschaften der KQ-Sch¨ atzer. Die grundlegenden Annahmen des einfachen linearen Regressionsmodells lauteten 1. Das Merkmal x wird nicht als stochastisch, sondern als fest vorausgesetzt. 2. Es wird ein linearer Einfluss des Merkmals x auf das Merkmal Y unterstellt gemäß Yi = β0 + β1 · xi + εi ,

i = 1, . . . , n.

angig und besitzen alle den Erwar3. Die Fehlervariablen εi sind unabh¨ tungswert Null und die gleiche Varianz σ 2 . Unter diesen Annahmen sind die KQ-Sch¨ atzer TβKQ und TβKQ unverzerrt 0 1 (erwartungstreu) f¨ ur β0 und β1 und haben minimale Varianz unter allen linearen unverzerrten Sch¨ atzern f¨ ur β0 und β1 . Es gilt also insbesondere: E(TβKQ ) = β0 und E(TβKQ ) = β1 . 0 1

146


Folgerung H¨ aufig interessiert man sich daf¨ ur, mit Hilfe eines linearen Regressionsmodells den Wert von Y an einer nicht beobachteten Stelle x0 vorherzusagen (vergleiche etwa die Beispiele 135 138 140). Im Modell Yi = β0 + β1 · xi + εi ,

i = 1, . . . , n,

ist der Erwartungswert von Y bei gegebener Beobachtung x gegeben durch E(Y ) = β0 + β1 · x. Zur Vorhersage von Y an einer Stelle x0 bietet es sich damit an, die und TβKQ in diese Gleichung einzusetzen. Mit Hilfe der Sch¨ atzer TβKQ 0 1 Sch¨ atzereigenschaften und dem Satz von Gauß-Markov folgt, dass die entstehende Prognose Y%0 mit + TβKQ · x0 Y%0 = TβKQ 0 1 ebenfalls erwartungstreu (f¨ ur E(Y )) und der Sch¨ atzer mit minimaler Varianz unter allen unverzerrten Sch¨ atzern ist.

Weitere Sch¨ atzverfahren

Neben den hier vorgestellten grundlegenden Prinzipien zur Konstruktion von Punktsch¨ atzfunktionen gibt es noch eine Reihe weiterer Methoden, die man benutzen kann, um an Sch¨ atzungen f¨ ur interessierende Gr¨ oßen zu kommen. Dazu zählen beispielsweise Bayes-Verfahren (z.B. Gelman et al. (1998)), die in der Lage sind, Vorinformationen u ¨ber die Verteilungsparameter mit in die Sch¨ atzung zu integrieren. So genannte Resampling-Verfahren hingegen versuchen, die in der erhobenen Stichprobe enthaltene Information mehrfach auszunutzen und so pr¨ azisere Schätzungen zu erhalten (vergleiche etwa Efron, Tibshirani (1993)).

3.6

Intervallsch¨ atzung

147

3.6 Intervallsch¨ atzung

3.6

Im Beispiel 53 der zwei Freunde, die herausfinden wollen, ob eine M¨ unze fair ist, waren zwei M¨ oglichkeiten angegeben, wie die Aussage u ¨ber die unbekannten Wahrscheinlichkeit f¨ ur Kopf bei der M¨ unze aussehen kann: Angabe eines einzelnen Werts f¨ ur p, zum Beispiel p% = 0, 3. Angabe eines Bereichs, in dem p liegen könnte, zum Beispiel [0, 2 ; 0, 4]. Der erste Ansatz, die Angabe einer Punktschätzung, wurde in den vorigen Abschnitten besprochen. Der zweite Ansatz ist die Angabe einer Intervallschätzung, einer so genannten Konfidenzsch¨ atzung oder eines Konfidenzintervalls. Ein Konfidenzsch¨ atzer liefert auf Basis erhobener Daten einen Bereich KIϑ = oglichen Werten des Parameters ϑ. Durch die Konstruktion [Ku ; Ko ] von m¨ von KIϑ mit Hilfe eines statistischen Verfahrens kennt man vor der Datenerhebung die Wahrscheinlichkeit, dass KIϑ den Parameter ϑ beinhaltet. Es ist ur α n¨ amlich Pϑ (ϑ ∈ KIϑ ) = 1 − α, α ∈ (0; 1). Durch Vorgabe eines Werts f¨ kann man angeben, wie pr¨ azise die Sch¨ atzung werden soll. Man wählt dabei f¨ ur gew¨ ohnlich den Wert α so, dass die Wahrscheinlichkeit 1 − α hoch ist, zum Beispiel 1 − α = 90% oder 95%. Nach der Datenerhebung und der Berechnung des Intervalls KIϑ ist der Parameter ϑ im Intervall enthalten oder nicht. Mit dem realisierten Intervall ist also keine Wahrscheinlichkeitsaussage mehr verbunden. Jedoch wissen wir, dass vor der Erhebung der Daten die urde, sehr hoch gew¨ ahlt Wahrscheinlichkeit, dass ϑ in KIϑ enthalten sein w¨ wurde, n¨ amlich 1 − α. Daher k¨ onnen wir sagen, dass wir zu (1 − α) · 100% sicher sind, dass ϑ im Intervall KIϑ enthalten ist. Genau wie Punktsch¨ atzungen k¨ onnen Konfidenzintervalle f¨ ur Parameter und Kennzahlen von Verteilungen ebenso berechnet werden wie f¨ ur Funktionen dieser Gr¨ oßen. Wir benutzen im Folgenden die gleiche Notation 55, wie wir sie schon f¨ ur die Punktsch¨ atzung eingef¨ uhrt haben. Beispiel Binomialverteilung (n,p)

Sei X eine binomialverteilte Zufallsvariable mit Parametern n und p, also X ∼ Bin(n; p). Dabei entspricht n dem Stichprobenumfang und p aus dem Intervall [0; 1] definiert die Erfolgswahrscheinlichkeit. Aus einer Stichprobe vom Umfang n sollen nun mit geeigneten Sch¨ atzfunktionen eine untere Intervallgrenze Ku (X) und eine obere Ko (X) gefunden werden, so dass sich der

B

148


wahre Wert p mit 95%iger Wahrscheinlichkeit in dem Intervall KIp = [Ku (X) ; Ko (X)] ⊂ [0; 1] befindet. Nehmen wir beispielsweise an, dass eine konkrete Stichprobe die onnen dann zu 95% sicher Grenzen Ku = 0, 2 und Ko = 0, 4 liefert. Wir k¨ sein, dass der Parameter p zwischen 0, 2 und 0, 4 liegt, sich also im Intervall B KIp = [0, 2 ; 0, 4] befindet. B

Beispiel Normalverteilung (µ,σ 2 )

Sei X eine normalverteilte Zufallsvariable mit Parametern µ und σ 2 , also X ∼ aufig sucht man ein Konfidenzintervall KIµ f¨ ur den Parameter µ, N (µ, σ 2 ). H¨ um anzugeben, innerhalb welcher Grenzen µ mit 95%-iger Wahrscheinlichkeit liegt. Aus einer gegebenen Stichprobe kann aber auch ein Konfidenzintervall ur die Varianz σ 2 konstruiert werden. B KIσ2 f¨

Definition Intervallsch¨ atzer

Sei X eine Zufallsvariable mit Verteilungsfunktion FX (x; ϑ). Dabei sei FX (x; ϑ) bis auf den Parameter ϑ ∈ Θ bekannt. Seien weiter die Stichprobenvariablen X1 , . . . , Xn unabhängig und identisch wie X verteilt. Ist

KIϑ = KIϑ (X1 , . . . , Xn ) = [Ku (X1 , . . . , Xn ); Ko (X1 , . . . , Xn )] = [Ku ; Ko ] ein Intervall, so dass gilt

P (ϑ ∈ KIϑ ) = P (Ku ≤ ϑ ≤ Ko ) ≥ 1 − α, dann ist KIϑ ein Intervallsch¨ atzer f¨ ur den Parameter ϑ, und KIϑ u ¨berdeckt ϑ mit Wahrscheinlichkeit (1 − α). Man nennt KIϑ auch Konfidenzintervall zum Niveau 1 − α oder (1 − α)-Konfidenzintervall. Die Wahrscheinlichkeit, dass das Intervall den interessierenden Parameter ϑ nicht enthält, beträgt α. Analog zum Fall der Punktschätzer heißt die Realisation von KIϑ an einer konkreten Stichprobe x1 , . . . , xn eine Schätzung, hier Intervallsch¨ atzung.

3.6


149

Beispiel Simulierte Konfidenzintervalle

B

0.0

0.1

0.2

0.3

0.4

F¨ ur die folgende Abbildung wurden 10 verschiedene Datens¨ atze simuliert, die jeweils 9 Beobachtungen aus einer N (0, 1)-Verteilung enthalten. Auf Basis jeder einzelnen Stichprobe wurde eine Intervallsch¨ atzung f¨ ur den Parameter µ dieser Verteilung vorgenommen. Man sieht, dass jede Stichprobe zu einem anderen geschätzten Intervall gef¨ uhrt hat. Auch enthalten nicht alle gesch¨ atzten Intervalle den wahren Wert von µ = 0. Das ist lediglich f¨ ur 8 von 10 Intervallen der Fall. W¨ urde man das beschriebene Vorgehen noch o¨fter wiederholen, sollten im Schnitt 95 von 100 realisierten Intervallen den wahren Wert von µ enthalten, denn wir haben f¨ ur dieses Beispiel mit einer Konfidenzwahrscheinlichkeit von α = 0, 95 gearbeitet.

3

2

1

0

1

2

3

3

2

1

0

1

2

3

B Man unterscheidet einseitige und zweiseitige Konfidenzintervalle. F¨ ur zweiseitige Konfidenzintervalle m¨ ussen die obere und die untere Intervallgrenze aus der Stichprobe berechnet werden. F¨ ur einseitige Konfidenzintervalle wird nur eine der beiden Intervallgrenzen aus der Stichprobe berechnet. Die andere wird mit der entsprechenden Grenze des Wertebereichs Θ des Parameters gleichgesetzt. Wir sprechen von unteren Konfidenzintervallen, wenn die linke Intervallgrenze der unteren Grenze des Parameterbereichs gleichgesetzt wird, und von oberen Konfidenzintervallen, wenn die rechte Intervallgrenze durch die obere Grenze des Parameterbereichs bestimmt wird.

150


Eigenschaften von Intervallsch¨ atzern Wie Punktsch¨ atzer sind auch die Grenzen Ku und Ko des Konfidenzintervalls Zufallsvariablen, deren Verteilung von X abh¨ angt. Ein Konfidenzintervall wird so konstruiert, dass der gesuchte Parameter mit Wahrscheinlichkeit (1 − α) darin eingefangen“ wird. ” Sobald aber das Konfidenzintervall f¨ ur konkrete Beobachtungen x1 , . . . , xn berechnet wurde, ist es fest und nicht mehr zuf¨ allig. Hier tritt derselbe Effekt ein wie schon bei Punktschätzern und Punktsch¨ atzungen: das Konfidenzintervall selbst ist ein Intervallschätzer und als solcher zuf¨ allig, w¨ ahrend das realisierte Konfidenzintervall eine Intervallsch¨ atzung und damit fest ist. Eine Aussage u ¨ber die Wahrscheinlichkeit, mit der der Parameter im realisierten Intervall liegt, ist also nicht mehr sinnvoll. Das aus den Daten konstruierte Konfidenzintervall u ¨berdeckt den unbekannten Parameter oder es u ¨ berdeckt ihn nicht. Die Zufallskomponente, die aus den noch unbeobachteten Daten resultiert und eine Wahrscheinlichkeitsaussage generell ermöglichte, ist nun weggefallen. Soll nicht f¨ ur den Parameter ϑ einer Verteilung, sondern f¨ ur eine Funktion ϕ(ϑ) des Parameters ein Konfidenzintervall konstruiert werden, dann k¨ onnen zur Intervallsch¨ atzung Statistiken Ku,ϕ(ϑ) und Ko,ϕ(ϑ) entsprechend so gewählt werden, dass der Funktionswert ϕ(ϑ) mit Wahrscheinlichkeit (1 − α) innerhalb dieser Grenzen liegt. Die Konstruktion eines Konfidenzintervalls basiert h¨ aufig auf einem Punktsch¨ atzer Tϑ (X1 , . . . , Xn ), dessen Verteilung bekannt ist. Der Intervallschätzer kann dann durch geeignete Umformungen, wie wir sie uhren, hergeleitet werden. im Folgenden 151 153 durchf¨

3.6


151

¨ Ubersicht u ¨ber Konfidenzintervalle in verschiedenen Situationen

¨ Ubersicht Im Folgenden werden Konfidenzintervalle f¨ ur verschiedene Standardsituationen statistischer Untersuchungen hergeleitet. Wir unterscheiden Konfidenzintervalle f¨ ur die Parameter der Normalverteilung N (µ, σ 2 ) Konfidenzintervalle f¨ ur den Erwartungswert µ bei bekannter Varianz σ 2 bei unbekannter Varianz σ 2 Konfidenzintervalle f¨ ur die Varianz σ 2 den Parameter p der Binomialverteilung Bin(n; p) f¨ ur kleine Stichproben (exakte Konfidenzintervalle) f¨ ur große Stichproben (approximative Konfidenzintervalle) den Erwartungswert einer beliebigen Verteilung f¨ ur große Stichproben (approximative Konfidenzintervalle) bei bekannter Varianz bei unbekannter Varianz die Regressionskoeffizienten im einfachen linearen Regressionsmodell

Konfidenzintervalle bei Normalverteilung

Beispiel Einseitiges Konfidenzintervall f¨ ur den Erwartungswert bei Normalverteilung, bekannte Varianz

Wir betrachten die normalverteilte Zufallsvariable X mit unbekanntem Erwartungswert µ und bekannter Varianz σ 2 . Der Parameterraum f¨ ur µ ist R. angig und identisch wie X Die Stichprobenvariablen X1 , . . . , Xn seien unabh¨ verteilt. Basierend auf X1 , . . . , Xn soll ein einseitiges, unteres Konfidenzintervall zum Niveau (1 − α) = 0, 95 f¨ ur den Erwartungswert µ erstellt werden. Da es sich hier um ein einseitiges Konfidenzintervall handelt, f¨ allt eine der Intervallgrenzen mit einer Grenze des Parameterraums zusammen. F¨ ur ein unteres Konfidenzintervall wird dann die untere Grenze mit Ku = −∞ un-

B

152


abh¨ angig von der Stichprobe gew¨ ahlt. Als Punktsch¨ atzer f¨ ur µ verwenden wir das arithmetische Mittel Tµ (X1 , . . . , Xn ) =

n 1 · Xi = X. n i=1

F¨ ur die weiteren Schritte ben¨ otigen wir die Verteilung des Schätzers. Da die , . . . , Xn jeweils N (µ, σ 2 )-verteilt sind, ist Stichprobenvariablen X 1 ' & 2 X ∼ N µ, σn 43, und damit gilt f¨ ur die standardisierte Variable √

n·

X −µ ∼ N (0, 1). σ

Eine solche Standardisierung eines Sch¨ atzers lohnt sich, da sich dadurch in der Regel weitere Rechnungen erleichtern. Wir k¨ onnen also im Folgenden Eigenschaften der Standardnormalverteilung ausnutzen. Das α-Quantil einer standardnormalverteilten Zufallsvariable Z ist der Wert zα∗ , f¨ ur den P(Z ≤ zα∗ ) = α gilt, α ∈ (0; 1). Es ist also √ X −µ ∗ P ≥ z0,05 = 0, 95. n· σ Ein Konfidenzintervall f¨ ur µ erhalten wir nun durch folgende Umformungen √ X −µ σ ∗ ∗ 0, 95 = P ≥ z0,05 = P X − µ ≥ z0,05 n· ·√ σ n σ σ ∗ ∗ = P µ ≤ X − z0,05 · √ = P µ ≤ X + z0,95 · √ . n n Hierbei nutzen wir zur Berechnung der Quantile die Symmetrie der Normal∗ zu ersetzen. verteilung aus, was uns erlaubt, −zα∗ durch z1−α Ein einseitiges&unteres Konfidenzintervall f¨ ur den Erwartungswert µ ist also , σ ∗ √ durch KIµ = −∞ ; X + z0,95 · n gegeben. Es u ¨berdeckt den Parameter µ mit einer Wahrscheinlichkeit von 95%. Liegt konkret die Stichprobe x1 3,02

x2 2,92

x3 0,97

x4 2,74

x5 2,28

x6 2,93

x7 -0,77

x8 3,67

x9 3,00

x10 5,41

x11 2,96

vor, von der wir wissen, dass die Beobachtungen voneinander unabh¨ angig aus 2 einer Normalverteilung mit Varianz σ = 4 gezogen wurden, dann erhalten

3.6


153

wir durch Einsetzen der entsprechenden Gr¨ oßen als realisiertes Konfidenzintervall f¨ ur µ * * σ 2 ∗ KIµ = −∞ ; X + z0,95 · √ = −∞ ; 2, 648 + 1, 6449 · √ n 11 =

(−∞ ; 3, 637].

Wir k¨ onnen also zu 95% sicher sein, dass der tatsächliche Erwartungswert µ B h¨ ochstens 3, 637 betr¨ agt. Konfidenzintervall f¨ ur den Erwartungswert bei Normalverteilung, bekannte Varianz Sei die Zufallsvariable X normalverteilt mit unbekanntem Erwartungswert µ ∈ R und bekannter Varianz σ 2 ∈ R+ und seien weiter die Stichangig und identisch wie X verteilt. Zu probenvariablen X1 , . . . , Xn unabh¨ einer vorgegebenen Wahrscheinlichkeit α ∈ (0; 1) sind folgende Intervalle (1 − α)-Konfidenzintervalle f¨ ur den Erwartungswert µ −∞ ; X +

∗ z1−α

σ ·√ n

*

) σ ∗ √ X − z1−α · ;∞ n

ist ein einseitiges, unteres Konfidenzintervall, ist ein einseitiges, oberes Konfidenzintervall,

* ) σ σ ist ein zweiseitiges ∗ ∗ X − z1−α/2 · √ ; X + z1−α/2 ·√ Konfidenzintervall. n n n Dabei bezeichnet X = n1 · i=1 Xi das arithmetische Mittel der Stichpro∗ das (1−α)-Quantil der Standardnormalverteilung. benvariablen und z1−α Beispiel Zweiseitiges Konfidenzintervall f¨ ur den Erwartungswert bei Normal-

verteilung, unbekannte Varianz Sei die Zufallsvariable X normalverteilt mit unbekanntem Erwartungswert µ ∈ R und unbekannter Varianz σ 2 ∈ R+ . Die Stichprobenvariablen angig und identisch wie X verteilt. Basierend auf X1 , . . . , Xn seien unabh¨ ur X1 , . . . , Xn soll ein zweiseitiges Konfidenzintervall zum Niveau (1 − α) f¨ den Erwartungswert µ bestimmt werden. Als Punktschätzer f¨ ur den Erwartungswert verwenden wir das arithmetische Mittel X der Stichproben-

B

154


variablen. Zun¨ achst bietet es sich wieder an, X zu standardisieren. Da jedoch die Varianz unbekannt ist, wird sie mit dem erwartungstreuen Sch¨ atzer n 1 2 2 S = n−1 · i=1 (Xi − X) geschätzt. Die standardisierte Variante von X ist dann nicht mehr normalverteilt, sondern folgt einer t-Verteilung mit n − 1 Freiheitsgraden. Es gilt also √

n·

X −µ ∼ tn−1 . S

Bezeichnen t∗n−1;α/2 und t∗n−1;1−α/2 das (α/2)- bzw. das (1 − α/2)-Quantil asst sich ein Konfidenzintervall f¨ ur µ wie folgt der tn−1 -Verteilung, dann l¨ herleiten √ X −µ ≤ t∗n−1;1− α2 1 − α = P t∗n−1; α2 ≤ n · S S S = P −X + t∗n−1; α2 · √ ≤ −µ ≤ −X + t∗n−1;1− α2 · √ n n S S = P X − t∗n−1; α2 · √ ≥ µ ≥ X − t∗n−1;1− α2 · √ n n S S = P X + t∗n−1;1− α2 · √ ≥ µ ≥ X + t∗n−1; α2 · √ n n S S ∗ ∗ = P X + tn−1; α2 · √ ≤ µ ≤ X + tn−1;1− α2 · √ . n n Das Konfidenzintervall ist durch die letzte Zeile der Gleichung gegeben. Die Symmetrie der t-Verteilung erlaubt, dass t∗n−1; α mit −t∗n−1;1− α ersetzt wer2 2 den kann (t∗n−1;α = −t∗n−1;1−α ). Damit ist ) * S S ∗ ∗ KIµ = X − tn−1;1− α2 · √ ; X + tn−1;1− α2 · √ n n ein zweiseitiges Konfidenzintervall f¨ ur den Erwartungswert µ bei unbekannter B Varianz einer normalverteilten Zufallsvariablen X. Theoretisch können Intervalle von Interesse sein, die nicht symmetrisch sind, zum Beispiel durch Wahl von t∗n−1;α/4 und t∗n−1;1−3·α/4 . Dies ist in der Praxis jedoch selten der Fall.

3.6


155

Konfidenzintervalle f¨ ur den Erwartungswert bei Normalverteilung, unbekannte Varianz Sei X normalverteilt mit unbekanntem Erwartungswert µ ∈ R und unbekannter Varianz σ 2 ∈ R+ . Seien die Stichprobenvariablen angig und identisch wie X verteilt. Zu einer vorgeX1 , . . . , Xn unabh¨ gebenen Wahrscheinlichkeit α ∈ (0; 1) sind folgende Intervalle (1 − α)Konfidenzintervalle f¨ ur den Erwartungswert µ &

−∞ ; X + t∗n−1;1−α ·

√S n

,

ist ein einseitiges, unteres Konfidenzintervall,

+ X − t∗n−1;1−α ·

√S n

;∞

+ X − t∗n−1;1− α ·

√S n

; X + t∗n−1;1− α ·

2

'

ist ein einseitiges, oberes Konfidenzintervall,

2

√S n

,

ist ein zweiseitiges Konfidenzintervall.

n Dabei ist X = n1 · i=1 √ Xi das arithmetische Mittel der StichproS 2 die geschätzte Standardabweichung mit benvariablen und S = n 1 2 2 S = n−1 · i=1 (Xi − X) . Mit t∗n−1;α ist das α-Quantil der t-Verteilung mit n − 1 Freiheitsgraden bezeichnet.

Konfidenzintervall f¨ ur die Varianz bei Normalverteilung Sei X ∼ N (µ, σ 2 ) mit unbekannten Parametern µ ∈ R und σ 2 ∈ R+ , angig und identisch wie X verteilte Stichund seien X1 , . . . , Xn unabh¨ probenvariablen. Gesucht ist ein Konfidenzintervall f¨ ur die Varianz σ 2 . n 1 2 2 Als Schätzer f¨ ur σ verwenden wir S = n−1 · i=1 (Xi − X)2 . Wird dieser geeignet normiert, so ist er χ2 -verteilt mit (n − 1) Freiheitsgraden, genauer gilt n−1 · S 2 ∼ χ2n−1 . σ2 2∗ Bezeichnen χ2∗ n−1;α/2 und χn−1;1−α/2 das (α/2)- bzw. das (1 − α/2)2 Quantil der χ -Verteilung mit n − 1 Freiheitsgraden, dann l¨ asst sich ein Konfidenzintervall f¨ ur σ 2 wie folgt herleiten

156


1−α

=

=

=

n−1 2 2∗ α ≤ α P χ2∗ · S ≤ χ n−1; 2 n−1;1− 2 σ2 χ2∗ χ2∗ 1 n−1; α n−1;1− α 2 2 P ≤ ≤ 2 2 (n − 1) · S σ (n − 1) · S 2 (n − 1) · S 2 (n − 1) · S 2 2 . P ≤ σ ≤ χ2∗ χ2∗ n−1;1− α n−1; α 2

2

Als zweiseitiges Konfidenzintervall ergibt sich damit (n − 1) · S 2 (n − 1) · S 2 . KIσ2 = ; χ2∗ χ2∗ n−1;1− α n−1; α 2

2

Konfidenzintervalle bei Binomialverteilung

B

Beispiel Einseitiges Konfidenzintervall f¨ ur den Anteil p bei Binomialverteilung, kleiner Stichprobenumfang

Bei einem W¨ urfelspiel kommt einem Spieler der Verdacht, dass sein Mitspieler möglicherweise einen gezinkten W¨ urfel verwendet, der in mehr als 1/6 der F¨ alle eine Sechs w¨ urfelt. Er l¨ asst sich daher den W¨ urfel des Mitspielers geben und w¨ urfelt 30-mal. Unter seinen Ergebnissen befinden sich zehn Sechsen. Gesucht ist ein einseitiges, oberes Konfidenzintervall zum Niveau (1 − α) = 0, 95 f¨ ur die Wahrscheinlichkeit, dass der W¨ urfel eine Sechs w¨ urfelt. Jeder Wurf Xi kann als Bernoulli-Experiment angesehen werden. Die Erfolgswahrscheinlichkeit ist in diesem Fall die Wahrscheinlichkeit p f¨ ur das Werfen einer Sechs. Sie ist unbekannt, aber in jedem der Experimente dieselbe. Setzen wir Xi = 1, falls beim i-ten Wurf eine Sechs geworfen wird, und Xi = 0 in allen anden ren Fällen, so ist i=1 Xi binomialverteilt mit Parametern n und p, wobei n = 30 und p unbekannt ist. Da ein einseitiges, oberes Konfidenzintervall ur p, so dass gesucht ist, ist Ko = 1. Gesucht ist also eine untere Grenze Ku f¨ n P Xi ≥ 10| p = Ku ≥ 0, 95. i=1

3.6


157

Das heißt, es ist der kleinstmögliche Wert f¨ ur p zu bestimmen, so dass die Wahrscheinlichkeit, 10 oder mehr Sechsen zu w¨ urfeln, mindestens 95% betr¨ agt. Formal ergibt sich als Lösung n 1 Xi ≥ 10| p ≥ 0, 95 . Ku = min p : P p

i=1

Zur Bestimmung von Ku muss in unserem konkreten Fall der kleinste Wert f¨ ur p bestimmt werden, so dass die Ungleichung 30 30 · pk · (1 − p)30−k ≥ 0, 95 k

k=10

erf¨ ullt ist. Dies ist rechnerisch nur sehr aufw¨ andig l¨ osbar. Durch Nachschlagen in Tabellen oder mit Hilfe eines entsprechenden Computerprogrammes erhalten wir das Ergebnis Ku = 0, 465. Die Realisierung des oberen 95%Konfidenzintervalls f¨ ur p ist also gegeben durch [0, 465 ; 1]. Da der Wert 1/6 = 0,167 nicht in diesem Intervall liegt, k¨ onnen wir folgern, dass der W¨ urfel B mit einer h¨ oheren Wahrscheinlichkeit als 1/6 eine Sechs w¨ urfelt. Beispiel (Fortsetzung 156) Zweiseitiges Konfidenzintervall f¨ ur den Anteil p bei Binomialverteilung, großer Stichprobenumfang

Wir betrachten wieder einen W¨ urfel, dessen Wahrscheinlichkeit, Sechsen zu w¨ urfeln, beurteilt werden soll. Die betrachtete Stichprobe X1 , . . . , Xn , wobei Xi ∼ Bin(1, p), i = 1, . . . , n, sei diesmal groß. In diesem Fall lässt sich unter Anwendung des Zentralen Grenzwertsatzes e die Zufallsvariable n X = n1 i=1 Xi geeignet standardisieren, so dass diese Größe approximativ standardnormalverteilt ist 92. Von Interesse ist, wie ein zweiseitiges Konfidenzintervall f¨ ur p zum Niveau (1 − α) bestimmt werden kann. Als Punktsch¨ atzer f¨ ur p verwenden wir den Anteil der gew¨ urfelten Sechsen. Wird diese Zufallsvariable entsprechend dem Zentralen Grenzwertsatz standardisiert, ist sie approximativ standardnormalverteilt. Es gilt E[X] = p und Var[X] = n1 · p · (1 − p), folglich ist approximativ √ X −p ∼ N (0, 1). n· p · (1 − p) Im Folgenden ersetzen wir im Nenner den Term p · (1 − p) durch den Sch¨ atzer ∗ X · (1 − X). Bezeichnet z1−α das (1 − α)-Quantil der Standardnormalverteilung, so l¨ asst sich ein approximatives Konfidenzintervall f¨ ur den Anteil p

B

158


folgendermaßen herleiten ⎞ ⎛ √ X − p ∗ ∗ α ≤ α⎠ ≤ z1− n· ! 1 − α ≈ P⎝−z1− 2 2 X · (1 − X) ⎛ ⎞ 9 9 X · (1 − X) X · (1 − X) ∗ ∗ ⎠, α · α · = P⎝X − z1− ≤ p ≤ X + z1− 2 2 n n wobei die Umformungen analog zur Herleitung im Falle der Normalverteilung erfolgen. Ein zweiseitiges Konfidenzintervall f¨ ur p lautet somit ⎤ ⎡ 9 9 X · (1 − X) X · (1 − X) ∗ ∗ ⎦, α · α · ; X + z1− KIp = ⎣X − z1− 2 2 n n es ist aber bedingt durch das Ersetzen der echten Varianz durch ihren Sch¨ atzer nur approximativ. Einseitige Konfidenzintervalle erh¨ alt man auf analogem ∗ ∗ Weg unter Verwendung der Quantile z1−α statt z1−α/2 . B Konfidenzintervalle f¨ ur den Anteil p bei Binomialverteilung, große Stichprobe Seien X1 , . . . , Xn unabh¨ angige und identisch bernoulliverteilte Stichpron benvariablen mit Erfolgswahrscheinlichkeit p ∈ [0; 1]. Sei damit i=1 Xi binomialverteilt mit Parametern n und p. Als Daumenregel gilt: n ≥ 30, n·p ≥ 5 und n·(1−p) ≥ 5. Zu einer vorgegebenen Wahrscheinlichkeit α ∈ (0; 1) sind folgende Intervalle approximative (1 − α)-Konfidenzintervalle f¨ ur p: ⎤ ⎡ 9 X · (1 − X) ⎦ ist ein einseitiges, ∗ ⎣0; X + z1−α · unteres Konfidenzintervall, n ⎡ ∗ ⎣X − z1−α ·

⎡ ∗ ⎣X − z1− α · 2

9

⎤ X · (1 − X) ⎦ ;1 n

ist ein einseitiges, oberes Konfidenzintervall,

9

9 X · (1 − X) ∗ α · ; X + z1− 2 n

⎤ X · (1 − X) ⎦ n ist ein zweiseitiges Konfidenzintervall.

3.6


Dabei ist X =

1 n

·

159

n i=1

∗ Xi und z1−α das (1 − α)-Quantil der N (0, 1).

Approximative Konfidenzintervalle bei beliebiger Verteilung

Beispiel Zweiseitige Konfidenzintervalle

B

Ein zweiseitiges Konfidenzintervall f¨ ur den Erwartungswert einer Verteilung (unbekannten Typs) kann bei bekannter Varianz mit folgendem Verfahren recht einfach bestimmt werden. Es sei X eine Zufallsvariable mit beliebiger Verteilung, deren Erwartungswert E[X] = ϑ existiert und deren Varianz σ 2 bekannt ist. Es seien weiter X1 , . . . , Xn unabh¨ angige Stichprobenvariablen mit der gleichen Verteilung wie X. Das arithmetische Mittel X als Schätzer f¨ ur den Erwartungswert ϑ ist nach dem Zentralen Grenzwertsatz e f¨ ur wachsende Stichprobenumf¨ ange ann¨ ahernd normalverteilt, wenn man es geeignet standardisiert. Ein approximatives Konfidenzintervall f¨ ur ϑ zum Niveau (1 − α) erhält man daher mit ) * σ σ ∗ ∗ α · √ ;X + z α · √ Kϑ = X − z1− . 1− 2 2 n n ∗ Dabei ist z1−α das (1 − α)-Quantil der Standardnormalverteilung.

Falls die Varianz nicht bekannt ist, so muss sie zun¨ achst mit n 1 2 2 S = n−1 · i=1 (Xi − X) geschätzt werden. Das Konfidenzintervall wird dann unter Einbeziehung von S 2 anstelle von σ 2 berechnet, wobei statt der Quantile der Normalverteilung die der t-Verteilung mit n − 1 Freiheitsgraden zu verwenden sind. Dadurch erh¨ alt man ) * S S KIϑ = X − t∗n−1;1− α2 · √ ; X + t∗n−1;1− α2 · √ . n n Ist der Stichprobenumfang ausreichend groß, n ≥ 30, k¨ onnen statt der tQuantile (t∗n−1;α ) wieder die Quantile der Standardnormalverteilung (zα∗ ) B verwendet werden. Beispiel Einseitige Konfidenzintervalle

Einseitige Konfidenzintervalle zum Niveau (1 − α) lassen sich analog zu den zweiseitigen Konfidenzintervallen berechnen. Bei bekannter Varianz sind ein-

B

160


seitige Konfidenzintervalle gegeben durch * σ ∗ √ KIϑ = −∞; X + z1−α · n ) σ ∗ √ X − z1−α · ; +∞ KIϑ = n

(unteres) (oberes).

Entsprechend sind die Formeln bei unbekannter Varianz, welche dann durch S 2 geschätzt wird * S KIϑ = −∞; X + t∗n−1;1−α · √ (unteres) n ) S X − t∗n−1;1−α · √ ; ∞ (oberes). KIϑ = n B Das Konstruktionsprinzip von Konfidenzintervallen f¨ ur den Erwartungswert einer Verteilung ist angelehnt an die 3 · σ-Regel e. F¨ ur eine normalverteilte Zufallsvariable werden ca. 66% ihrer Realisierungen in einem zentralen Intervall von -1 · σ bis +1 · σ um den Erwartungswert liegen. Innerhalb von -2 · σ bis +2 · σ um den Erwartungswert befinden sich etwa 95% aller beobachteten Werte, und in dem Intervall von -3 · σ bis +3 · σ befinden sich rund 99,7% aller Beobachtungen. Entsprechend geht man bei der Konstruktion von Konfidenzintervallen f¨ ur den Erwartungswert ebenfalls von solchen zentralen Bereichen aus, die symmetrisch um den Erwartungswert liegen und dehnt sie so weit aus, bis man davon ausgehen kann, dass ungef¨ ahr (1 − α) · 100% der realisierten Werte in diesem Bereich zu erwarten sind. Das oben beschriebene Konstruktionsverfahren eignet sich approximativ f¨ ur alle unabh¨ angigen, identisch verteilten Stichprobenvariablen. Je kleiner der Stichprobenumfang, desto ungenauer ist im Allgemeinen die Approximation. Stammen die Daten jedoch aus einer Normalverteilung, dann sind die obigen Intervalle wieder exakte (1 − α)-Konfidenzintervalle. Zu beachten ist, dass der Erwartungswert µ nicht notwendigerweise dem Parameter entspricht, der eine Verteilung charakterisiert. Bei der Normalverteilung ist dies zwar f¨ ur µ erf¨ ullt, bei der Exponentialverteilung aber beispielsweise nicht, hier ist λ = µ1 . B

Beispiel Hepatitis B

Hepatitis B zählt in Deutschland zu den meldepflichtigen Krankheiten. Wir betrachten die 23 Städte in Nordrhein-Westfalen, f¨ ur die die j¨ ahrlichen ge-

3.6


161

meldeten Krankheitsf¨ alle bekannt sind. Da die St¨ adte unterschiedlich große Bevölkerungen haben, ist es sinnvoll, die Anzahl der F¨ alle pro 100. 000 Einwohner zu berechnen, die so genannte Inzidenz. Die folgenden Daten ahrliche Inzidenz der 23 St¨ adte an, welche x1 , . . . , x23 geben die mittlere j¨ auf Basis von Daten der 18 Monate von Januar 2001 bis Juni 2002 berechnet wurde. Es interessiert eine Aussage u ¨ ber die Inzidenz in ganz NordrheinWestfalen. 5,76 2,60 5,79

3,98 1,89 0,68

2,63 5,85 1,17

5,71 3,13 12,49

6,42 6,75 4,57

3,29 9,38 27,27

8,30 1,64 1,14

3,42 2,05

Vereinfachend gehen wir davon aus, dass die Verteilung der Inzidenzen in allen St¨ adten gleich ist. Gesucht ist ein zweiseitiges Konfidenzintervall f¨ ur den Erwartungswert der Inzidenzen zum Niveau 1 − α = 0, 95. Da es keine Verteilungsannahme zu den Daten gibt und die Varianz unbekannt ist, wird das Intervall entsprechend der allgemeinen Konstruktion durch ) * S S ∗ ∗ Kϑ = X − tn−1;1− α2 · √ ; X + tn−1;1− α2 · √ n n bestimmt, wobei ϑ den Erwartungswert der j¨ ahrlichen Inzidenz in einer Stadt beschreibt. Als Intervallsch¨ atzung erhalten wir also * ) * ) s s KIϑ = ϑˆ ± t∗n−1;1− α2 · √ = x ± t∗22;0,975 · √ n 23 ) * 5, 575 = 5, 474 ± 2, 0739 · √ = [3, 063; 7, 885]. 23 B Beispiel Kognitive F¨ ahigkeiten

In einem Versuch, der die kognitive Leistungsf¨ ahigkeit von T¨ ummlern erforschen soll, m¨ ussen die Versuchstiere je nach Präsentation bestimmter Objekte (Ball, Reifen, Trillerpfeife, Trainer) mit einem zuvor einge¨ ubten Pfeifen reagieren. Dies bedeutet, dass ein Delfin das Objekt als solches erkannt hat. Hat der Delfin richtig gepfiffen, so wird das jeweilige Tier sofort mit einem Fisch belohnt. In zuf¨ alliger Reihenfolge werden f¨ unf T¨ ummlern die Objekte mehrfach gezeigt. Insgesamt wurde der Ball 48-mal gezeigt und 41-mal richtig erkannt. Die Trillerpfeife wurde 42-mal pr¨ asentiert und 18-mal richtig erkannt. Gesucht sind f¨ ur beide Objekte Konfidenzintervalle zum Niveau 0, 95

B

162


f¨ ur die Wahrscheinlichkeit, dass die Delfine die Objekte jeweils richtig erkennen. Wir gehen hier davon aus, dass jedes Tier zu jeder Zeit ein bestimmtes Objekt mit der jeweils gleichen Wahrscheinlichkeit richtig erkennt. Da wir voraussetzen, dass das Ereignis einer richtigen Reaktion bernoulliverteilt ist mit unbekanntem Parameter p, ist die Anzahl richtiger Antworten f¨ ur ein bestimmtes Objekt binomialverteilt mit diesem Parameter p. Ein approximatives Konfidenzintervall ist gegeben durch ⎤ ⎡ 9 9 X · (1 − X) X · (1 − X) ∗ ∗ ⎦. α · α · ; X + z1− KIp = [Ku ; Ko ] = ⎣X − z1− 2 2 n n Die Anwendung der Approximationsformel ist erlaubt, da die Stichprobenumf¨ ange hier mit nBall = 48 bzw. nPfeife = 42 gr¨ oßer sind als 30. Durch 18 Einsetzen von nBall = 48, nPfeife = 42 sowie xBall = 41 48 und xPfeife = 42 erhalten wir als Sch¨ atzungen : 0, 854 · 0, 146 Ball = [0, 754; 0, 954] KIp = 0, 854 ± 1, 9599 · 48 und Pfeife

KIp

=

: 0, 429 ± 1, 9599 ·

0, 429 · 0, 571 = [0, 279; 0, 579]. 42 B

Konfidenzintervalle im linearen Regressionsmodell

Im einfachen linearen Regressionsmodell Yi = β0 + β1 · xi + εi ,

i = 1, . . . , n,

werden die Parameter β0 und β1 geschätzt, aber auch der Wert von Y f¨ ur einen nicht beobachteten Wert x der Einflussgr¨ oße vorhergesagt. Hierbei h¨ angen die Sch¨ atzungen β%0 , β%1 und y% von der Zufallsstichprobe ab und nehmen f¨ ur unterschiedliche Stichproben verschiedene Werte an. Aus diesem Grund kann es auch in der Regressionsanalyse von Interesse sein, Konfidenzintervalle zu bestimmen, die die wahren Gr¨ oßen mit einer vorgegebenen Wahrscheinlichkeit (1−α) u ¨berdecken. Bei der einfachen linearen Regression können insbesondere Bereichsschätzer f¨ ur β0 und β1 berechnet werden.

3.6


163

Sch¨ atzer f¨ ur die Varianz Gegeben ist das einfache lineare Regressionsmodell Yi = β0 + β1 · xi + εi mit E(εi ) = 0 und Var(εi ) = σ 2 f¨ ur alle i = 1, . . . , n. In der Bemerkung 143 zum Zusammenhang zwischen den KleinsteQuadrate- und den Maximum-Likelihood-Sch¨ atzern wurde auch auf die Sch¨ atzung der Varianz σ 2 von εi bzw. Yi eingegangen. Dabei ergab sich, dass der ML-Sch¨ atzer f¨ ur σ 2 verzerrt ist. Zur Herleitung des unverzerr¨berlegen wir, wie die Varianz im Allgemeinen ten Schätzers f¨ ur σ 2 u geschätzt wird. Bei unabh¨ angigen und identisch verteilten Zufallsvariaur Var(Yi ) in der Regel die blen Yi zieht man als unverzerrten Schätzer f¨ Stichprobenvarianz 69 S2 =

n 1 · (Yi − Y )2 n − 1 i=1

heran. Im linearen Regressionsmodell sind die Yi jedoch nicht mehr identisch ur alle i = verteilt, insbesondere sind die Erwartungswerte E(Yi ) nicht f¨ atzer f¨ ur den 1, . . . , n identisch. Daher kann man auch Y nicht als Sch¨ ” Erwartungswert“, das heißt alle Erwartungswerte E(Yi ) verwenden. Statt + TβKQ · xi eingesetzt. dessen werden hier die Prognosen Y%i = TβKQ 0 1 2 atzer ein einzelner ParameIm Fall von S geht in den Varianzsch¨ ur E(Yi ). Das ist der Grund daf¨ ur, dass die tersch¨ atzer ein, n¨ amlich Y f¨ n Quadratsumme i=1 (Yi − Y )2 durch n − 1 statt durch n geteilt wird. Man sagt, dass durch die Schätzung von E(Yi ) ein Freiheitsgrad verloren geht. Im Fall des einfachen linearen Regressionsmodells m¨ ussen f¨ ur die Prognosen Y%i die zwei Parameter β0 und β1 geschätzt werden. Dadurch gehen hier zwei Freiheitsgrade verloren, und man teilt die Quadratsumme durch n − 2. Als unverzerrte Schätzung f¨ ur σ 2 ergibt sich σ %

2

n 1 · = (yi − y%i )2 n − 2 i=1

=

TσU2 ((x1 , y1 ), . . . , (xn , yn ))

=

n 1 · (yi − β%0 − β%1 · xi )2 . n − 2 i=1

164


Verteilungen der Parametersch¨ atzer Sind im einfachen linearen Regressionsmodell Yi = β0 + β1 · xi + εi mit E(εi ) = 0 und Var(εi ) = σ 2 die Fehler normalverteilt, dann sind auch und TβKQ normalverteilt. Daraus folgt unmittelbar, die KQ-Sch¨ atzer TβKQ 0 1 KQ 2 oßen dass mit σj = Var(Tβj ) die Gr¨ TβKQ − βj j ! , σj2

j = 0, 1

atzer standardnormalverteilt sind. Sch¨ atzt man die Varianzen σj2 der Sch¨ KQ Tβj , j = 0, 1 durch Tσ02 =

TσU2

n x2 n i=1 i · n · i=1 (xi − x)2

und

TσU2 , 2 i=1 (xi − x)

Tσ12 = n

so sind TβKQ − βj j ! , Tσj2

j = 0, 1

t-verteilt mit n − 2 Freiheitsgraden. atzer f¨ ur die Varianz σ 2 aus der Dabei ist TσU2 der unverzerrte Sch¨ atzung der Fehlervarianz. Bemerkung 163 zur Sch¨ Auf Grundlage dieser Verteilungs¨ uberlegungen lassen sich die folgenden Wahrscheinlichkeitsaussagen treffen ⎞ ⎛ KQ T − β j β j ≤ t∗n−2;1− α2 ⎠ = 1 − α, j = 0, 1. P ⎝t∗n−2; α2 ≤ ! Tσj2 Dabei ist t∗n−2;p das p-Quantil der t-Verteilung mit n − 2 Freiheitsgraden. Durch Umformung dieser Wahrscheinlichkeitsaussage lassen sich Konfidenzintervalle f¨ ur β0 und β1 aufstellen.

3.6


165

Konfidenzintervalle f¨ ur die Regressionskoeffizienten Mittels der Verteilungen der Parametersch¨ atzer 164 lassen sich folgende Konfidenzintervalle f¨ ur die Regressionskoeffizienten β0 und β1 des einfachen linearen Regressionsmodells aufstellen: f¨ ur β0 ist +

TβKQ − 0

!

Tσ02 · t∗n−2;1− α2 ; TβKQ + 0

!

Tσ02 · t∗n−2;1− α2

,

ein Konfidenzintervall zum Niveau 1 − α, mit n x2 n i=1 i Tσ02 = TσU2 · ; n · i=1 (xi − x)2 f¨ ur β1 ist +

TβKQ − 1

!

Tσ12 · t∗n−2;1− α2 ; TβKQ + 1

!

Tσ12 · t∗n−2;1− α2

,

ein Konfidenzintervall zum Niveau 1 − α, mit TσU2 . 2 i=1 (xi − x)

Tσ12 = n Dabei ist wieder TσU2 =

n 1 · (Yi − Y%i )2 n − 2 i=1

der unverzerrte Sch¨ atzer f¨ ur die Varianz σ 2 der εi . Beispiel (Fortsetzung 135 138) Gewinn eines Unternehmers

B

Im Beispiel 138 des Unternehmers waren zu den produzierten Mengen die folgenden Gewinne erzielt worden: Menge xi (in 1 000 St¨ uck) Gewinn yi (in Euro)

5 2 600

6 3 450

8 5 555

F¨ ur das einfache lineare Regressionsmodell Yi = β0 + β1 · xi + εi haben wir als KQ-Sch¨ atzungen β%0 = − 2 361, 25

und

β%1 = 986, 860

10 7 700

12 9 350

166


erhalten. Damit ergeben sich die vorhergesagten Werte y%i = β%0 + β%1 · xi , die geschätzten Residuen ri und die Residuenquadrate ri2 zu xi yi y%i ri ri2

5 2 600 2 573,05 26,95 726,3025

6 3 450 3 559,91 - 109,91 12 080,2081

8 5 555 5 533,63 21,37 456,6769

10 7 700 7 507,35 192,65 37 114,0225

12 9 350 9 481,07 - 131,07 17 179,3449

Zur Berechnung der Konfidenzintervalle f¨ ur β0 und β1 bestimmen wir den Sch¨ atzwert f¨ ur die Fehlervarianz σ 2 : n n 1 1 67 556, 55 2 σ % = · · = 22 518, 85. (yi − y%i ) = r2 = n − 2 i=1 n − 2 i=1 i 3 2

Als Schätzungen f¨ ur die Varianzen σ02 und σ12 der Schätzer f¨ ur β0 und β1 berechnen wir n 2 369 2 2 i=1 xi = 50 677, 41, σ %0 = σ % · = 22 518, 85 · n 5 · 32, 8 n · i=1 (xi − x)2 σ %2 22 518, 85 = 686, 5503. = 2 32, 8 i=1 (xi − x)

σ %12 = n

Die zur Berechnung verwendeten Zwischenergebnisse sind aus der Tabelle der Hilfsgr¨ oßen im Beispiel 138 des Unternehmers bzw. aus der Berechnung der KQ-Sch¨ atzwerte zu entnehmen. Zu einer Irrtumswahrscheinlichkeit von α = 0, 05 ergeben sich damit die Realisationen der 95%-Konfidenzintervalle f¨ ur β0 und β1 als * ) ! ! β%0 − σ %02 · t∗n−2;1− α2 ; β%0 + σ %02 · t∗n−2;1− α2 =

und

− 2 361, 25 − 225, 1164 · t∗3;0,975 ; − 2 361, 25 + 225, 1164 · t∗3;0,975

=

[− 2 361, 25 − 225, 1164 · 3, 1824 ; − 2 361, 25 + 225, 1164 · 3, 1824]

=

[− 3 077, 66 ; − 1 644, 84]

f¨ u r β0

3.6


167

) * ! ! β%1 − σ %12 · t∗n−2;1− α2 ; β%1 + σ %12 · t∗n−2;1− α2 =

986, 860 − 26, 2021 · t∗3;0,975 ; 986, 860 + 26, 2021 · t∗3;0,975

= [986, 860 − 26, 2021 · 3, 1824 ; 986, 860 + 26, 2021 · 3, 1824] = [903, 47 ; 1 070, 25]

f¨ ur β1 . B

Beispiel (Fortsetzung 140) Intelligenz und Probleml¨ osen

B

Im Beispiel 140 der Untersuchung des Zusammenhangs zwischen der Intelligenz und der Probleml¨ osefähigkeit von Abiturienten ergaben sich die Sch¨ atzwerte der Regressionskoeffizienten zu β%0 = 9, 59

und

β%1 = − 0, 060.

Die beobachteten und vorhergesagten Werte, die gesch¨ atzten Residuen und die quadrierten Residuen sind in der folgenden Tabelle zusammengestellt i xi yi y%i ri ri2

1 100 3,8 3,59 0,21 0,0441

2 105 3,3 3,29 0,01 0,0001

3 110 3,4 2,99 0,41 0,1681

4 115 2,0 2,69 - 0,69 0,4761

5 120 2,3 2,39 - 0,09 0,0081

6 125 2,6 2,09 0,51 0,2601

7 130 1,8 1,79 0,01 0,0001

8 135 1,6 1,49 0,11 0,0121

Zur Berechnung der Konfidenzintervalle f¨ ur β0 und β1 ben¨ otigt man die Sch¨ atzung f¨ ur die Varianz σ 2 σ %2 =

n n 1 1 0, 9688 · · = 0, 1615. (yi − y%i )2 = r2 = n − 2 i=1 n − 2 i=1 i 6

Als Schätzungen f¨ ur die Varianzen σ02 und σ12 der Schätzer f¨ ur β0 und β1 ergeben sich n x2 111 500 2 2 n i=1 i = 2, 1437 σ %0 = σ % · = 0, 1615 · 2 8 · 1 050 n · i=1 (xi − x) σ %2 0, 1615 = 0, 0002. = 2 1 050 (x − x) i=1 i

σ %12 = n

168


Die zur Berechnung verwendeten Zwischenergebnisse sind aus den Berechnungen im Beispiel 140 entnommen. Zu einer Irrtumswahrscheinlichkeit von α = 0, 1 ergeben sich damit die Realisationen der 90%-Konfidenzintervalle f¨ ur β0 und β1 als * ) ! ! β%0 − σ %02 · t∗n−2;1− α2 ; β%0 + σ %02 · t∗n−2;1− α2 =

9, 59 − 1, 4641 · t∗6;0,95 ; 9, 59 + 1, 4641 · t∗6;0,95

=

[9, 59 − 1, 4641 · 1, 9432 ; 9, 59 + 1, 4641 · 1, 9432]

=

[6, 74 ; 12, 44]

f¨ ur β0

und * ) ! ! ∗ ∗ 2 2 % % β1 − σ %1 · tn−2;1− α2 ; β1 + σ %1 · tn−2;1− α2 =

− 0, 060 − 0, 0141 · t∗6;0,95 ; − 0, 060 + 0, 0141 · t∗6;0,95

=

[− 0, 060 − 0, 0141 · 1, 9432 ; − 0, 060 + 0, 0141 · 1, 9432]

=

[−0, 09 ; −0, 03]

f¨ ur β1 . B

Kapitel 4 Philosophie des Testens

4

4

4

Philosophie des Testens

4.1 4.2

Unschuldig bis zum Beweis des Gegenteils“ ............... 171 ” Beispiele ........................................................... 173

4.3

Grundlagen des Testens ........................................ 174

4.4

Wie kommt man zu einem Test? ............................. 205

171

4.1

Unschuldig bis zum Beweis des Gegenteils“ ”

171

4 Philosophie des Testens 4.1 Unschuldig bis zum Beweis des Gegenteils“ ” Der Filialleiter eines Drogeriemarkts stellt fest, dass seit einiger Zeit im Vergleich zu den Mengen an Kunden, die sich im Schnitt t¨ aglich dort aufhalten, ¨ die Einnahmen relativ gering sind. Durch versch¨ arfte Uberwachung des Personals ger¨ at ein Kassierer unter Verdacht, an seiner Kasse Einnahmen zu unterschlagen. Er wird verhaftet und vor Gericht gestellt. Staatsanwaltschaft und Verteidigung sammeln Zeugenaussagen, Indizien und Hinweise (mit anderen Worten: Daten), die f¨ ur bzw. gegen die Schuld des Angeklagten sprechen. Bei der gerichtlichen Untersuchung geht die Staatsanwaltschaft von der Annahme aus, einen Schuldigen vor sich zu haben und versucht, ihm diese Schuld anhand der erhobenen Daten f¨ ur den Richter glaubhaft nachzuweisen. Auf der anderen Seite geht die Verteidigung davon aus, dass ihr Mandant unschuldig ist, und versucht ebenfalls mit Hilfe der Daten, dem Richter dies plausibel zu machen. Der Richter hat nun prinzipiell zwei M¨ oglichkeiten. Strategie 1: Er kann davon ausgehen, dass der Angeklagte schuldig ist (Schuldvermutung). Dann steht die Verteidigung unter Beweiszwang. Der Angeklagte kann nur freigesprochen werden, wenn gen¨ ugend viele Indizien gegen seine Schuld sprechen. Strategie 2: Er kann davon ausgehen, dass der Angeklagte unschuldig ist (Unschuldsvermutung). Dann steht die Staatsanwaltschaft unter Beweiszwang. Der Angeklagte kann nur dann schuldig gesprochen werden, wenn gen¨ ugend viele Indizien f¨ ur seine Schuld sprechen. Solange die Hinweise (Daten) nicht stark genug auf die Schuld des Angeklagten hindeuten, bleibt die Unschuldsvermutung bestehen ( im Zweifel f¨ ur den Angeklag” ten“), und der Angeklagte wird freigesprochen. Gehen wir nun einmal davon aus, dass der Angeklagte tats¨ achlich schuldig ist. Bei der ersten Strategie des Richters m¨ usste die Verteidigung dann sehr starke Argumente beibringen, die auf seine Unschuld hinweisen, um einen (in diesem Fall fehlerhaften) Freispruch zu erreichen. Es ist nicht sehr wahrscheinlich, dass dies gelingen kann. Die Wahrscheinlichkeit f¨ ur die korrekte Verurteilung eines Schuldigen ist damit sehr hoch. Bei der zweiten Strategie des Richters muss die Anklage die z¨ undenden Argumente haben, um eine Verurteilung zu erreichen. Die Wahrscheinlichkeit f¨ ur die Verurteilung eines Schuldigen wird immer noch hoch sein, wenn die vor-

4.1

172

4. Philosophie des Testens

liegenden Daten stark genug f¨ ur seine Schuld sprechen. Es wird aber h¨ aufiger als unter Strategie 1 vorkommen, dass ein Schuldiger freigesprochen wird. Gehen wir andererseits davon aus, dass der Angeklagte unschuldig ist. Bei Strategie 1 muss die Verteidigung dann wieder sehr starke Argumente f¨ ur seine Unschuld haben, damit er korrekterweise freigesprochen wird. Die Wahrscheinlichkeit f¨ ur die f¨ alschliche Verurteilung eines Unschuldigen ist damit sicher h¨ oher als unter Strategie 2. Bei der zweiten Strategie des Richters dagegen muss erneut die Anklage u ¨ berzeugende Hinweise f¨ ur die Schuld des Angeklagten beibringen, damit der Richter ihn (in diesem Fall f¨ alschlicherweise) verurteilt. Das d¨ urfte bei einem Unschuldigen zumindest schwieriger sein. Die Wahrscheinlichkeit f¨ ur die Verurteilung eines Unschuldigen wird deutlich geringer sein als unter Strategie 1. Insgesamt sichert man also mit Strategie 1, dass Schuldige häufiger verurteilt werden. Daf¨ ur bezahlt man den Preis, dass auch Unschuldige leichter f¨ alschlicherweise verurteilt werden. Mit Strategie 2 dagegen ist die Wahrscheinlichkeit der Verurteilung eines Unschuldigen geringer. Daf¨ ur nimmt man in Kauf, ¨ dass auch ein Schuldiger leichter freigesprochen wird. Nach diesen Uberlegungen ist Strategie 2 diejenige, die stärker dem Schutz von Unschuldigen dient. Sie wird daher in Rechtsstaaten verfolgt. Die beiden möglichen Vermutungen des Richters (Angeklagter ist schuldig bzw. Angeklagter ist unschuldig) kann man auch als Hypothesen bezeichnen, deren G¨ ultigkeit anhand der vorliegenden Daten beurteilt werden soll. Dabei handelt es sich um eine Entscheidung zwischen zwei einander ausschließenden Aussagen. Der Angeklagte kann in Bezug auf das ihm zur Last gelegte Verbrechen nur entweder schuldig oder unschuldig sein. ¨ Ahnlich wie hier dargestellt, kann man auch in statistischen Untersuchungen zwei einander widersprechende Forschungshypothesen gegeneinander stellen und eine Entscheidung auf Basis vorliegenden Datenmaterials herbeif¨ uhren. Wie im Beispiel der Gerichtsverhandlung muss man sich u ¨berlegen, welche Fehlentscheidungen passieren können und was die Konsequenzen sind. Statistische Hypothesentests dienen zur Entscheidung zwischen zwei solchen Forschungshypothesen. Dabei wird zur Entscheidung eine Entsprechung der Unschuldsvermutung als Prinzip benutzt.

4.2

Beispiele

173

4.2 Beispiele Beispiel Einf¨ uhrung eines neuen Handys

4.2

B

Ein neues Handy soll als Konkurrenz f¨ ur ein bereits angebotenes Gerät auf dem Markt eingef¨ uhrt werden. Damit sich die Einf¨ uhrung f¨ ur den Anbieter finanziell lohnt, muss die Verkaufswahrscheinlichkeit p f¨ ur das neue Ger¨ at h¨ oher sein als f¨ ur das alte. Aus den Produktions- und Verkaufszahlen f¨ ur das bereits angebotene Handy kennt man dessen Verkaufswahrscheinlichkeit p0 = 0, 6. Der Anbieter möchte also wissen, ob die Verkaufswahrscheinlichkeit f¨ ur das neue Ger¨ at gr¨ oßer ist als 0, 6. Allgemein formuliert, interessiert sich der Anbieter daf¨ ur, wie sich die unbekannte Verkaufswahrscheinlichkeit p des neuen Handys zur Verkaufswahrur diese Unterscheinlichkeit p0 = 0, 6 des alten Handys verhält. Die speziell f¨ suchung interessierenden Forschungshypothesen sind, dass das neue Handy sich entweder mit h¨ ochstens derselben Wahrscheinlichkeit verkaufen wird wie das schon auf dem Markt verf¨ ugbare, oder mit einer h¨ oheren Wahrscheinlichkeit. Es interessiert, ob p ≤ 0, 6 ist oder p > 0, 6. Im ersten Fall wird der Hersteller das neue Ger¨ at nicht bis zur Marktreife weiter entwickeln. Nur wenn er sicher genug sein kann, dass der zweite Fall gilt, lohnt sich f¨ ur ihn die Fortsetzung der Entwicklung. Im Sinne der oben diskutierten Unschuldsvermutung geht der Anbieter so lange davon aus, dass das neue Handy sich nicht besser verkaufen wird als das alte, bis er hinreichend starke Hinweise darauf findet, dass die Verkaufswahrscheinlichkeit f¨ ur das neue Ger¨ at besser B ist. Beispiel Wahlen

Bei Wahlen zum Bundestag oder Europawahlen interessiert besonders kleinere Parteien, ob sie die 5%-H¨ urde nehmen oder nicht. Die beiden hier relevanten Forschungshypothesen sind also, dass der Anteil p der von einer solchen Partei erzielten Stimmen größer oder gleich 5% ist, bzw. dass p kleiner ist als 5%. Auf Basis des bereits ausgezählten Teils der abgegebenen Stimmen wird u ¨ber die G¨ ultigkeit dieser Hypothesen am Wahltag mit jeder Hochrechnung von Neuem entschieden. Schafft die Partei die 5%-H¨ urde nicht, so hat dies f¨ ur sie ernste Konsequenzen: sie ist nicht im gewählten Gremium vertreten, und die Zahlung von Wahlkampfgeldern f¨ allt weg. Deshalb möchte sie sich lieber gegen ein Fehlurteil in dieser Richtung absichern. Im Sinne der Unschuldsvermutung sollte die Ausgangshypothese also in diesem Fall lauten, B dass p ≥ 5% ist.

B

174

B


Beispiel Fernsehverhalten von Vorschulkindern

Entwicklungspsychologen gehen davon aus, dass das Sozialverhalten von Kindern sich schlechter entwickelt, wenn diese bereits im Vorschulalter zu lange fernsehen. Sitzen Vorschulkinder im Schnitt maximal 75 Minuten t¨ aglich vor dem Fernseher, so gilt dies noch als unkritisch, sind es aber mehr als 75 Minuten, so f¨ uhrt dies zu St¨ orungen in der Entwicklung der Sozialkompetenz. Sollte sich herausstellen, dass deutsche Vorschulkinder t¨ aglich durchschnittlich zu viel fernsehen, so will die Familienministerin eine groß angelegte (und teure) Kampagne zur Aufkl¨ arung der Eltern starten. In einer empirischen Untersuchung soll u ¨berpr¨ uft werden, ob dies notwendig ist. Die hier interessierenden Forschungshypothesen sind also: Vorschulkinder sitzen im Schnitt täglich bis zu 75 Minuten vor dem Fernseher bzw. Vorschulkinder sitzen im Schnitt t¨ aglich mehr als 75 Minuten vor dem Fernseher. Die teure Kampagne wird nur gestartet, wenn es gen¨ ugend starke Hinweise darauf gibt, dass die zweite der genannten Hypothesen tatsächlich gilt. Ansonsten bleibt es bei der B Unschuldsvermutung“, dass die Kinder nicht zu viel fernsehen. ”

4.3

4.3 Grundlagen des Testens Viele statistische Analysen konzentrieren sich auf die Schätzung unbekannter Gr¨ oßen mit Hilfe von wissenschaftlichen Versuchen und Studien. Sei zum Beispiel das Ziel einer klinischen Studie die Sch¨ atzung des mittleren Blutzuckerspiegels von Patienten nach Behandlung mit einem ausgew¨ ahlten Medikament. Die Wahlbeteiligung einer gerade laufenden Wahl ist von Interesse, oder die Wachstumsrate von Karotten, ged¨ ungt mit einem Substrat aus verschiedenen N¨ ahrstoffen und Mineralien, soll in einem Agrarexperiment geschätzt werden. Die Ergebnisse solcher Studien und Versuche liegen also in Form von Sch¨ atzungen (Punktsch¨ atzungen oder Konfidenzintervalle) f¨ ur die gesuchte Größe vor. Das Ziel einer Studie kann aber auch eine Entscheidung zwischen zwei sich widersprechenden Aussagen bez¨ uglich der interessierenden Gr¨ oße sein. In der Statistik werden solche Aussagen als Hypothesen bezeichnet. Was genau ist unter einer Hypothese zu verstehen? Sei zum Beispiel in einem chemischen Experiment der Nachweis eines chemischen Stoffes mit Hilfe einer neuen Analysemethode von Interesse. Dann möchte man entscheiden, ob sich die Chemikalie mit dieser neuen Methode tats¨ achlich nachweisen l¨ asst oder ob das nicht der Fall ist. Ein anderes Beispiel ist die Zulassung eines neuen Medikaments. Dazu muss mit Hilfe einer klinischen Studie zun¨ achst nachgewiesen werden, ob das neue Medikament tats¨ achlich wirksam ist. Hier

4.3

Grundlagen des Testens

175

k¨ onnen die Hypothesen wie folgt aufgestellt werden: Einerseits die Hypothese das neue Medikament ist wirksam“, andererseits das neue Medikament ” ” ist nicht wirksam“. Ziel der klinischen Studie ist es nun, durch geeignete Datenerhebung herauszufinden, welche der beiden Hypothesen wahr ist. Die Wirksamkeit des Medikaments l¨ asst sich nat¨ urlich numerisch formulieren. In dem oben beschriebenen Beispiel könnte die Wirksamkeit definiert sein als die Senkung des Blutzuckerspiegels unter einen bestimmten Wert. Dieser Wert betrage bei Erwachsenen circa 110 mg/dl Blut. Die Hypothesen das ” neue Medikament ist wirksam“ und das neue Medikament ist nicht wirksam“ ” k¨ onnen damit a¨quivalent formuliert werden als das Medikament senkt den ” Blutzuckerspiegel im Mittel auf Werte kleiner oder gleich 110 mg/dl Blut“ bzw. das neue Medikament senkt den Blutzuckerspiegel höchstens auf Werte ” gr¨ oßer als 110 mg/dl Blut“. Eine charakterisierende Eigenschaft von statistischen Hypothesen ist, dass sie sich gegenseitig ausschließen. Dies ist im obigen Beispiel der Fall. Außerdem m¨ ussen die Hypothesen den Definitionsbereich des interessierenden Parameters, in unserem Beispiel ist dies der Blutzuckerspiegel, vollständig abdecken. Dies wird durch die obige dichotome Betrachtungsweise (≤ 110 mg/dl oder > 110 mg/dl) gesichert. Eine Entscheidung zwischen zwei sich gegenseitig ausschließenden Hypothesen auf Basis erhobener Daten heißt Test. Allgemein werden die möglichen Ausg¨ ange eines statistischen Experiments dichotom in Form von zwei Hypothesen aufgeteilt. Anschließend wird auf der Grundlage von Wahrscheinlichkeiten eine Entscheidung zwischen den beiden Hypothesen getroffen. Die Vorgehensweise wird in der Statistik unter der Methodik des Testens von Hypothesen zusammengefasst. Definition Statistische Hypothese

Eine statistische Hypothese ist eine zu u ¨berpr¨ ufende Behauptung oder Aussage (auch Glaube oder Feststellung) u ¨ber einen Parameter einer Verteilung oder eine Verteilung selbst.

176

B


Beispiel Hypothesen

Im Beispiel 174 wird vermutet, dass Vorschulkinder täglich durchschnittlich mehr als 75 Minuten vor dem Fernseher verbringen. Der interessierende Parameter ist hier die mittlere Zeit pro Tag, die Vorschulkinder fernsehen. Aufgestellt wird die Behauptung (Hypothese), dass die mittlere Zeit vor dem Fernseher mehr als 75 Minuten beträgt. Es wird geschätzt, dass die mittlere verbleibende Lebenszeit bei Patienten, diagnostiziert mit ALS (Amyotrophe Lateralsklerose), nach Diagnosestellung 2,5 Jahre betr¨ agt. Hier ist der interessierende Parameter die ¨ durchschnittliche Uberlebenszeit von Patienten, bei denen ALS diagnostiziert wurde. Eine Behauptung (Hypothese) k¨ onnte sein, dass die mittlere ¨ Uberlebenszeit nach der Diagnose weniger als 2,5 Jahre beträgt. Beobachtete Daten aus einer Studie stammen aus einer Normalverteilung B mit Parametern µ und σ 2 . Ein statistisches Testproblem 177 setzt sich aus einer Null- und einer Alternativhypothese zusammen.

Definition Nullhypothese

Die Nullhypothese ist diejenige Hypothese, welche auf ihren Wahrheitsgehalt hin u ¨berpr¨ uft werden soll. Sie beinhaltet den Zustand des Parameters der Grundgesamtheit, der bis zum jetzigen Zeitpunkt bekannt ist oder als akzeptiert gilt. Die Nullhypothese, bezeichnet mit H0 , wird als Ausgangspunkt einer statistischen Untersuchung gesehen, den es zu widerlegen gilt.

Definition Alternativhypothese

Die Alternativhypothese beinhaltet bez¨ uglich der interessierenden Größe die zur Nullhypothese entgegengesetzte Aussage. Sie ist die eigentliche Forschungshypothese und dr¨ uckt aus, was mittels der statistischen Untersuchung gezeigt werden soll. Die Alternativhypothese wird mit H1 bezeichnet.

Beide Hypothesen widersprechen sich bez¨ uglich der interessierenden Gr¨ oße, sie schließen sich also gegenseitig aus. Vereint u ¨ berdecken Null-und Alternativhypothese den gesamten Definitionsbereich des Parameters.

4.3

B


177

Beispiel (Fortsetzung 176) Null- und Alternativhypothesen

Im Beispiel 174 der Vorschulkinder lautete die interessierende Forschungshypothese wie folgt: Die durchschnittliche Zeit, die Vorschulkinder täglich vor dem Fernseher verbringen, betr¨ agt mehr als 75 Minuten. Hier interessiert die mittlere Fernsehdauer µ von Vorschulkindern pro Tag (in Minuten). Das heißt, es soll eine Aussage u ¨ ber den Parameter µ der Verteilung der Fernsehdauer getroffen werden. Bisher ging man davon aus, dass es tatsächlich doch weniger als 75 Minuten sind. Die Null- und Alternativhypothese lauten dann aglich Nullhypothese: H0 : µ ≤ 75, die mittlere Zeit, die Vorschulkinder t¨ vor dem Fernseher verbringen, betr¨ agt h¨ ochstens 75 Minuten. Alternativhypothese: H1 : µ > 75, die mittlere Zeit, die Vorschulkinder täglich vor dem Fernseher verbringen, betr¨ agt mehr als 75 Minuten. Beträgt die mittlere verbleibende Lebensdauer von Patienten, diagnostiziert mit ALS (Amyotrophe Lateralsklerose), weniger als 2,5 Jahre nach Stellung der Diagnose? Hier ist der interessierende Parameter, bezeichnet ¨ mit µ, die durchschnittliche Uberlebenszeit von Patienten, nachdem bei ihnen ALS diagnostiziert wurde. Die Null- und Alternativhypothese lauten dann wie folgt ¨ von PatiNullhypothese: H0 : µ ≥ 2, 5, die mittlere Uberlebenszeit enten, diagnostiziert mit ALS, betr¨ agt mindestens 2,5 Jahre. ¨ von Alternativhypothese: H1 : µ < 2, 5, die mittlere Uberlebenszeit B Patienten, diagnostiziert mit ALS, betr¨ agt weniger als 2,5 Jahre. Definition Statistisches Testproblem

Die Formulierung einer Null- und einer Alternativhypothese bez¨ uglich eines Parameters einer Verteilung oder einer Verteilung selbst wird als statistisches Testproblem bezeichnet.

Im Folgenden formulieren wir Testprobleme zun¨ achst bez¨ uglich eines interessierenden Parameters. Typische Testprobleme f¨ ur Verteilungen selbst werden beim χ2 -Anpassungstest 290 besprochen.

178


Regel Aufstellen eines Testproblems Beschreibe ϑ ∈ Θ den interessierenden Parameter einer Verteilung, dann kann ein statistisches Problem wie folgt definiert sein Problem (1): Problem (2): Problem (3):

H0 : ϑ = ϑ0 H0 : ϑ ≤ ϑ0 H0 : ϑ ≥ ϑ0

gegen gegen gegen

H1 : ϑ = ϑ0 H1 : ϑ > ϑ0 H1 : ϑ < ϑ0

(zweiseitig) (rechtsseitig) (linksseitig)

wobei ϑ0 ein beliebiger Wert aus dem zulässigen Definitionsbereich Θ ist. Welches dieser drei Testprobleme geeignet ist, hängt von der zu untersuchenden Fragestellung ab.

B

Beispiel Schokoladentafeln

Die Firma Schoko stellt Schokoladentafeln her. Auf der Verpackung wird ihr Gewicht mit 100 g angegeben. Durch zuf¨ allige Schwankungen im Produktionsprozess bedingt, wiegt nicht jede Tafel exakt 100 g. Ein Kunde möchte wissen, wie es um das Durchschnittsgewicht µ aller hergestellten Tafeln bestellt ist. Er kauft 15 dieser Tafeln und ermittelt das mittlere Gewicht. Die folgenden Testprobleme k¨ onnten von Interesse sein Problem (1): Problem (2): Problem (3):

H0 : µ = 100 g H0 : µ ≤ 100 g H0 : µ ≥ 100 g

gegen gegen gegen

H1 : µ = 100 g (zweiseitig) H1 : µ > 100 g (rechtsseitig) H1 : µ < 100 g (linksseitig)

Problem (1): =“ gegen =“ ” ” Der Kunde ist nur daran interessiert, ob die vom Hersteller angegebenen 100 g exakt eingehalten werden. Ob bei einer eventuellen Abweichung von 100 g die Schokoladentafeln im Schnitt mehr oder weniger als 100 g wiegen, ist nicht von Interesse. Problem (2): ≤“ gegen >“ ” ” Dieses Testproblem ist sinnvoll, wenn der Verdacht besteht, dass die Tafeln im Mittel mehr als 100 g wiegen. In diesem Fall w¨ urde der Kunde mehr Schokolade f¨ ur sein Geld erhalten. Problem (3): ≥“ gegen µ0 .

B

Beispiel Erk¨ altungsdauer

B

Eine herk¨ ommliche Erkältung dauert im Durchschnitt unter einer Standardbehandlung 6,5 Tage. Kann durch die zus¨ atzliche Einnahme eines Zinkpräparates die durchschnittliche Erkältungsdauer verringert werden? In Worten formuliert bedeutet dies zun¨ achst f¨ ur das Aufstellen der Null- und Alternativhypothese: H0 : Die durchschnittliche Erk¨ altungsdauer betr¨ agt mindestens 6,5 Tage. altungsdauer betr¨ agt weniger als 6,5 Tage. H1 : Die durchschnittliche Erk¨ Formal schreibt man Null- und Alternativhypothese wie folgt: Sei der Parameter µ definiert als die durchschnittliche Erkrankungsdauer in Tagen unter Einnahme des Zinkpr¨ aparates. Dann l¨ asst sich das Testproblem schreiben als: H0 : µ ≥ 6, 5

gegen

H1 : µ < 6, 5.

B

180


Unterscheidung in zweiseitige und einseitige Testprobleme Testprobleme werden unterschieden in einseitige und zweiseitige Testprobleme. Diese Einteilung erfolgt in Abh¨ angigkeit von H1 , der Alternativhypothese. Testet man die Hypothese H0 : ϑ = ϑ0 gegen die Alternative H1 : ϑ = ϑ0 , so deckt die Alternativhypothese den Parameterbereich links und rechts der Nullhypothese ab. In diesem Fall spricht man von einem zweiseitigen Testproblem. Als einseitige Probleme werden dagegen Testprobleme bezeichnet, bei denen sich die Alternativhypothese nur in eine Richtung von dem unter der Nullhypothese angenommenen Wert des Parameters bewegt. Das Testproblem H0 : ϑ ≤ ϑ0 gegen H1 : ϑ > ϑ0 bezeichnet ein rechtsseitiges Problem, während H0 : ϑ ≥ ϑ0 gegen H1 : ϑ < ϑ0 ein linksseitiges Testproblem bezeichnet.

Unterscheidung in einfache und zusammengesetzte Hypothesen W¨ ahlt man mit Nullhypothese oder Alternative nur einen Wert aus dem Parameterraum aus, dann nennt man eine solche Hypothese einfach. So ist zum Beispiel H0 : ϑ = ϑ0 eine einfache Nullhypothese. Wird dagegen eine Menge von Werten f¨ ur den Parameter zugelassen, spricht man von einer zusammengesetzten Hypothese. Im Testproblem H0 : ϑ ≤ ϑ0 gegen H1 : ϑ > ϑ0 sind sowohl Nullhypothese als auch Alternative zusammengesetzt.

Definition Teststatistik

Mit Hilfe eines statistischen Tests soll eine Entscheidung zwischen der Null- und der Alternativhypothese getroffen werden. Basierend auf einer geeignet gewählten Pr¨ ufgr¨ oße liefert der statistische Test eine formale Entscheidungsregel. Die Pr¨ ufgr¨ oße ist dabei eine Funktion, die auf die Beobachtungen aus der Zufallsstichprobe (Daten) angewendet wird. Abhängig von dem aus den Daten errechneten Wert der Pr¨ ufgr¨ oße wird die Nullhypothese entweder beibehalten oder aber verworfen. Die Pr¨ ufgr¨ oße in einem statistischen Testproblem wird in der Regel als Teststatistik bezeichnet. Die Teststatistik, definiert als eine Funktion der die Daten erzeugenden Stichprobenvariablen, ist eine Zufallsvariable. Außer in einigen Spezialf¨ allen, auf die gesondert hingewiesen wird, wird die Teststatistik im Folgenden unabhängig von der Art des Tests stets mit Z bezeichnet. Der an den beobachteten Daten konkret berechnete Wert wird mit zbeo bezeichnet, da es sich im Sinne einer Zufallsvariablen nun um eine Realisierung handelt.

4.3


181

Fehler 1. und 2. Art beim Testen von Hypothesen

Das Treffen einer falschen Entscheidung beim Testen von Hypothesen l¨ asst sich nicht ausschließen. Unabh¨ angig davon, welcher statistische Test angewendet wird, k¨ onnen falsche Testentscheidungen nicht grunds¨ atzlich vermieden werden. Eine Begr¨ undung daf¨ ur ist, dass jede getroffene Testentscheidung nur auf einer begrenzten Anzahl von Daten aus der Grundgesamtheit beruht, also auf einer Zufallsstichprobe. Dadurch ist jede solche Entscheidung stets mit einer gewissen Unsicherheit behaftet. Die Zufallsauswahl, nach der die Stichprobe gezogen wurde, sollte so konstruiert sein, dass bei mehrfacher Wiederholung die entstehenden Stichproben im Mittel“ die Grundgesamt” heit abbilden (Repr¨ asentativität). Dennoch kann die einzelne Stichprobe im ung¨ unstigsten Fall ein verzerrtes Abbild der Grundgesamtheit liefern. Ein statistischer Test kann zu den folgenden zwei Entscheidungen f¨ uhren die Nullhypothese H0 wird verworfen, man entscheidet f¨ ur H1 , die Nullhypothese H0 wird beibehalten. Je nachdem, welche der beiden Hypothesen tatsächlich gilt, ergeben sich hier zwei richtige und zwei falsche Entscheidungen. Diese vier Möglichkeiten lassen sich wie folgt erkl¨ aren: Ein statistisches Testproblem setzt sich aus einer Null- und einer Alternativhypothese zusammen, wobei die Nullhypothese auf ihren Wahrheitsgehalt hin u ¨berpr¨ uft werden soll. Welche der beiden Hypothesen tatsächlich wahr ist, ist unbekannt. Die Testentscheidung, die basierend auf den Daten getroffen wird, bezieht sich immer auf die Nullhypothese. Die Nullhypothese wird beibehalten (sie kann nicht verworfen werden), wenn in den Daten nicht gen¨ ugend Hinweise“ ent” halten sind, die f¨ ur die Alternativhypothese sprechen. Andernfalls wird die Nullhypothese verworfen, was man als eine Entscheidung f¨ ur die Alternativhypothese auffassen kann. Unter der Annahme, dass die Nullhypothese wahr ist, trifft man eine richtige Entscheidung, wenn die Nullhypothese nicht verworfen wird, und eine falsche Entscheidung, wenn die Nullhypothese verworfen wird. Unter der Annahme, dass die Nullhypothese falsch ist, trifft man eine richtige Entscheidung, wenn die Nullhypothese verworfen wird, und eine falsche Entscheidung, wenn die Nullhypothese nicht verworfen, also beibehalten wird.

182


Eine falsche Entscheidung liegt also vor, wenn die Nullhypothese H0 verworfen wird, obwohl sie wahr ist, man spricht vom Fehler 1. Art oder die Nullhypothese beibehalten wird, obwohl sie falsch ist, man spricht vom Fehler 2. Art. Eine richtige Entscheidung liegt demnach vor, wenn die Nullhypothese H0 verworfen wird und sie tats¨ achlich falsch ist oder die Nullhypothese beibehalten wird, wenn sie tatsächlich wahr ist. Die folgende Tabelle fasst noch einmal die vier Entscheidungen eines statistischen Tests zusammen

Entscheidung lehne H0 nicht ab lehne H0 ab

Nullhypothese (H0 ) H0 wahr H0 falsch richtig Fehler 2. Art Fehler 1. Art richtig

Ob der Test nun zu einer richtigen oder einer falschen Entscheidung gef¨ uhrt hat, l¨ asst sich nicht feststellen, jedoch können Wahrscheinlichkeiten f¨ ur das Treffen einer Fehlentscheidung berechnet werden.

Definition Fehler 1. Art

Der Fehler 1. Art wird begangen, wenn die Nullhypothese abgelehnt wird, obwohl sie wahr ist. Formal lässt sich die Wahrscheinlichkeit f¨ ur den Fehler 1. Art als bedingte Wahrscheinlichkeit schreiben

P(Fehler 1. Art) = P(H0 ablehnen | H0 ist wahr) = α. B

Beispiel Sport

Eine Umfrage unter 30 Studierenden einer Universit¨ at im vergangenen Jahr ergab, dass 50% der Befragten regelmäßig mindestens zweimal wöchentlich f¨ ur 30 Minuten Sport treiben. Durch den anhaltenden Fitness- und WellnessTrend wird vermutet, dass der Anteil p der Sporttreibenden gr¨ oßer als 50% ist. Getestet werden soll also die Nullhypothese H0 : p = 0, 5

gegen

H1 : p > 0, 5.

4.3


183

Als Teststatistik wird hier Z, die Anzahl der Sporttreibenden unter den Befragten, verwendet. Wir werden sp¨ ater sehen, dass der Binomialtest 278 der angemessene Test zur Entscheidung dieses Problems ist. Die aus ihm abgeleitete Entscheidungsregel besagt, dass H0 zum Niveau α = 0, 05 abzulehnen ist, falls die Anzahl der Sporttreibenden unter allen 30 Befragten gr¨ oßer 19 ist (Z > 19). Daraus l¨ asst sich nun die Wahrscheinlichkeit f¨ ur den Fehler 1. Art berechnen als P(Fehler 1. Art)

=

P(lehne H0 ab |H0 ist wahr)

=

P (Z > 19 | p = 0, 5)

=

0, 0494 ≈ 0, 05.

Die genaue Herleitung, wie man diese Wahrscheinlichkeit berechnet, zeigen B wir im Beispiel 281 zum Binomialtest.

Definition Fehler 2. Art

Der Fehler 2. Art wird begangen, wenn die Nullhypothese H0 nicht verworfen wird, obwohl H0 falsch ist. Die Wahrscheinlichkeit, die mit diesem Fehler assoziiert ist, wird mit β bezeichnet. Der Fehler 2. Art kann als bedingte Wahrscheinlichkeit geschrieben werden

β = P(Fehler 2. Art)

=

P(H0 nicht ablehnen | H1 ist wahr).

Der exakte Wert dieser Fehlerwahrscheinlichkeit hängt vom wahren Wert des Parameters unter der Alternativhypothese ab. F¨ ur jeden Wert, den der Parameter unter der Alternativhypothese annehmen kann, fällt der Fehler 2. Art anders aus.

Angenommen, es soll die Nullhypothese H0 : p = 0, 25

gegen

H1 : p > 0, 25

getestet werden, wobei p die Erfolgswahrscheinlichkeit einer binomialverteilten Zufallsvariable X sei mit p ∈ [0; 1]. Dann kann die Wahrscheinlichkeit f¨ ur den Fehler 2. Art f¨ ur jeden Wert von p aus dem Intervall (0, 25; 1] berechnet werden. Die Wahrscheinlichkeit f¨ ur den Fehler 2. Art kann somit als eine Funktion des Parameters aufgefasst werden, definiert auf dessen Wertebereich unter der Alternativhypothese.

184

Beispiel (Fortsetzung 182) Sport

F¨ ur das Beispiel Sport soll die Wahrscheinlichkeit β f¨ ur den Fehler 2. Art berechnet werden unter der Annahme, dass der wahre Wert f¨ ur p gerade p = 0, 55 betr¨ agt. Aus der Definition und mit der Herleitung, die wir im Binomialtest 280 noch zeigen, ergibt sich P(Fehler 2. Art | p = 0, 55)

= P(lehne H0 nicht ab | p = 0, 55) =

P(Z ≤ 19 | p = 0, 55)

≈

0, 865.

Der Wert von 0,865 sagt aus, dass die erhöhte Sportrate unter den Befragten mit einer Wahrscheinlichkeit von circa 86,5% unentdeckt bleiben wird. F¨ alschlicherweise wird also bei wiederholter Durchf¨ uhrung der Befragung mit alle nicht verworfen jeweils neuen Stichproben H0 : p = 0, 5 in 86,5% der F¨ werden. Dass diese Wahrscheinlichkeit f¨ ur den Fehler 2. Art so groß ist, ist auf die Tatsache zur¨ uckzuf¨ uhren, dass die Parameterwerte unter der Nullund unter der Alternativhypothese (p = 0, 5 gegen p = 0, 55) sehr nahe beieinander liegen. Die Stichprobenverteilungen von Z unter der Null- und Alternativhypothese liegen dadurch ebenfalls sehr nahe beieinander und u ¨berlappen sich sogar auf einem großen Bereich des Definitionsbereiches f¨ ur den Parameter p, wie in folgender Grafik verdeutlicht ist. In der Grafik ist die Wahrscheinlichkeit f¨ ur den Fehler 2. Art eingezeichnet.

0.10 0.05

P(Z=z)

0.15

0.20

Dichtefunktion von Z unter H0

0.0

P(Z > 19 | p = 0,5) » 0,05 0

5

10

15

20

25

30


0.10

P(Z = 19 | p = 0,55) » 0,865

0.05

P(Z=z)

0.15

0.20

Nullhypothese verwerfen

0.0

B


0

5

10

15

Nullhypothese nicht verwerfen

20

25

30

4.3


185

Die Wahrscheinlichkeit f¨ ur den Fehler 2. Art h¨ angt also direkt vom Parameterwert p unter der Alternativhypothese ab. Nehmen wir f¨ ur p einen Wert von p = 0, 80 an, so ist die Wahrscheinlichkeit f¨ ur den Fehler 2. Art wesentlich kleiner und betr¨ agt nur noch circa 2,6%.

0.10 0.05

P(Z=z)

0.15

0.20


0.0

P(Z > 19 | p = 0,5) » 0,05 0

5

10

15

20

25

30


0.10 0.05

P(Z=z)

0.15

0.20

Nullhypothese verwerfen

0.0

P(Z = 19 | p = 0,8) » 0,026 0

5

10

15

20

25

30

Nullhypothese nicht verwerfen

B Im Gegensatz zum Fehler 1. Art kann die Wahrscheinlichkeit f¨ ur den Fehler 2. Art nicht ohne weiteres vor der Durchf¨ uhrung des Tests begrenzt werden. Dies ist darin begr¨ undet, dass die Wahrscheinlichkeit β vom Wert des Parameters unter der Alternativhypothese H1 abh¨ angt und ein ganzer Bereich von Werten f¨ ur β möglich ist. Daher kann eine explizite Berechnung der Wahrscheinlichkeit f¨ ur den Fehler 2. Art nur in Abh¨ angigkeit eines vorher festgelegten Werts f¨ ur den interessierenden Parameter unter der Alternativhypothese H1 erfolgen. Zusammenfassend halten wir fest, welche Interpretationen von Testergebnissen angesichts der hier diskutierten Aspekte rund um die Fehlerwahrscheinlichkeiten sich ergeben.

186


Interpretation von Testergebnissen Beim Testen wird nur die Wahrscheinlichkeit f¨ ur den Fehler 1. Art durch α kontrolliert, das heißt P(H0 ablehnen | H0 ist wahr). Wenn achlich gilt, wird man sich nur in α · 100% der F¨ alle f¨ ur also H0 tats¨ H1 entscheiden. Die Entscheidung f¨ ur H1 ist in diesem Sinn statistisch abgesichert. ur H1 spricht man von einem Bei Entscheidung gegen H0 und damit f¨ signifikanten Ergebnis. Die Wahrscheinlichkeit f¨ ur den Fehler 2. Art wird dagegen nicht kontrolliert. Die Entscheidung, H0 beizubehalten, ist statistisch nicht abgesichert. Kann man H0 nicht verwerfen, so bedeutet das daher nicht, dass man sich aktiv“ f¨ ur H0 entscheidet (es spricht nur nichts gegen ” H0 ).

Sowohl Fehler 1. Art als auch Fehler 2. Art sind im Allgemeinen nicht zu verhindern. Ein guter Test sollte aber die Wahrscheinlichkeit f¨ ur das Auftreten solcher Fehlentscheidungen möglichst klein halten. Am besten w¨ are ein Test, der die Wahrscheinlichkeiten f¨ ur das Auftreten beider Fehlerarten gleichzeitig klein h¨ alt. Dies funktioniert leider in der Regel nicht. Oft ist die Wahrscheinlichkeit f¨ ur den Fehler 2. Art um so gr¨ oßer, je kleiner die Wahrscheinlichkeit f¨ ur den Fehler 1. Art ist, und umgekehrt. Daher entscheidet man sich bei der Konstruktion von Tests f¨ ur ein unsymmetrisches Vorgehen, das der Vorgehensweise beim Nachweis der Schuld eines Angeklagten entspricht: Formuliere das Testproblem so, dass die interessierende Aussage (Schuld des Angeklagten) in der Alternative steht. Gib vor, wie groß die Wahrscheinlichkeit f¨ ur den Fehler 1. Art (Unschuldiger wird zu Unrecht verurteilt) h¨ ochstens sein darf. Bestimme alle f¨ ur das Testproblem m¨ oglichen Tests, die die Anforderung an den Fehler 1. Art erf¨ ullen. Suche unter diesen Tests denjenigen mit der kleinsten Wahrscheinlichkeit f¨ ur den Fehler 2. Art (Schuldiger wird freigesprochen). Da man auf diese Weise nur die Wahrscheinlichkeit f¨ ur die Fehlentscheidung in einer Richtung (H0 verwerfen, obwohl H0 gilt) mit einer Schranke nach oben absichert, ergibt sich die Notwendigkeit, die wichtigere Aussage (die statistisch abgesichert werden soll) als Alternative zu formulieren.

4.3


187

Die Schranke, mit der man die Wahrscheinlichkeit f¨ ur den Fehler 1. Art nach oben absichert, heißt das Signifikanzniveau des Tests.

Definition Signifikanzniveau

Eine Obergrenze f¨ ur die Wahrscheinlichkeit f¨ ur den Fehler 1. Art wird vor der Durchf¨ uhrung des Tests festgelegt. Diese bezeichnet man als das Signifikanzniveau α des Tests. Dabei hängt die Wahl dieses Werts maßgeblich von der zugrunde liegenden Problemstellung und den Konsequenzen ab, die aus einer falschen Entscheidung vom Typ Fehler 1. Art resultieren können. Gebräuchliche Werte f¨ ur den maximalen Wert des Fehlers 1. Art sind α = 0, 05, α = 0, 1 oder α = 0, 01.

Es k¨ onnen aber auch beliebige andere Werte gewählt werden. Die Fehlerwahrscheinlichkeit kann auch interpretiert werden als Risiko einer falschen Entscheidung, das man bereit ist einzugehen. Das folgende Beispiel verdeutlicht dies. Beispiel Forstbetrieb

B

Ein Forstbetrieb pr¨ uft das Wachstum seines Baumbestandes, indem der jährliche Zuwachs des Stammumfangs als ein Indikator f¨ ur die Gesundheit des Bestandes gemessen wird. Entspricht der Zuwachs des Stammumfangs nicht der Norm, so können abh¨ angig von der Ursache beispielsweise D¨ ungemittel oder schädlingsbek¨ ampfende Stoffe eingesetzt werden. Bezeichne µ den mittleren Zuwachs des Stammumfangs des Baumbestandes und µ0 die Norm. Dann k¨ onnen die Null- und Alternativhypothese wie folgt formuliert werden H0 : µ ≥ µ0

gegen

H1 : µ < µ0 .

Ein Fehler 1. Art wird genau dann begangen, wenn die Nullhypothese abgelehnt wird, obwohl sie wahr ist. In unserem Beispiel entspricht dies dem Fall, dass der Forstbetrieb basierend auf den Daten der Stichprobe zu dem Ergebnis kommt, dass der mittlere Zuwachs des Stammumfangs zu gering ist (H1 : µ < µ0 ), obwohl dies in Wahrheit nicht der Fall ist. Die Konsequenz einer solchen Fehlentscheidung ist, dass der Forstbetrieb nun eigentlich nicht ben¨ otigte D¨ ungemittel einsetzen wird, was zu einer Erh¨ ohung der Kosten und Sch¨ adigung der Umwelt f¨ uhrt. Das Signifikanzniveau sollte daher umso kleiner gewählt werden, je schwerwiegender die möglichen Konsequenzen des B Fehlers 1. Art sind.

188

B


Beispiel Konsequenzen eines Fehlers 1. Art

Zur Vermeidung von Unf¨ allen im Flugverkehr sind Passagierflugzeuge kommerzieller Fluglinien in der Regel mit Kollisionswarnger¨ aten ausgestattet. Ein Unternehmen hat ein neues Kollisionswarnsystem entwickelt, das auf einer innovativen Technologie beruht. Man verspricht sich davon noch zuverl¨ assiger arbeitende Ger¨ ate, als sie bisher im Einsatz sind. Bevor die neue Technologie im realen Flugverkehr eingesetzt werden darf, muss sie ihre Zuverlässigkeit im Simulator unter Beweis stellen. Dabei interessiert vordringlich, ob das neue Ger¨ at in kritischen Situationen tats¨ achlich h¨ aufiger ein Warnsignal abgibt als das bisher in den Flugzeugen arbeitende Gerät. Nur in diesem Fall wird man n¨ amlich die neue Technologie u ¨bernehmen wollen. Bezeichne p den Anteil der korrekten Warnungen in kritischen Situationen, die durch die neue Technologie abgegeben werden, und p0 den bekannten Anteil korrekter Warnungen der derzeit eingesetzten Technologie. Zu testen ist damit H0 : p ≤ p0 gegen H1 : p > p0 . Das Testproblem wird so angesetzt, weil die Entscheidung, H0 zu verwerfen, die wichtigere Entscheidung ist. Entscheidet man, dass die neue Technologie besser warnt als die alte, tatsächlich ist das neue Ger¨ at aber h¨ ochstens so gut wie das bisherige, eventuell sogar schlechter, so schadet man der Sicherheit. Mit dem Fehler 1. Art schadet man also unter Umständen den Flugg¨ asten aktiv, indem man sie einer schlechteren Technologie aussetzt als dem bisherigen Standard. Das muss unbedingt vermieden werden. Auf der anderen Seite bedeutet hier der Fehler 2. Art, dass man schlimmstenfalls der Flugsicherheit ein besseres System vorenthält, weil dessen Zuverl¨ assigkeit sich nicht deutlich genug gezeigt hat. Auch das schadet, aber man stellt die Passagiere zumindest nicht schlechter als vorher. In dieser Situation ist es angebracht, mit einem kleinen Signifikanzniveau α zu arbeiten, da die Konsequenzen eines Fehlers 1. Art lebensbedrohlich sein B k¨ onnen. Wahl des Signifikanzniveaus Grunds¨ atzlich gilt f¨ ur jeden statistischen Test, der durchgef¨ uhrt wird, dass das Signifikanzniveau vor der Durchf¨ uhrung der Tests zu w¨ ahlen ist.

Verwendet man zur Durchf¨ uhrung eines statistischen Tests eine Statistiksoftware, so wird zur Herbeif¨ uhrung der Testentscheidung h¨ aufig nicht nur der

4.3


189

berechnete Wert der Teststatistik angegeben, sondern zusätzlich noch der so genannte p-Wert.

Definition p-Wert

Der p-Wert ist definiert als die Wahrscheinlichkeit, dass die Teststatistik den an den Daten realisierten Wert oder einen im Sinne der Alternativhypothese noch extremeren Wert annimmt. Dabei berechnet man diese Wahrscheinlichkeit unter der Annahme, dass die Nullhypothese wahr ist.

Im Falle eines rechtsseitigen Tests entspricht der p-Wert gerade der markierten Fl¨ ache:

Der p-Wert kann, ebenso wie der Wert der Teststatistik, als Entscheidungskriterium f¨ ur das Verwerfen der Nullhypothese herangezogen werden. Je kleiner der p-Wert ist, desto st¨ arker sprechen die Daten gegen die Nullhypothese und damit implizit f¨ ur die Alternativhypothese. Eine Realisierung, wie sie die Teststatistik geliefert hat, ist unter dieser Nullhypothese um so unwahrscheinlicher, je kleiner der p-Wert ist. Die Entscheidungsregel zum Verwerfen der Nullhypothese H0 lautet daher, dass die Nullhypothese zum Signifikanzniveau α verworfen wird, wenn der p-Wert kleiner als α ist, andernfalls wird auchliche Grenzen sind H0 beibehalten. Gebr¨ p-Wert > 0, 1 : 0, 05 < p-Wert ≤ 0, 1 : 0, 01 < p-Wert ≤ 0, 05 : 0, 001 < p-Wert ≤ 0, 01 :

schwache Beweislast gegen H0 mäßige Beweislast gegen H0 moderate Beweislast gegen H0 starke Beweislast gegen H0

190


p-Wert ≤ 0, 001 :

sehr starke Beweislast gegen H0 .

Eigenschaften des p-Werts Der p-Wert ist eine Wahrscheinlichkeit und nimmt daher immer Werte zwischen 0 und 1 an. Die Berechnung des p-Werts hängt von der Art des statistischen Testproblems ab (links-, rechts- oder zweiseitiges Testproblem), insbesondere von der Wahl der Alternativhypothese H1 e. Konkrete Beispiele sind bei den einzelnen Testverfahren zum Beispiel beim Gauß-Test 222 oder beim t-Test 242 zu finden.

Definition Kritischer Bereich und kritischer Wert

Der Wertebereich der Teststatistik, der zur Ablehnung der Nullhypothese f¨ uhrt, heißt kritischer Bereich oder Ablehnbereich und wird im Folgenden mit K bezeichnet. Kritische Bereiche sind typischerweise als Intervalle in Form von K = (−∞; k ∗ ), K = (k ∗ ; ∞), K = (−∞; −k ∗ ) ∪ (k ∗ ; ∞) gegeben. Der Wert k ∗ , der als Grenze in diesen Intervallen auftritt, wird als kritischer Wert bezeichnet.

Hier ist implizit formuliert, dass der kritische Bereich entweder ein halboffenes Intervall (k ∗ ; ∞) oder das Komplement eines symmetrischen Intervalls atzlich der Fall sein. Wir wollen uns aber [−k ∗ ; k ∗ ] ist. Dies muss nicht grunds¨ im Folgenden aus Gr¨ unden der Einfachheit auf diese F¨ alle beschränken. Der kritische Bereich hängt von der Wahl des Signifikanzniveaus α des Tests ab. Die Abh¨ angigkeit von α wollen wir durch den Index α in kα∗ kennzeichnen. Betrachten wir beispielsweise ein zweiseitiges Testproblem, das zum Signifikanzniveau α = 0, 05 zu l¨ osen ist. Der kritische Bereich ist dann so zu wählen, dass die Fläche, die die Dichtekurve der Teststatistik mit diesem kritischen Bereich einschließt, gerade den Flächeninhalt 0,05 hat. Gleichzeitig sollen die Funktionswerte der Dichte u ¨ ber dem kritischen Wert m¨ oglichst klein sein. Man bestimmt den Bereich anhand der Dichte, die zur Verteilung der Teststatistik unter G¨ ultigkeit der Nullhypothese geh¨ ort. Im Fall eines zweiseitigen Tests wird der kritische Bereich aufgeteilt in die Enden“ der Verteilung der ” Teststatistik, wie in der Grafik zu erkennen ist.

4.3


191

Definition Akzeptanzbereich

uhrt zur Beibehaltung der Nullhypothese und Der zu K komplementäre Bereich f¨ heißt Akzeptanzbereich.

Definition Testentscheidung

Eine Testentscheidung f¨ ur ein Testproblem kann basierend auf zwei Entscheidungskriterien, so genannten Entscheidungsregeln, herbeigef¨ uhrt werden. Diese basieren ∗ auf dem kritischen Wert kα oder

auf dem p-Wert. Die Testentscheidung erfolgt dabei grundsätzlich bez¨ uglich der Nullhypothese. Die ugend viel gegen sie Nullhypothese H0 wird zum Niveau α verworfen, wenn gen¨ spricht. Andernfalls kann H0 nicht verworfen werden und wird beibehalten. Man

192


beachte dabei grundsätzlich die Abhängigkeit vom zuvor gewählten Signifikanzniveau α. Beide Entscheidungsregeln sind äquivalent zueinander.

Explizit gelten folgende formale Entscheidungsregeln: Testentscheidung basierend auf dem kritischen Wert Bezeichne kα∗ den kritischen Wert zum Signifikanzniveau α. Mit Z sei eine Teststatistik bezeichnet, welche einer um Null symmetrischen Verteilung folgt. Die Nullhypothese H0 wird zum Signifikanzniveau α verworfen, wenn f¨ ur die Teststatistik Z gilt Problem (1): |Z|

∗ > k1−α/2

Problem (2):

Z

>

Problem (3):

Z

0, 5

0.0

0.2

0.4

1-ß

0.6

0.8

1.0

aus dem Beispiel Sport 182:

05

06

07

08

09

10

p

B Eigenschaften der G¨ utefunktion F¨ ur jeden festen Parameterwert aus dem Bereich der Alternativhypothese steigt die G¨ ute eines Tests mit wachsendem Stichprobenumfang n, dies f¨ uhrt zu einem steileren Anstieg der G¨ utefunktion unter der Alternativhypothese H1 . Vergr¨ oßert sich die Wahrscheinlichkeit α f¨ ur den Fehler 1. Art, so f¨ uhrt dies zu einer gr¨ oßeren G¨ ute des Tests.

196


F¨ ur Parameterwerte unter der Nullhypothese H0 nimmt die G¨ utefunktion Werte kleiner oder gleich α an. Die G¨ utefunktion ist monoton steigend, das heißt, je weiter entfernt oßer ist die ein Parameterwert aus H1 von dem aus H0 liegt, desto gr¨ G¨ ute des Tests an dieser Stelle.

Die Bedeutung der G¨ utefunktion wird in den folgenden zwei Aspekten deutlich 1. Die G¨ utefunktion gibt f¨ ur jeden Parameterwert aus der Alternativhypothese die Wahrscheinlichkeit an, dass die Nullhypothese abgelehnt wird, wenn diese tatsächlich falsch ist. Je höher diese Wahrscheinlichkeit ist, desto höher ist die G¨ ute des Tests. Dies ist in der Praxis insbesondere von Bedeutung, da wir einen Test finden m¨ ochten, dem es gelingt, die Nullhypothese m¨ oglichst zuverl¨ assig abzulehnen, wenn sie falsch ist. 2. Es ist ebenfalls von Bedeutung, wie schnell die G¨ ute des Tests ansteigt, je weiter sich der wahre Parameterwert von der Nullhypothese entfernt, also wie steil die Steigung der G¨ utefunktion ist: Stehen n¨ amlich mehrere Testprozeduren f¨ ur ein Testproblem zur Auswahl, so sollte der Test gewählt werden, welcher die besten G¨ uteeigenschaften besitzt. Das ist der Test, dessen G¨ utefunktion den steilsten“ Anstieg besitzt, da dieser eine ” falsche Nullhypothese mit größerer Wahrscheinlichkeit ablehnen wird.

4.3


197

Beziehung zwischen α, β und n Die beiden Fehlergr¨ oßen α und β h¨ angen unmittelbar voneinander ab. Die Verkleinerung einer der beiden Gr¨ oßen bedeutet automatisch eine Vergr¨ oßerung der anderen. Eine parallele Minimierung beider Wahrscheinlichkeiten ist damit nicht m¨ oglich. Dieser Problematik kann jedoch teilweise entgegengewirkt werden, indem der Stichprobenumfang vergr¨ oßert wird, da dieser sowohl auf α als auch auf β einen direkten Einfluss aus¨ ubt. Die Wahrscheinlichkeit α f¨ ur den Fehler 1. Art kann bei gleichzeitiger Verringerung der Fehlerwahrscheinlichkeit 2. Art konstant gehalten werden, wenn der Stichprobenumfang n entsprechend erhöht wird. Bei einer Verkleinerung von α muss entweder β oder n vergr¨ oßert werden. Bei einer Verkleinerung von β muss entsprechend α oder n vergr¨ oßert werden. Wird ein kleinerer Stichprobenumfang n ben¨ otigt, so muss entweder α oder β vergr¨ oßert werden. Die folgende Grafik illustriert das Verhalten des Fehlers 2. Art bei steigendem Stichprobenumfang n. Man sieht, dass f¨ ur eine konstante Wahrscheinlichkeit α des Fehlers 1. Art die Wahrscheinlichkeit f¨ ur den Fehler 2. Art mit wachsendem n kleiner wird.

T ststat st k

unter H0

unter H1

2

4

2

0

4

6

0

2

4

0.4

6

6

8

D chte der Teststat stik

unter H0

u ter H1

2

0

2

4

6

8

k*( 0 95 )

Dichte der

Teststat st k

Tests atistik

unter H0

unter H1

0.4

n= 90

D ch e d r

D ch e d r

D chte der

Teststat st k

Te tstatistik

unter H0

unter H1

0.0

0.1

0.4 0.3 0.2

6

Teststati tik

4

0.0

0.0

4

k*( 0 95 )

4

0.0 2

0.1

u ter H1

0.1

Teststat st k

2

0.3

unter H1

0.2

Tes sta ist k

unter H0

n= 80

unter H0

2

Dichte der

k*( 0 95 )

Teststat st k

0

0

n= 60

Teststati tik

4

D ch e der

2

2

k*( 0 95 )

0.0 2

D ch e d r

4

4

0.1

0.4 0.3

unter H1

0.2

Teststatistik

unter H0

0.0 0.4

6

Dichte der

n= 70

0.3

4

Dichte der

k*( 0 95 )

0.2

2

0.1

Teststati tik

0

unter H1

n= 50 Dichte der

0.1

0.2

0.3

0.4

n= 40

2

Teststatistik

un er H0

k*( 0 95 )

Dichte der

4

Dichte der

Teststat stik

0.1 4

k*( 0 95 )

0.3

0

0.2

2

D chte der

0.0

0.1 0.0

0.1 0.0 4

0.4

Tests ati tik

0.3

D chte der

0.2

un er H1

0.3

Teststatistik

unter H0

n= 30

Dichte de

0.2

Tes sta ist k

0.4

n= 20

Dichte der

0.2

0.3

0.4

n= 10 Dichte de

4

2

0

2

4

k*( 0 95 )

6

8

4

2

0

2

4

k*( 0 95 )

6

8

198


Beste Tests

F¨ ur ein gegebenes Testproblem möchte man unter allen Tests zum Niveau α denjenigen mit der kleinsten Wahrscheinlichkeit f¨ ur den Fehler 2. Art wählen. Das wäre also ein Test, bei dem der Wert von β(ϑ) f¨ ur alle ϑ ∈ Θ1 unterhalb der entsprechenden Werte f¨ ur alle anderen m¨ oglichen Tests bleibt. Man sagt: die Wahrscheinlichkeit f¨ ur den Fehler 2. Art ist f¨ ur einen solchen Test ur alle anderen Tests (f¨ ur dasselbe Testprogleichmäßig kleiner auf Θ1 als f¨ blem). In der Umkehrung bedeutet das f¨ ur die G¨ utefunktion, dass diese auf oßere Werte annimmt als die G¨ utefunktionen der anderen Θ1 gleichmäßig gr¨ möglichen Tests. Oft findet man allerdings keinen Test, der diese sehr strenge Anforderung erf¨ ullt. Als Ausweg bietet es sich an, in einer kleineren Klasse von Tests zu suchen, den so genannten unverf¨ alschten Tests.

Definition Beste Tests

F¨ ur diese Definition bezeichnen wir einen statistischen Test (das heißt die Kombination aus Teststatistik, kritischem Bereich und der Entscheidungsregel, nach der H0 zu verwerfen ist) als ϕ. Entsprechend benennen wir die Gütefunktion von ϕ mit 1 − βϕ (ϑ). Ein Test ϕ∗ heißt gleichm¨ aßig bester Test zum Niveau α f¨ ur das Testproblem ∗ 2 2 H0 : ϑ ∈ Θ0 gegen H1 : ϑ ∈ Θ1 , wenn gilt: ϕ ist Test zum Niveau α für das Testproblem und

1 − βϕ∗ (ϑ) ≥ 1 − βϕ (ϑ) für alle ϑ ∈ Θ1 f¨ ur alle Tests ϕ zum Niveau α f¨ ur dieses Testproblem. Ein Test ϕ zum Niveau α heißt unverf¨ alscht, wenn

1 − βϕ (ϑ) ≥ α für alle ϑ ∈ Θ1 . Ein Test ϕ∗ heißt gleichm¨ aßig bester unverf¨ alschter Test zum Niveau α 2 ∈ Θ0 gegen H1 : ϑ2 ∈ Θ1 , wenn ϕ∗ unverfälschter Test zum Niveau f¨ ur H0 : ϑ α für das Testproblem ist und

1 − βϕ∗ (ϑ) ≥ 1 − βϕ (ϑ) für alle ϑ ∈ Θ1 f¨ ur alle unverfälschten Tests ϕ zum Niveau α f¨ ur das Testproblem.

4.3


199

In einigen Spezialf¨ allen existieren gleichm¨ aßig beste Tests zum Niveau α f¨ ur das Problem H0 gegen H1 . Der grundlegende Fall, aus dem alles Weitere abgeleitet wird, ist dabei der, dass Θ nur genau zwei Elemente enth¨ alt. Das heißt: Θ = {ϑ0 , ϑ1 }, und Θ0 = {ϑ0 }, Θ1 = {ϑ1 } sind einelementige Mengen. Es handelt sich hier also um eine einfache Hypothese und eine einfache Alternative 180. Neyman-Pearson-Lemma 2 Seien Betrachtet wird eine Zufallsvariable X mit Verteilung FX (x; ϑ). angige und identisch wie X verteilte Zufallsvariablen. X1 , . . . , Xn unabh¨ F¨ ur die oben beschriebene Situation einer einfachen Nullhypothese und einer einfachen Alternative lautet das zu untersuchende Testproblem H0 : ϑ2 = ϑ0

gegen

H1 : ϑ2 = ϑ1 .

Bezeichne f X1 ,...,Xn (x1 , . . . , xn ; ϑ) die Likelihood 116 von X1 , . . . , Xn , wenn ϑ2 = ϑ gilt und die Stichprobe x1 , . . . , xn realisiert wurde. Ein (gleichm¨ aßig) bester Test zum Niveau α f¨ ur dieses Testproblem trifft folgende Entscheidung: H0 wird zum Niveau α verworfen, falls

f X1 ,...,Xn (x1 , . . . , xn ; ϑ1 ) > kα∗ . f X1 ,...,Xn (x1 , . . . , xn ; ϑ0 )

Dabei ist der kritische Wert kα∗ so zu bestimmen, dass 1−β(ϑ0 ) = α, falls dieser Zusammenhang exakt erf¨ ullt werden kann. Sonst wird kα∗ bestimmt als der kleinste Wert, f¨ ur den 1 − β(ϑ0 ) < α gilt. Jeden Test wie im Neyman-Pearson-Lemma beschrieben kann man äquivalent ausdr¨ ucken durch X1 ,...,Xn f (x1 , . . . , xn ; ϑ1 ) > g(kα∗ ) H0 wird zum Niveau α verworfen, falls g f X1 ,...,Xn (x1 , . . . , xn ; ϑ0 ) mit g streng monoton wachsender Funktion, bzw. X1 ,...,Xn f (x1 , . . . , xn ; ϑ1 ) < g(kα∗ ) H0 wird zum Niveau α verworfen, falls g f X1 ,...,Xn (x1 , . . . , xn ; ϑ0 ) mit g streng monoton fallender Funktion.

200


Beispiel Bester Test bei einfachen Hypothesen Die im Neyman-Pearson-Lemma 199 beschriebene Situation tritt beispielsweise dann ein, wenn durch Vorinformation, Umweltbedingungen ¨ oder Ahnliches klar ist, dass nur zwei Werte f¨ ur den interessierenden Parameter in Frage kommen. Wir betrachten eine Befragung, bei der zwei Personen die Interviews f¨ uhren. Man interessiert sich f¨ ur die Antwortverweigerungen bzw. f¨ ur die Wahrscheinlichkeit der Beantwortung. Bekannt ist, dass bei Interviewer 1 die Wahrscheinlichkeit, dass ein Befragter antwortet, p0 beträgt, bei Interviewer 2 aber p1 . Interviewer 1 gibt einen Stapel bearbeiteter Frageb¨ ogen zur Auswertung ab. Man hat den Verdacht, dass er die B¨ ogen nicht selbst hat ausf¨ ullen lassen, sondern dass er den Stapel von Interviewer 2 entwendet hat. Anhand der abgegebenen B¨ ogen möchte man daher entscheiden zwischen

H0

: Der Interviewer hat die Bögen selbst abgearbeitet und

H1

: Er hat sich bei Interviewer 2 bedient.

Die Situation kann man f¨ ur n befragte Personen mit Bernoulli-Experimenten 38 modellieren. Wir betrachten n Zufallsvariablen Xi mit 1, falls i-ter Bogen beantwortet, Xi = 0, falls i-ter Bogen nicht beantwortet. Damit ist die Auswertung des i-ten Bogens ein Bernoulli-Experiment mit Erfolgswahrscheinlichkeit p = Wahrscheinlichkeit f¨ ur die Beantwortung, ur i = 1, . . . , n. so dass Xi ∼ Bin(1; p) f¨ Die abgegebenen Bögen entsprechen dann Realisationen x1 , . . . , xn von X1 , . . . , Xn . Zu testen ist H0 : p = p0

gegen

H1 : p = p1 ,

wobei p die Wahrscheinlichkeit f¨ ur eine Beantwortung bezeichnet. Sei f¨ ur das hier betrachtete Beispiel p0 < p1 . F¨ ur das angegebene Testproblem bestimmt man einen besten Test nach dem Neyman-Pearson-Lemma u ¨ ber die Likelihood unter p1 und unter p0 ; allgemein ist die Likelihood im Bernoulli-Modell gegeben als n

f X1 ,...,Xn (x1 , . . . , xn ; p) = p f¨ ur xi ∈ {0, 1}.

i=1

xi

n

· (1 − p)n−

i=1

xi

4.3


201

Damit ergibt sich die Teststatistik als f X1 ,...,Xn (x1 , . . . , xn ; p1 ) f X1 ,...,Xn (x1 , . . . , xn ; ϑ1 ) = X ,...,X n (x , . . . , x ; ϑ ) f 1 f X1 ,...,Xn (x1 , . . . , xn ; p0 ) 1 n 0 n

=

p1

i=1

p0

i=1

n

n

xi

· (1 − p1 )n−

i=1

xi

· (1 − p0 )n−

i=1

n

xi xi

=

p1 p0

ni=1 xi n− ni=1 xi 1 − p1 · , 1 − p0

und der beste Test zum Niveau α f¨ ur H0 : p = p0 gegen H1 : p = p1 hat die Entscheidungsregel: H0 wird zum Niveau α verworfen, falls

p1 p0

ni=1 Xi n− ni=1 Xi 1 − p1 · > kα∗ 1 − p0

mit kα∗ möglichst klein, so dass 1 − β(p0 ) = P(H0 verwerfen | p = p0 ) ≤ α, das heißt P

p1 p0

ni=1 Xi n− ni=1 Xi 1 − p1 · > kα∗ | p = p0 1 − p0

≤ α.

Aus diesem Zusammenhang ist kα∗ sehr schwer zu bestimmen; aber in der n oße ist bekannt. Teststatistik steckt i=1 Xi , und die Verteilung dieser Gr¨ Gemäß der Bemerkung nach dem Neyman-Pearson-Lemma 199 kann man einen Test durch eine streng monotone Transformation a¨quivalent umformen. Wir w¨ ahlen hier eine Transformation mit dem nat¨ urlichen Logarithmus: ln

f X1 ,...,Xn (x1 , . . . , xn ; ϑ1 ) f X1 ,...,Xn (x1 , . . . , xn ; ϑ0 )

=

=

ln n i=1

p1 p0

ni=1 Xi n− ni=1 Xi 1 − p1 · 1 − p0

Xi

· ln

p1 p0

+

n−

n i=1

Xi

· ln

1 − p1 1 − p0

202


⇒

H0 wird zum Niveau α verworfen, falls n n p1 1 − p1 + n− > ln(kα∗ ) Xi · ln Xi · ln p 1 − p 0 0 i=1 i=1 n 1 − p1 p1 1 − p1 ∗ − ln > ln(kα ) − n · ln ⇔ Xi · ln p0 1 − p0 1 − p0 i=1 ' & 1 n ln(kα∗ ) − n · ln 1−p 1−p0 & ' =: 2 & ' kα∗ ⇔ Xi > p1 1−p1 ln p0 − ln 1−p0 i=1 (F¨ ur die letzte Umformung ben¨ otigt man die Voraussetzung, dass p0 < p1 , sonst bliebe das Ungleichheitszeichen nicht erhalten.) Es gilt also H0 wird zum Niveau α verworfen, falls

n

Xi > 2 kα∗ .

i=1

kα∗ Dabei ist jetzt noch 2 kα∗ so zu bestimmen, dass 1 − β(p0 ) ≤ α (und 2 möglichst klein). Beachte: wäre p0 > p1 , so w¨ urde die Testentscheidung lauten H0 wird zum Niveau α verworfen, falls

n

Xi < 2 kα∗ .

i=1

kα∗ möglichst klein, so dass Die obige Bedingung an 2 kα∗ ist a¨quivalent mit 2 n P Xi > 2 kα∗ | p = p0 ≤ α i=1

⇔

1−P

⇔ P

n

Xi ≤ 2 kα∗ | p = p0

≤α

i=1 n i=1

Xi ≤ 2 kα∗ | p = p0

≥ 1 − α.

n Im oben angesetzten Bernoulli-Modell ist i=1 Xi ∼ Bin(n; p), das heißt, n unter G¨ ultigkeit von H0 (falls also p = p0 ) gilt i=1 Xi ∼ Bin(n; p0 ). Die kα∗ das (1−α)-Quantil Bedingung an 2 kα∗ sagt dann nichts Anderes, als dass 2 der Bin(n; p0 )-Verteilung ist.

4.3


203

F¨ ur die beiden Interviewer sei bekannt, dass bei Interviewer 1 die Beantwortungswahrscheinlichkeit p0 = 0, 5 beträgt, bei Interviewer 2 hingegen ur die von Interviewer 1 abgegebenen n = 8 Bögen vermutet p1 = 0, 75. F¨ man, dass er sie von Interviewer 2 genommen hat. Zu testen ist also H0 : p = 0, 5

gegen H1 : p = 0, 75.

Der Test soll zum Niveau α = 0, 05 durchgef¨ uhrt werden. Dazu zieht man den oben hergeleiteten Test heran: H0 wird zum Niveau α verworfen, falls

n

Xi > 2 kα∗

i=1

mit 2 kα∗ das (1 − α)-Quantil der Bin(8; 0, 5)-Verteilung. Zur Bestimmung des Quantils stellen wir die Verteilungsfunktion der Bin(8; 0, 5) auf: y F(y) y F(y)

0 0,0039 5 0,8555

1 0,0351 6 0,9649

2 0,1445 7 0,9861

3 0,3633 8 1

4 0,6367

⇒ P ( Xi ≤ 6 | p = 0, 5) = 0, 9649 ≥ 0, 95 = 1 − 0, 05, und 6 ist die kleinste Zahl, so dass dieser Zusammenhang gilt ⇒ 2 kα∗ = 6. Damit wird H0 zum Niveau α verworfen, falls n

Xi > 6.

i=1

Dies ist die Testentscheidung des besten Tests zum Niveau α = 0, 05 f¨ ur H0 : p = 0, 5 gegen H1 : p = 0, 75. Befinden sich unter den abgegebenen 8 Bögen 7 oder 8 beantwortete, so lehnt man H0 zu Gunsten von H1 ab und geht davon aus, dass Interviewer 1 sich bei Interviewer 2 bedient hat. Andernfalls gilt Interviewer 1 weiterhin als unschuldig“. ” Im Beispiel der beiden Interviewer liegt bei der Bestimmung des kritischen Werts des Tests ein Fall vor, wo die Bedingung 1 − β(ϑ0 ) = α nicht exakt zu erf¨ ullen ist. Als besten Ersatz“ bestimmt man den kritischen Wert möglichst ” ur liegt in der Testklein, so dass noch 1 − β(ϑ0 ) ≤ α gilt. Die Ursache daf¨

204


n statistik i=1 Xi , die im Fall des Beispiels eine diskrete Zufallsvariable ist n ( i=1 Xi binomialverteilt). In einem solchen Fall kann man zum nominalen Testniveau α (im Beispiel α = 0, 05) zusätzlich das tats¨ achliche Niveau des Tests bestimmen, also P(H0 verwerfen | ϑ = ϑ0 ), im Beispiel: 8 Xi > 6 | p = 0, 5 = 1 − 0, 9649 = 0, 0451. P i=1

Da diese Wahrscheinlichkeit echt kleiner ist als α = 0, 05, sagt man auch, der Test sch¨ opft das Niveau nicht vollst¨ andig aus.

Definition Konservativer Test

Ist die Teststatistik eines statistischen Tests selbst eine diskrete Zufallsvariable, so kann die Niveaubedingung α nicht immer exakt mit Gleichheit erf¨ ullt werden. Falls bedingt durch diese Tatsache f¨ ur einen Test in der Regel die Wahrscheinlichkeit f¨ ur den Fehler 1. Art echt kleiner ist als das vorgegebene Signifikanzniveau α, also

P(H0 verwerfen | H0 ist wahr) < α, so heißt dieser Test konservativ. Man sagt auch, er sch¨ opft das Niveau nicht vollständig aus. Beispiel (Fortsetzung 200) Interviewer Im Beispiel der beiden Interviewer bestimmt man die Wahrscheinlichkeit f¨ ur den Fehler 2. Art als

β(p1 )

=

1 − P (H0 verwerfen | p = p1 ) & ' & ' 1−P Xi > 6 | p = 0, 75 = P Xi ≤ 6|p = 0, 75

=

FBin(8;0,75) (6) = 0, 6329.

=

Dabei ist FBin(8;0,75) die Verteilungsfunktion der Binomialverteilung mit Parametern n = 8 und p = 0, 75. Im Beispiel 200 zeigt sich, dass der beste Test von H0 : p = p0 gegen angt, außer, dass H1 : p = p1 eigentlich nur von p0 , nicht jedoch von p1 abh¨ ur alle p1 > p0 w¨ urde man also denselben besten Test p1 > p0 gelten muss. F¨ f¨ ur dieses Testproblem erhalten. Allerdings h¨ angt die Wahrscheinlichkeit f¨ ur den Fehler 2. Art vom jeweiligen Wert von p1 ab.

4.4

Wie kommt man zu einem Test?

205

Regel Gleichm¨ aßig bester Test bei einfacher Nullhypothese Betrachtet wird eines der beiden Testprobleme 1. H0 : ϑ2 = ϑ0 gegen H1 : ϑ2 > ϑ0 2. H0 : ϑ2 = ϑ0 gegen H1 : ϑ2 < ϑ0 . Dann ist der Test mit Testentscheidung H0 wird zum Niveau α verworfen, falls

f X1 ,...,Xn (x1 , . . . , xn ; ϑ1 ) > kα∗ f X1 ,...,Xn (x1 , . . . , xn ; ϑ0 )

1. gleichmäßig bester Test f¨ ur das Testproblem H0 : ϑ2 = ϑ0

gegen

H1 : ϑ2 > ϑ0 ,

wenn er f¨ ur ein ϑ1 > ϑ0 konstruiert wurde, 2. gleichmäßig bester Test f¨ ur das Testproblem H0 : ϑ2 = ϑ0

gegen

H1 : ϑ2 < ϑ0 ,

wenn er f¨ ur ein ϑ1 < ϑ0 konstruiert wurde.

Zweiseitige Alternative F¨ ur das Testproblem H0 : ϑ2 = ϑ0 gegen H1 : ϑ2 = ϑ0 gibt es in der Regel keinen gleichmäßig besten Test.

4.4 Wie kommt man zu einem Test? Zusammenhang zwischen Konfidenzintervall und Test

Allgemein kann man das folgende Prinzip nutzen, wenn man einen Test f¨ ur ein interessierendes Testproblem u ¨ ber einen Parameter einer Verteilung konstruiert: Identifizierung des Parameters, u ¨ber den eine Aussage getroffen werden soll.

4.4

206


Sch¨ atzung dieses Parameters auf Basis der vorliegenden Stichprobe. Spricht der gesch¨ atzte Wert eher f¨ ur die Nullhypothese oder f¨ ur die Alternative? Dazu Bestimmung von Grenzen, innerhalb derer der gesch¨ atzte Wert ¨ noch f¨ ur die Nullhypothese spricht bzw. bei deren Uberschreitung alles gegen die Nullhypothese und damit f¨ ur die Alternative spricht; Testentscheidung anhand des Vergleichs des geschätzten Werts mit diesen Grenzen. Das folgende Beispiel verdeutlicht diese Vorgehensweise. B

Beispiel (Fortsetzung 178) Schokoladentafeln

F¨ ur die Schokoladentafeln der Firma Schoko ist bekannt, dass ihr Gewicht X eine normalverteilte Zufallsgr¨ oße ist mit X ∼ N (µ, σ 2 ), wobei σ 2 = 1, 44 gilt. Die Firma behauptet, dass die produzierten Tafeln im Mittel 100 Gramm schwer sind, dass also µ = 100 ist. Den Verbraucher interessiert, ob diese Angabe stimmt, bzw. ob die Tafeln (zu Gunsten des Verbrauchers) vielleicht sogar etwas schwerer sind? In diesem Fall w¨ are der Verbraucher zufrieden und w¨ urde die Schokolade anstandslos akzeptieren. Falls aber das mittlere Gewicht kleiner w¨ are als 100 Gramm, w¨ urde der Verbraucher protestieren. Aus der Sicht des Verbrauchers ergibt sich also folgendes Testproblem H0 : µ ≥ 100

gegen

H1 : µ < 100.

Um dieses Problem anhand einer Stichprobe von n Tafeln Schokolade zu entscheiden, sch¨ atzt man zun¨ achst das erwartete Gewicht mit einem geeigneten Sch¨ atzer. Man betrachtet dazu die Gewichte der Schokoladentafeln x1 , . . . , xn als Realisationen von unabh¨ angigen Zufallsvariablen X1 , . . . , Xn , die alle der unftiger Sch¨ atzer f¨ ur µ gleichen Verteilung folgen wie X. Dann ist X ein vern¨ (siehe hierzu die Abschnitte zu den G¨ utekriterien f¨ ur Sch¨ atzer). Ist das durch X geschätzte erwartete Gewicht deutlich gr¨ oßer als 100, so ahr gleich 100 oder spricht dies nicht gegen H0 (im Gegenteil). Ist X ungef¨ liegt knapp darunter, dann spricht das auch noch nicht gegen H0 . Ist X aber ur deutlich kleiner als 100, ist dies ein starker Hinweis gegen H0 und damit f¨ atzer X dient also gleichzeitig als Pr¨ ufgr¨ oße oder Teststatistik. H1 . Der Sch¨ Nat¨ urlich stellt sich unmittelbar die Frage: Wann ist X deutlich kleiner als 100? Wo setzt man die Grenze? Dies geschieht durch die Vorgabe des Signifikanzniveaus α. Die Grenze hängt von der gew¨ unschten Wahrscheinlichkeit

4.4


207

f¨ ur den Fehler 1. Art ab. Dazu betrachtet man die Stelle, an der sich die Nullhypothese und Alternative treffen“, das heißt, man betrachtet den Fall ” µ = 100. In der oben beschriebenen Modellsituation ist √

n·

X − 100 √ X − µ = n· ∼ N (0, 1), 1, 2 1, 2

falls exakt µ = 100 gilt. Man verwendet daher statt X lieber die standardioße als Teststatistik. Bei G¨ ultigkeit der Nullhypothese soll die sierte 43 Gr¨ Wahrscheinlichkeit f¨ ur den Fehler 1. Art h¨ ochstens gleich α sein. Man stellt diesen Zusammenhang wieder f¨ ur den Trennpunkt zwischen Nullhypothese und Alternative her, das heißt √ X − 100 ∗ < kα | µ = 100 ≤ α. P(Fehler 1. Art | µ = 100) = P n· 1, 2 Gleichzeitig möchte man die Schranke kα∗ bei dem hier untersuchten Testproblem möglichst groß w¨ ahlen, damit Abweichungen nach unten vom postulierten Gewicht von µ ≥ 100 Gramm möglichst schnell erkannt werden. Beide Bedingungen liefern, dass kα∗ als zα∗ , das α-Quantil der N (0, 1) gewählt werden muss. Durch diese Kontrolle des Fehlers 1. Art an der Stelle µ = 100, also am Trennpunkt zwischen Nullhypothese und Alternative kann der Fehler 1. Art f¨ ur alle Werte aus der Nullhypothese µ ≥ 100 kontrolliert werden: √ X − 100 < zα∗ | µ P(Fehler 1. Art | µ) = P n· 1, 2 √ µ − 100 √ X −µ ∗ < zα − n · | µ ≤ α, n· = P 1, 2 1, 2 da

√

n·

X−µ 1,2

standardnormalverteilt ist und zα∗ −

√ n·

µ−100 1,2

≤ zα∗ .

Insgesamt erhält man auf diese Weise die folgende Entscheidungsregel: Lehne H0 : µ ≥ 100 zu Gunsten von H1 : µ < 100 ab, falls √

n·

X − 100 < kα∗ = zα∗ . 1, 2

Ein Verbraucher kauft n = 25 zuf¨ allig ausgewählte Tafeln Schokolade und ermittelt als durchschnittliches Gewicht einen realisierten Wert von x = 99 Gramm. F¨ ur den Test zum Niveau α = 0, 05 ermittelt er √ x − 100 √ 99 − 100 ∗ = 25 · = −4, 167 < −1, 6449 = z0,05 n· . 1, 2 1, 2

208


Die Hypothese kann also zum Niveau α = 0, 05 verworfen werden. Das erB wartete Gewicht der Schokoladentafeln liegt unter 100 Gramm. Der Test, der hier beispielhaft hergeleitet wurde, ist der so genannte Gauß-Test 222. Man sieht an diesem Beispiel, dass das oben beschriebene allgemeine Prinzip zur Herleitung eines Tests hier eine Verfeinerung erfahren hat: nicht der eigentliche Schätzer X des interessierenden Parameters µ wird schließlich zur Testentscheidung herangezogen, sondern eine Transformation dieser Größe, √ = deren Verteilung man kennt. Hier ist es T (X1 , . . . , Xn ) = n · X−100 1,2 √ X−µ0 n · σ , wobei µ0 der Parameterwert ist, an dem sich Nullhypothese und Alternative treffen. Der kritische Bereich K 190 des im Beispiel hergeleiteten Tests ist K = (−∞; kα∗ ) = (−∞, ; zα∗ ) = (−∞; −1, 6449) f¨ ur den Test zum Niveau α. Damit ist der zu K komplementäre Akzeptanzbereich 191 gegeben durch [zα∗ ; ∞), oder, wenn man ihn formal exakt aufschreibt, als {T (X1 , . . . , Xn ), so dass T (X1 , . . . , Xn ) =

√

n·

X − µ0 ≥ zα∗ }. σ

Dabei gilt wegen der Definition eines Akzeptanzbereichs als Komplement des & ' ∗ 0 kritischen Bereichs eines Test, dass P X−µ = 1 − α. ≥ z | H gilt, µ = µ 0 0 α σ Formen wir die Ungleichung, die diesen Akzeptanzbereich definiert, a¨quivalent um, so erhalten wir √

n·

X − µ0 ≥ zα∗ σ

⇔

σ ⇔ −µ0 ≥ −X + zα∗ · √ n

σ X − µ0 ≥ zα∗ · √ n ⇔

σ µ0 ≤ X − zα∗ · √ . n

Die Wahrscheinlichkeitsaussage f¨ ur den Akzeptanzbereich gilt nat¨ urlich weiterhin, so dass auch σ ∗ P µ0 ≤ X − zα · √ | H0 gilt, µ = µ0 n

4.4


=

209

σ P µ ≤ X − zα∗ · √ | µ = µ0 = 1 − α. n

¨ Uber diese letzte Beziehung ist gerade ein (einseitiges, unteres) Konfidenzintervall f¨ ur den Erwartungswert µ bei Normalverteilung mit bekannter Varianz 153 definiert * * σ σ ∗ ∗ −∞; X − zα · √ = −∞; X + z1−α · √ . n n Beziehung zwischen Konfidenzintervallen und Tests Man kann den kritischen Bereich eines Tests stets in ein Konfidenzintervall f¨ ur den zu testenden Parameter umformen und umgekehrt. Dabei f¨ uhren die kritischen Bereiche von Tests zu einseitigen Testproblemen auch zu einseitigen Konfidenzintervallen. Zweiseitige Konfidenzintervalle entsprechen den kritischen Bereichen zu zweiseitigen Testproblemen. Beispiel (Fortsetzung 206) Schokoladentafeln

B

Damit ergeben sich aus den entsprechenden Konfidenzintervallen 153 im gleichen Testproblem wie im obigen Beispiel 206 die folgenden kritischen Bereiche f¨ ur die Tests der beiden anderen möglichen Testprobleme: F¨ ur das Testproblem H0 : µ ≤ µ0

gegen

H1 : µ > µ0

erhalten wir aus dem einseitigen, oberen (1 − α)-Konfidenzintervall f¨ ur µ ) σ ∗ X − z1−α · √ ;∞ n den kritischen Bereich des Tests zum Niveau α als {T (X1 , . . . , Xn ), so dass T (X1 , . . . , Xn ) =

√ X − µ0 > z1−α }. n· σ

F¨ ur das Testproblem H0 : µ = µ0

gegen

H1 : µ = µ0

ergibt sich aus dem zweiseitigen (1 − α)-Konfidenzintervall f¨ ur µ ) * σ σ ∗ ∗ X − z1−α/2 · √ ; X + z1−α/2 ·√ n n

210


als kritischer Bereich des Tests zum Niveau α

√ X − µ0 > z∗ {T (X1 , . . . , Xn ), so dass |T (X1 , . . . , Xn )| = n · 1−α/2 }. σ B

Likelihood-Quotienten-Test

¨ Aus den Uberlegungen zu besten bzw. gleichmäßig besten Tests bei speziellen Typen von Hypothesen kann man ein weiteres generelles Prinzip zur Testkonstruktion ableiten: verwendet wurde in der einfachsten Situation als Teststatistik f X1 ,...,Xn (x1 , . . . , xn ; ϑ1 ) , f X1 ,...,Xn (x1 , . . . , xn ; ϑ0 ) das heißt ein Quotient aus der Likelihood unter H1 und der Likelihood unter H0 . Die Argumentation zur Verwerfung von H0 war: wenn unter H1 die Likelihood deutlich h¨ oher ist als unter H0 (und damit der Quotient groß wird), so ist H0 zu verwerfen. Im Fall zusammengesetzter Hypothesen könnte man diese Argumentation erweitern, indem man unter Nullhypothese und Alternative jeweils die h¨ ochste Likelihood bestimmt: sup f X1 ,...,Xn (x1 , . . . , xn ; ϑ)

ϑ∈Θ0

bzw. sup f X1 ,...,Xn (x1 , . . . , xn ; ϑ),

ϑ∈Θ1

und diese beiden ins Verh¨ altnis setzt. Statt des Quotienten supϑ∈Θ1 f X1 ,...,Xn (x1 , . . . , xn ; ϑ) supϑ∈Θ0 f X1 ,...,Xn (x1 , . . . , xn ; ϑ) (mit Ablehnung von H0 , falls der Quotient zu groß wird) kann man auch den Kehrwert supϑ∈Θ0 f X1 ,...,Xn (x1 , . . . , xn ; ϑ) supϑ∈Θ1 f X1 ,...,Xn (x1 , . . . , xn ; ϑ) heranziehen (mit Ablehnung von H0 , falls der Quotient zu klein wird). In einem letzten Schritt u ¨berlegt man, dass die Suche nach der höchsten

4.4


211

Likelihood unter H1 auch ersetzt werden kann durch eine Suche auf ganz ur Θ = Θ0 ∪ Θ1 (denn falls dabei herauskommt, dass sich der höchste Wert f¨ ahler, der Quotient wird 1 ein ϑ ∈ Θ0 ergibt, entspricht der Nenner dem Z¨ und ist damit nicht klein; H0 wird nicht verworfen). Likelihood-Quotienten-Test Betrachtet wird das Testproblem H0 : ϑ2 ∈ Θ0 gegen H1 : ϑ2 ∈ Θ1 . Der Test mit der Entscheidungsregel H0 wird zum Niveau α verworfen, falls LQ :=

supϑ∈Θ0 f X1 ,...,Xn (x1 , . . . , xn ; ϑ) < kα∗ supϑ∈Θ f X1 ,...,Xn (x1 , . . . , xn ; ϑ)

heißt Likelihood-Quotienten-Test f¨ ur das angegebene Testproblem. Dabei ist f¨ ur einen Test zum Niveau α der kritische Wert kα∗ , 0 < kα∗ < 1, so zu wählen, dass sup P(LQ < kα∗ | ϑ2 = ϑ) = α,

ϑ∈Θ0

falls es ein solches kα∗ gibt, sonst so, dass kα∗ möglichst groß und zugleich P (LQ < kα∗ | ϑ2 = ϑ) < α

f¨ ur alle ϑ ∈ Θ0 .

Außerdem wird festgelegt, dass LQ = 1,

falls sup f X1 ,...,Xn (x1 , . . . , xn ; ϑ) = ∞ ϑ∈Θ

und sup f X1 ,...,Xn (x1 , . . . , xn ; ϑ) > 0, ϑ∈Θ0

LQ = 0,

falls sup f X1 ,...,Xn (x1 , . . . , xn ; ϑ) = 0. ϑ∈Θ

Beispiel Likelihood-Quotienten-Test

Seien die Stichprobenvariablen X1 , . . . , Xn unabh¨ angige und identisch normalverteilte Zufallsvariablen mit Erwartungswert µ ∈ R und Varianz σ 2 = 0, 25 sowie gemeinsamer Dichtefunktion 1 n n 1 X1 ,...,Xn 2 f (x1 , . . . , xn ) = √ · exp − (xi − µ) , x1 , . . . , xn ∈ R. π i=1

B

212


Gesucht ist ein Likelihood-Quotienten-Test zum Niveau α f¨ ur das Testproblem H0 : µ = µ0

gegen

H1 : µ = µ0

f¨ ur einen festen Wert µ0 . Hier ist Θ0 = {µ0 }, und der ganze Parameterraum ist Θ = R. Dann lautet die Likelihood-Funktion unter H0 1 n n 1 X1 ,...,Xn 2 sup f (x1 , . . . , xn ; µ) = √ · exp − (xi − µ0 ) . π µ∈Θ0 i=1

n uglich µ maDa f X1 ,...,Xn (x1 , . . . , xn ; µ) = ( √1π )n · exp{− i=1 (xi − µ)2 } bez¨ n 1 ximiert wird an der Stelle µ ˆ=x ¯ = n i=1 xi , welche der Maximum-Likelihood-Sch¨ atzung 111 entspricht, gilt sup f X1 ,...,Xn (x1 , . . . , xn ; µ)

µ∈Θ

= f X1 ,...,Xn (x1 , . . . , xn ; µ ˆ) =

1 √ π

n

· exp −

Der Likelihood-Quotient ist dann gegeben als n & 'n 2 √1 · exp − (x − µ ) i 0 π = i=1 LQ = & 'n n 1 2 √ · exp − (xi − x ¯) π

n

1 2

(xi − x ¯)

.

i=1

3 4 exp −n · (¯ x − µ0 )2 .

i=1

Um nun einen Test zum Niveau α zu finden, m¨ ussen wir den gr¨ oßten Wert ∗ ∗ kα bestimmen, so dass gilt supµ∈Θ0 P(LQ < kα | µ) ≤ α wobei gilt sup P(LQ < kα∗ | µ)

=

µ∈Θ0

= = Da

√

n·

¯ X−µ 0 σ

P(LQ < kα∗ | µ = µ0 ) ' & ¯ − µ0 )2 > − log(kα∗ ) | µ = µ0 P n · (X ¯ − µ0 | √ |X − log(kα∗ ) > n· P µ = µ0 σ σ

.

∼ N (0, 1) f¨ ur µ = µ0 , folgt, dass ¯ − µ0 | √ |X ∗ > z1−α/2 P( n · | µ = µ0 ) = α, σ

∗ wobei z1−α/2 das (1−α/2)-Quantil der Standardnormalverteilung ist, so dass ∗ z1−α/2

− log(kα∗ ) = σ

⇔

6 5 ∗ kα∗ = exp −σ 2 · (z1−α/2 )2

4.4


213

f¨ ur σ 2 = 0, 25. Damit wird im Likelihood-Quotienten-Test die Nullhypothese zum Niveau α verworfen, wenn gilt 5 6 ∗ LQ < kα∗ = exp −σ 2 · (z1−α/2 )

⇔

√

n·

¯ − µ0 | |X ∗ > z1−α/2 . σ B

Kapitel 5 Verschiedene Situationen – verschiedene Tests

5

5

5

Verschiedene Situationen – verschiedene Tests

217

5.1

Situationen ........................................................ 217

5.2

Parametrische Tests ............................................. 222

5.3

Nichtparametrische Tests....................................... 314

5.1

Situationen

217

5 Verschiedene Situationen – verschiedene Tests

5.1 Situationen In praktischen Fragestellungen, die mit statistischen Tests untersucht werden, taucht eine Reihe von typischen Situationen immer wieder auf. F¨ ur derartige Standardsituationen gibt es bekannte Testverfahren, die in den folgenden Abschnitten dieses Kapitels dargestellt werden. Es handelt sich dabei um Tests f¨ ur die so genannten Einstichproben-, Zweistichprobenund Mehrstichprobenprobleme u ¨ber die Lage einer Verteilung, um Tests u ¨ber die Streuung einer Verteilung, Tests auf einen Anteil, Unabh¨ angigkeitstests, Anpassungstests und Tests im Regressionsmodell. Je nachdem, ob es sich um Tests u ¨ ber die Parameter von Verteilungen handelt oder nicht, unterscheiden wir die in den Situationen zu verwendenden Verfahren nach parametrischen und nichtparametrischen Testverfahren. Tests im Einstichprobenproblem Betrachtet wird eine Zufallsvariable X mit Verteilung FX . Im so genannten Einstichprobenproblem f¨ ur die Lage interessieren Aussagen u ¨ ber die Lage der Verteilung von X: streuen die Werte von X im Mittel um einen bestimmten vorgegebenen Wert? Liegen Realisationen von X im Schnitt unterhalb einer interessierenden Grenze? Zur Beantwortung dieser Fragen wird eine Stichprobe x1 , . . . , xn von Realisationen der Stichangig und identisch probenvariablen X1 , . . . , Xn beobachtet, die unabh¨ wie X verteilt sind. Anhand der in dieser Stichprobe enthaltenen Information wird eine Antwort auf die Frage nach der Lage von FX gefunden. Da hier nur eine Stichprobe eines Merkmales eine Rolle spielt, spricht man vom Einstichprobenproblem oder Einstichprobenfall. Betrachtet man solche Fragen im Rahmen eines parametrischen Modells, so interessiert man sich typischerweise f¨ ur Aussagen u ¨ber den Erwartungswert von X. Tests, die in diesem Fall u ¨ blich sind, sind der Gauß-Test 222 und der t-Test 236. Befindet man sich dagegen in einer nichtparametrischen Modellsituation, wird die Lage oft charakterisiert durch den Median der ¨ber den Median der VerVerteilung FX . Ein nichtparametrischer Test u teilung von X ist der Vorzeichen-Test 317.

5.1

218

5. Verschiedene Situationen – verschiedene Tests

Beispiel Einstichprobenproblem

N¨ ordlich von Berlin wird eine neue Kleingartenanlage angelegt. Laut Inserat beträgt die durchschnittliche Kleingartengr¨ oße 150 m2 . Eine Gruppe interessierter Käufer bef¨ urchtet, dass die Grundst¨ ucke tatsächlich kleiner sind. Halten die Grundst¨ ucke, was das Inserat verspricht, oder hat die InteressenB tengruppe Recht? Tests im Zweistichprobenproblem Im Zweistichprobenproblem werden zwei Zufallsvariablen X und Y mit Verteilungen FX und FY betrachtet. Hier interessiert man sich beispielsweise daf¨ ur, ob sich diese beiden Verteilungen hinsichtlich ihrer Lage unterscheiden. Streuen die Werte von X im Mittel um dieselbe Größe wie die Werte von Y ? Tendiert Y im Mittel zu kleineren Werten als X? In dieser Situation werden zur Beantwortung der Fragen zwei Stichproben x1 , . . . , xn und y1 , . . . , ym betrachtet. Diese werden als Realisationen der Stichprobenvariablen X1 , . . . , Xn bzw. Y1 , . . . , Ym angesehen, die unabh¨ angig und identisch wie X bzw. Y verteilt und insgesamt voneinander unabh¨ angig sind. Da bei der Beantwortung der Fragen zwei Stichproben eine Rolle spielen, spricht man vom Zweistichprobenproblem oder Zweistichprobenfall. Beim Zweistichprobenproblem unterscheiden wir die Situation, in der die Lage der Verteilungen FX und FY interessiert, und die Situation, in der die Varianzen der beiden Verteilungen von Interesse sind. F¨ ur das Lageproblem sind im Fall parameangitrischer Modelle der Gauß-Test 222 und der t-Test 242 die g¨ gen Tests. Im Fall eines nichtparametrischen Ansatzes verwendet man ur das Streuungsproblem beden Wilcoxon-Rangsummen-Test 324. F¨ trachten wir den F-Test zum Vergleich zweier Varianzen 260, der f¨ ur ein parametrisches Modell konstruiert ist. Es gibt aber auch nichtparametrische Tests f¨ ur dieses Problem, wie zum Beispiel den Mood-Test oder den Siegel-Tukey-Test, die beispielsweise in B¨ uning, Trenkler (1994) zu finden sind.

B

Beispiel Zweistichprobenproblem f¨ ur die Lage

In einem Agrar-Betrieb gibt es zwei Maschinen, die Getreide in Säcke abf¨ ullen. Der Betrieb will gewährleisten, dass die Käufer des Getreides S¨ acke mit identischem Gewicht (bis auf kleine Zufallsschwankungen) erhalten, unabh¨ angig davon, welche der beiden Maschinen das Getreide eingef¨ ullt hat. F¨ ullen also B beide Maschinen im Mittel gleich viel Getreide in die Säcke?

B

5.1

Situationen

219

Beispiel Zweistichprobenproblem f¨ ur die Streuung

B

Es ist bekannt, dass Mineralwasser mit einem relativ hohen Magnesiumgehalt empfehlenswert ist. F¨ ur zwei von Verbrauchern bevorzugte Sorten Mineralwasser, die im Mittel den gleichen Magnesiumgehalt aufweisen, soll u ¨berpr¨ uft werden, ob beide Sorten den Magnesiumgehalt gleichm¨ aßig gut sicherstellen. Dazu muss untersucht werden, ob f¨ ur beide Mineralwässer die Varianz des Magnesiumgehalts gleich ist oder ob sich die beiden Sorten hierbei unterB scheiden. Tests im k-Stichprobenproblem Das k-Stichprobenproblem f¨ ur die Lage ist eine Verallgemeinerung des Zweistichproben-Lageproblems auf die Situation von mehr als zwei Zufallsvariablen. Betrachtet werden k Zufallsvariablen X1 , . . . , Xk mit Verteilungen FX1 , . . . , FXk . Es interessiert, ob alle diese Verteilungen dieselbe Lage haben oder ob sich mindestens zwei von ihnen hinsichtlich ihrer Lage unterscheiden. Streuen die Werte von X1 , . . . , Xk im Mittel alle um denselben Wert? Im Gegensatz zum Zweistichprobenproblem f¨ ur die Lage möchte man hier nur eine Aussage u ¨ber Unterschiede zwischen den Lagewerten der Verteilungen treffen, man fragt aber nicht nach den Richtungen eventueller Unterschiede. Zum Aufdecken möglicher Lageunterschiede werden nun k Stichproben x11 , . . . , x1n1 , . . . , xk1 , . . . , xknk herangezogen. Sie werden als Realisationen entsprechender Stichprobenvariablen betrachtet, die jeweils unabh¨ angig und identisch wie Xi verteilt und insgesamt voneinander unabh¨ angig sind, i = 1, . . . , k. Da bei der Beantwortung der Fragen k Stichproben eine Rolle spielen, spricht man vom k-Stichprobenproblem oder k-Stichprobenfall. F¨ ur den parametrischen Fall stellen wir den F-Test zum Vergleich ur den nichtparametrischen Fall den mehrerer Stichproben 269 vor, f¨ ur die StreuKruskal-Wallis-Test 335. Das k-Stichprobenproblem f¨ ung wird hier nicht behandelt. Tests, die die Gleichheit der Varianzen f¨ ur k Stichproben u ¨berpr¨ ufen, sind zum Beispiel Bartlett’s Test (Bartlett, (1967)) oder der Levene-Test (Netter et al. (1996)).

Beispiel k-Stichprobenproblem f¨ ur die Lage

Die Wartezeit beim Arztbesuch ist ein wiederkehrendes Thema. Viele Patienten sind der Meinung, dass sie zu lange im Wartezimmer sitzen, bis sie zur Behandlung vorgelassen werden. Insbesondere die Wartezeit beim Zahnarzt wird h¨ aufig als unangemessen lang empfunden. Unterscheidet sich die mitt¨ lere Wartezeit bei Zahn¨ arzten tatsächlich von der bei anderen Arzten, wie

B

220


zum Beispiel Allgemeinmedizinern oder Haut¨ arzten, oder ist dieser Eindruck B doch durch die verbreitete Angst vor dem Zahnarzt begr¨ undet? Tests auf einen Anteil Betrachtet wird eine Grundgesamtheit, in der ein Anteil p der Objekte eine interessierende Eigenschaft besitzen. Es interessieren Fragen u ¨ ber diesen Anteil p. Besitzen beispielsweise weniger als 50% der Objekte in der Grundgesamtheit die interessierende Eigenschaft? Sind es genau 50% der Objekte? Diese Situation kann mit der Situation im Einstichprobenproblem verglichen werden. Definiert man die Zufallsvariable X durch die Zuordnung X = 1, falls ein Objekt die interessierende Eigenschaft besitzt, und X = 0 sonst, so ist X bernoulliverteilt 38 mit Parameter p. Der Erwartungswert als Lageparameter dieser Verteilung ist gerade p. Es ist also eine Aussage u ¨ber die Lage der Verteilung von X zu treffen. Da es sich hier aber um eine ganz spezielle Verteilung handelt, mit der man sich auseinander setzt, werden Probleme dieses Typs gesondert behandelt. Zu den Tests auf einen Anteil geh¨ oren der exakte Binomialtest 278 und der approximative Binomialtest 285. B

Beispiel Problem f¨ ur einen Test auf einen Anteil

Der Produzent einer Ware muss sicherstellen, dass seine Lieferungen keinen zu hohen Anteil an Ausschussware enthalten. Anderenfalls muss er mit zu vielen Reklamationen rechnen, die ihn Geld f¨ ur Reparatur oder Ersatz kosten. Enth¨ alt eine Lieferung h¨ ochstens den vorgegebenen Ausschussanteil oder wird der vom Produzenten als hinnehmbar angesehene Anteil u ¨berschritten? B Anpassungstests Die von Anpassungstests untersuchte Problemstellung bezieht sich auf die Frage, ob eine interessierende Zufallsvariable X einer Verteilung FX folgt, die zu einer bestimmten Menge von Verteilungen geh¨ ort. Handelt es sich bei FX beispielsweise um eine Normalverteilung 42? Folgt X einer Poissonverteilung 41 mit Parameter λ = 0, 3? Fragen dieses Typs beantwortet der χ2 -Anpassungstest 290. Ein nichtparametrischer Test f¨ ur diese Problemstellung ist der Kolmogorow-Smirnow-Test (B¨ uning, Trenkler (1994)).

5.1

Situationen

221

Beispiel Problem f¨ ur einen Anpassungstest

B

In einem Computer-Netzwerk ist der zentrale Server die Komponente, die nach M¨ oglichkeit nie ausfallen darf. Der Ausfall eines Servers sollte entsprechend ein seltenes Ereignis sein. Erhebt man die Anzahl der Ausf¨ alle eines Servers pro Woche, so sollte dieses Merkmal poissonverteilt sein. Besitzt die Zufallsvariable Anzahl der Ausf¨ alle eines Servers pro Woche B tats¨ achlich eine Poissonverteilung? Unabh¨ angigkeitstests Betrachtet werden zwei Zufallsvariablen X und Y , die an denselben Untersuchungsobjekten beobachtet werden. Man m¨ ochte wissen, ob die beiden interessierenden Merkmale miteinander zusammenh¨ angen, oder ob sie voneinander unabh¨ angig sind. Kann man basierend auf beobachteten Werten von X auf die Werte von Y schließen? Oder bringt die Information u ¨ber X keine Kenntnis u ¨ber Y ? Mit anderen Worten: sind X und Y stochastisch unabh¨ angig 31? Zur Beantwortung dieser Fragen zieht man eine Stichprobe (x1 , y1 ), . . . , (xn , yn ), wobei jeweils xi und yi am selben Objekt beobachtet werden. Statistische Unabh¨ angigkeitstests beantworten anhand der Information aus dieser Stichprobe die Frage der Unabh¨ angigkeit von X und Y . Wir betrachten den angigkeitstest 300 und den exakten Test nach Fisher χ2 -Unabh¨ 306. Beispiel Problem f¨ ur einen Unabh¨ angigkeitstest

Im Rahmen der Gleichstellungsdiskussionen kommt immer wieder die Frage auf, ob mittlerweile Frauen bei gleicher Arbeitsleistung auch das gleiche Einkommen erhalten wie M¨ anner. Ein Unabh¨ angigkeitstest könnte anhand erhobener Daten aus verschiedenen Berufszweigen u ¨berpr¨ ufen, ob die beiden Merkmale Einkommen und Geschlecht stochastisch unabhängig sind und daB mit die Gleichstellung beim Einkommen mittlerweile erreicht ist. Tests im linearen Regressionsmodell Betrachtet wird eine Zufallsvariable Y , die durch einen einfachen linearen Zusammenhang von einer deterministischen Einflussgr¨ oße x abh¨ angt: Y = β0 + β1 · x + ε, die so genannte Regressionsgerade 135 e. Es interessieren Aussagen u ¨ber die Regressionskoeffizienten β0 und β1 . Der Zusammenhang zwischen Y und x wird nach der Modellgleichung im Wesentlichen durch eine Gerade mit Achsenabschnitt β0 und Steigung β1 beschrieben.

B

222


Liegt der Achsenabschnitt in einer bestimmten vorgegebenen H¨ ohe? Ist die Geradensteigung positiv oder negativ? Ist sie u ¨berhaupt von Null verschieden? Zur Beantwortung dieser Fragen wird eine Stichprobe (x1 , y1 ), . . . , (xn , yn ) herangezogen, wobei zu festen Werten x1 , . . . , xn die realisierten Werte y1 , . . . , yn beobachtet werden. Anhand der in dieser Stichprobe enthaltenen Information werden Antworten auf Fragen u ¨ber die Regressionskoeffizienten gesucht. Die entsprechenden Verfahren sind bei den Tests im linearen Regressionsmodell 309 zusammengestellt.

B

Beispiel Problem im linearen Regressionsmodell

Die Wettervorhersage bietet immer wieder Anlass zur Kritik. Manche Leute sind der Meinung, dass die Vorhersage morgen wird das Wetter genau so wie ” heute“ noch die zuverlässigste Prognose liefert. Bei der Temperaturvorhersage kann man jeweils die prognostizierte Durchschnittstemperatur f¨ ur einen Tag mit der an diesem Tag tatsächlich eingetretenen Durchschnittstemperatur vergleichen. Wenn die Prognosen im Wesentlichen stimmen, m¨ ussten die Beobachtungspaare, bestehend aus prognostizierter und eingetretener Temperatur, entlang einer Geraden mit Steigung 1 und Achsenabschnitt 0 streuen. Kann man anhand beobachteter Daten nachweisen, dass die Prognosen der B letzten drei Monate gut waren?

5.2

5.2 Parametrische Tests Gauß-Test

Der Gauß-Test ist ein Test u ¨ ber den Erwartungswert einer normalverteilten Zufallsvariablen X. Ausgehend von unabh¨ angigen und identisch normalverteilten Stichprobenvariablen X1 , . . . , Xn , die der gleichen Normalverteilung folgen wie X selbst, basiert der Test auf dem arithmetischen Mittel der Stichprobenvariablen n 1 X= Xi . n i=1 Voraussetzung f¨ ur die Anwendung des Tests ist, dass die Varianz σ 2 von X bekannt ist. Diese Voraussetzung stellt naturgem¨ aß in der praktischen

5.2

Parametrische Tests

223

Anwendung einen Nachteil dar, da σ 2 dort nur selten bekannt ist. Alternativ findet dann der t-Test seine Anwendung. Der Vorteil des Gauß-Tests liegt darin, dass man ihn bei ausreichend großem Stichprobenumfang n auch anwenden kann, wenn die Stichprobenvariablen X1 , . . . , Xn nicht normalverteilt sind. In diesem Fall sind X1 , . . . , Xn unabh¨ angig und identisch wie X verteilt, wobei X einer beliebigen Verteilung folgen kann mit bekannter Varianz σ 2 . Da die Teststatistik des Gauß-Tests auf dem arithmetischen Mittel X beruht und dieses gemäß dem Zentralen Grenzwertsatz e f¨ ur gen¨ ugend großem Stichprobenumfang n approximativ normalverteilt ist, unabh¨ angig von der Verteilung der Stichprobenvariablen X1 , . . . , Xn , darf der Gauß-Test auch unter diesen gelockerten Voraussetzungen angewendet werden. Somit beruht die Testentscheidung beim Gauß-Test auf der Annahme, dass die Verteilung der Teststatistik zumindest approximativ einer Normalverteilung entspricht. Voraussetzungen Die Anwendung des Gauß-Tests setzt folgende Annahmen an die Daten voraus Die Beobachtungswerte x1 , . . . , xn sind Realisierungen unabh¨ angiger und identisch verteilter Stichprobenvariablen X1 , . . . , Xn , die der gleichen Verteilung folgen wie die Zufallsvariable X. Die Zufallsvariable X ist normalverteilt mit Erwartungswert E(X) = µ und bekannter ur die Stichprobenvariablen Varianz Var(X) = σ 2 . Das heißt, f¨ gilt E(X) = µ und Var(Xi ) = σ 2 , i = 1, . . . , n. oder folgt einer beliebigen Verteilung mit Erwartungswert E(X) = µ und bekannter Varianz Var(X) = σ 2 wobei der Stichprobenumfang mindestens n ≥ 30 betragen sollte. In diesem Fall greift der Zentrale Grenzwertsatz e, der gewährleistet, dass das arithmetische Mittel der Stichprobenvariablen approximativ normalverteilt ist. Zu testen sei eine Hypothese u ¨ ber den Erwartungswert µ der Zufallsvariablen X.

224


¨ Uberpr¨ ufbarkeit der Voraussetzungen in der Praxis In der Praxis ist die Annahme, dass die gesammelten Daten Realisierungen unabh¨ angiger und identisch verteilter Stichprobenvariablen sind, nicht leicht u ¨berpr¨ ufbar. Im Allgemeinen ist es ausreichend, sicherzustellen, dass die Beobachtungen aus einer Zufallsstichprobe stammen. Das heißt, die Beobachtungen wurden zuf¨ allig und damit auch unabh¨ angig voneinander aus der Grundgesamtheit ausgew¨ ahlt. F¨ ur den Fall, dass keine Normalverteilung zu Grunde liegt, ist es nicht immer zwingend, mindestens 30 Beobachtungen zu haben. Ist die Verteilung stetig und liegen keine extrem von der Hauptmasse der Daten abweichenden Beobachtungen vor, so sind auch kleinere Stichprobengr¨ oßen ausreichend. Dennoch gilt: Je gr¨ oßer die Stichprobe ist, desto besser kann die Verteilung des arithmetischen Mittels durch die Normalverteilung approximiert werden.

B

Beispiel Anwendbarkeit des Gauß-Tests

Der Intelligenzquotient (IQ) von Menschen wird durch so genannte Intelligenztests bestimmt. Das Resultat eines solchen Tests ist eine Größe X, die normalverteilt ist mit Erwartungswert µ und Standardabweichung σ=16, ¨ber µ zu testen, so kann der also Xi ∼ N (µ, 256). Ist eine Hypothese u Gauß-Test benutzt werden, wenn die Voraussetzungen erf¨ ullt sind. Beiangig spielhaft sind f¨ ur n = 4 Stichprobenvariablen X1 , . . . , X4 , die unabh¨ und identisch wie X verteilt sind, die Voraussetzungen erf¨ ullt, da hiermit angig und identisch normalverteilt sind mit bekannter X1 , . . . , X4 unabh¨ Varianz σ 2 = 256. Die Anwendung des Gauß-Tests basierend auf den vier Beobachtungen ist erlaubt. Die Brenndauer X einer bestimmten Sorte von Gl¨ uhbirnen kann als exponentialverteilt mit einer zu erwartenden Brenndauer von ϑ Stunden angenommen werden. Zu testen ist eine Hypothese u ¨ ber E(X) = ϑ. Eine Stichprobe vom Umfang n = 4 ist hier nicht ausreichend, da die Stichangig und identisch wie X verteilt probenvariablen X1 , . . . , X4 zwar unabh¨ sind, jedoch keiner Normalverteilung folgen. Ben¨ otigt wird eine Stichprobe von n ≥ 30 Beobachtungen. Die Anwendung des Gauß-Tests basierend auf den vier Beobachtungen ist hier nicht erlaubt. B

5.2

Parametrische Tests

225

Hypothesen F¨ ur den Erwartungswert E(X) = µ ∈ R der Zufallsvariablen X können folgende Testprobleme mit dem Gauß-Test untersucht werden Problem (1): Problem (2): Problem (3):

H0 : µ = µ0 H0 : µ ≤ µ0 H0 : µ ≥ µ0

gegen gegen gegen

H1 : µ = µ0 H1 : µ > µ0 H1 : µ < µ0


Problem (1) beleuchtet die Frage, ob der Erwartungswert einem Zielwert entspricht oder nicht, w¨ ahrend Problem (2) sich um den Nachweis dreht, dass der Erwartungswert tats¨ achlich gr¨ oßer ist als unter der Nullhypothese angenommen wird. Problem (3) wird demzufolge aufgestellt, wenn es das Ziel ist zu zeigen, dass der wahre Erwartungswert von X kleiner ist als unter Nullhypothese angenommen.

Beispiel Hypothesen

B

Eine Molkerei liefert Frischmilch in 0,5 l Flaschen. Im Rahmen der Qualit¨ atskontrolle u ¨berpr¨ uft die Molkerei, ob die Abf¨ ullanlage die vorgegebene Abf¨ ullmenge einh¨ alt. Getestet wird H0 : µ = 0, 5

gegen

H1 : µ = 0, 5.

Dabei bezeichnet µ die erwartete Abf¨ ullmenge der Anlage. N¨ ordlich von Berlin wird eine neue Kleingartenanlage angelegt. Die durchschnittliche Kleingartengr¨ oße µ beträgt laut Inserat 150 m2 . Eine Gruppe interessierter Käufer hat jedoch die Vermutung, dass die Grundst¨ ucke kleiner sind, als im Inserat ausgeschrieben. Sie geben einem Vermessungsb¨ uro den Auftrag, eine Stichprobe von Kleing¨ arten auszumessen, um die Vermutung zu u ¨berpr¨ ufen H0 : µ ≥ 150

gegen

H1 : µ < 150.

Ein Automobilhersteller behauptet, dass das Unternehmen die Emission ur ein neu entwickeltes Modell von urspr¨ unglich 140 g/km von CO2 Gasen f¨ entscheidend verringert hat. Eine Umweltbeh¨ orde vermutet jedoch, dass diese Angabe nicht der Wahrheit entspricht und nur zu Werbezwecken eingef¨ uhrt wurde. Die Umweltbeh¨ orde beantragt daraufhin, basierend auf ¨ einer Stichprobe, die Uberpr¨ ufung der erwarteten CO2 Emission µ dieser Fahrzeuge. Zu testen ist daher H0 : µ ≤ 140

gegen

H1 : µ > 140. B

226


Teststatistik Sei X eine Zufallsvariable mit unbekanntem Erwartungswert E(X) = µ uhrten Voraussetund bekannter Varianz Var(X) = σ 2 . Unter den eingef¨ zungen folgt das arithmetische Mittel X 43 e der Stichprobenvariablen X1 , . . . , Xn unter der Annahme µ = µ0 einer Normalverteilung mit Erwartungswert µ0 und Varianz σ 2 /n: σ2 , X ∼ N µ0 , n wobei die Verteilungsaussage nur approximativ gilt, wenn X1 , . . . , Xn nicht selbst normalverteilt sind. Damit ergibt sich als Teststatistik: Z=

√

n·

X − µ0 . σ

Die Teststatistik Z folgt unter der Annahme µ = µ0 einer Standardnormalverteilung N (0, 1), wobei dies nur approximativ gilt, wenn X1 , . . . , Xn nicht selbst normalverteilt sind.

Testentscheidung und Interpretation Die Testentscheidung kann anhand des kritischen Werts oder mit Hilfe des p-Werts herbeigef¨ uhrt werden. Entscheidungsregel basierend auf dem kritischen Wert Abh¨ angig von der Wahl des Signifikanzniveaus α und des Testproblems gelten folgende Entscheidungsregeln: Die Nullhypothese H0 wird zum Niveau α verworfen, falls Problem (1): |Z| Problem (2): Problem (3):

Z Z

∗ > z1−α/2

>
1, 9599 ist. Das Durchschnittsgewicht der Schokoladentafeln unterscheidet sich also B signifikant von den geforderten 100 g. B

Beispiel Weinkonsum

In einer Stadt an der Mosel interessiert man sich f¨ ur den durchschnittlichen Weinkonsum pro Einwohner in einem Jahr. Im letzten Jahr trank jeder Deutsche durchschnittlich 20 Liter Wein. Es wird allerdings vermutet, dass der örtliche Konsum h¨ oher ist. Aus diesem Grund wird aus der Stadtbev¨ olkerung eine repr¨ asentative Stichprobe von 100 Personen gezogen, deren Liter-Verbrauch an Wein in einem Jahr kontrolliert wird. Das aus diesen Daten resultierende Mittel beträgt 20,3 Liter. Es wird vorausgesetzt, dass die

5.2

Parametrische Tests

229

Standardabweichung des Konsums pro Person 3 Liter betr¨ agt. Da u ¨ berpr¨ uft werden soll, ob die Einwohner einen h¨ oheren Verbrauch an Wein haben als 20 Liter, ist das Testproblem ein rechtsseitiges, und die Hypothesen m¨ ussen wie folgt aufgestellt werden H0 : µ ≤ 20

gegen

H1 : µ > 20.

Getestet wird zu einem Niveau von α = 0, 05. Bei einem Stichprobenumfang von n = 100 kann man davon ausgehen, dass das arithmetische Mittel X approximativ normalverteilt ist. Außerdem ist die Varianz bekannt. Daher ist das gegebene Testproblem mit dem Gauß-Test u ¨ berpr¨ ufbar. Das Einsetzen der entsprechenden Gr¨ oßen in die Teststatistik Z=

√

n·

X − µ0 σ

ergibt zbeo =

√

100 ·

20, 3 − 20 = 0, 9985. 3

∗ Die Realisation der Teststatistik wird nun mit dem (1 − α)-Quantil z1−α ∗ der Standardnormalverteilung verglichen. F¨ ur α = 0, 05 entspricht z1−α dem ∗ 0,95-Quantil, welches mit z0,95 = 1, 6449 gegeben ist. Die Nullhypothese H0 wird zum Niveau α = 0, 05 nicht abgelehnt, da zbeo = 0, 9985 < 1, 6449. Damit kann kein signifikanter Unterschied im durchschnittlichen Weinkonsum des Moselstädtchens im Vergleich zu dem der Gesamtbevölkerung nachgewieB sen werden.

Beispiel Akkus

B

Eine Firma, die elektrische Zahnb¨ ursten herstellt, bezieht ihre Akkus f¨ ur die Zahnb¨ ursten von einer Zulieferfirma. Die Laufzeit der Akkus folgt nach Angaben der Lieferfirma einer Normalverteilung mit Erwartungswert µ = 80 Stunden und einer Standardabweichung σ = 2 Stunden. Eine zuf¨ allige Stichprobe von 10 Beobachtungen liefert die folgenden Laufzeiten bis zur Ersch¨ opfung der Akkus 74,76

78,27

74,81

77,10

78,91

71,37

80,63

73,59

85,63

78,59

Anhand dieser Stichprobe soll nun u ¨berpr¨ uft werden, ob die durchschnittliche Laufzeit der Akkus nicht geringer ist, als es die Lieferfirma angegeben hat. Es ergibt sich also folgendes linksseitiges Testproblem H0 : µ ≥ 80

gegen

H1 : µ < 80,

das zu einem Niveau von α = 0, 05 u ¨berpr¨ uft werden soll. Da die AkkuLaufzeit normalverteilt und die Varianz bekannt ist, kann der Gauß-Test f¨ ur

230


¨ die Uberpr¨ ufung der Hypothese verwendet werden. Zu berechnen ist also die Teststatistik Z=

√

n·

X − µ0 . σ

Aus den gegebenen n = 10 Beobachtungen ergibt sich als arithmetisches Mittel x = 74, 74. Bekanntermaßen ist σ = 2 Stunden. Durch Einsetzen dieser Werte in die Gleichung erh¨ alt man zbeo =

√

10 ·

74, 74 − 80 = −8, 32. 2

Verglichen wird das Ergebnis der Teststatistik mit dem α-Quantil zα∗ der Standardnormalverteilung. F¨ ur α = 0, 05 entspricht zα∗ dem 0,05-Quantil, ∗ welches mit z0,05 = −1, 6449 gegeben ist. Bei dem gewählten Signifikanzniveau von α = 0, 05 wird die Nullhypothese H0 abgelehnt, da zbeo = −8, 32 < −1, 6449. Damit scheint die Laufzeit der Akkus durchschnittlich geringer als B 80 Stunden zu sein. G¨ utefunktion f¨ ur den Gauß-Test

Die G¨ ute eines Tests ist definiert als die Wahrscheinlichkeit, die Nullhypotheangigkeit se H0 abzulehnen, wenn diese tatsächlich falsch ist. Sie wird in Abh¨ eines konkreten Parameterwerts aus dem Bereich der Alternativhypothese berechnet und kann deshalb als Funktion des Parameters aufgefasst werden. F¨ ur den Gauß-Test l¨ asst sich die G¨ ute wie folgt aufschreiben: Bezeichne K den kritischen Bereich des Gauß-Tests, Z die Teststatistik sowie µ den zu testenden Parameter. Dann l¨ asst sich die G¨ utefunktion als Funktion von µ schreiben als Pµ (Z ∈ K) = P(Z ∈ K | µ) = P(H0 ablehnen | µ), die Wahrscheinlichkeit, H0 abzulehnen, wenn der Erwartungswert von X gleich µ ist. Die G¨ ute eines Tests ist in Abhängigkeit vom Ablehnbereich des Tests zu sehen. F¨ ur das Testproblem H0 : µ ≤ µ0 gegen H1 : µ > µ0 wird die Nullhypothese verworfen, falls ∗ ist, das der auf den Daten basierende Wert der Teststatistik Z > z1−α heißt die G¨ utefunktion berechnet sich als √ X − µ0 ∗ > z1−α , Pµ (Z ∈ K) = Pµ n· σ

5.2

Parametrische Tests

231

∗ wobei der kritische Bereich K = (z1−α , ∞) ist. Es kann gezeigt werden, dass sich die obige Gleichung umformen l¨ asst zu √ µ − µ0 ∗ , Pµ (Z ∈ K) = 1 − Φ z1−α − n · σ

wobei Φ die Verteilungsfunktion der Standardnormalverteilung N (0, 1) bezeichnet. Analog ergibt sich die G¨ utefunktion f¨ ur die verbleibenden Testprobleme. G¨ utefunktion f¨ ur den Gauß Test H0 : µ ≤ µ0 gegen H1 : µ > µ0 Pµ (Z ∈ K)

=

=

√ µ − µ0 ∗ 1 − Φ z1−α − n· σ √ µ − µ0 ∗ Φ −z1−α − n· σ

H0 : µ ≥ µ0 gegen H1 : µ < µ0 Pµ (Z ∈ K)

=

√ µ − µ0 ∗ Φ zα − n · σ

H0 : µ = µ0 gegen H1 : µ = µ0 √ µ − µ0 ∗ Pµ (Z ∈ K) = Φ −z1−α/2 + n · σ √ µ − µ0 ∗ + Φ −z1−α/2 − n · σ

Die G¨ utefunktion h¨ angt von drei Faktoren ab. Als Funktion des Parameters nimmt sie unterschiedliche Werte in Abhängigkeit des Parameters an. Der Stichprobenumfang n sowie die Wahl des Signifikanzniveaus α haben jedoch ebenfalls einen Einfluss auf den Wert der G¨ utefunktion. Man vergleiche hierzu auch die Ausf¨ uhrungen im Kapitel zur G¨ ute 193.

232

B


Beispiel (Fortsetzung 178 227) Schokoladentafeln

Die G¨ ute f¨ ur das zweiseitige Testproblem aus dem Beispiel Schokoladentafeln ist von Interesse. Angenommen, der Schokoladentafelproduzent stellt tats¨ achlich Tafeln mit einem durchschnittlichem Gewicht von 101 g her. Wie groß ist die Wahrscheinlichkeit, dass die Testentscheidung richtig ist, das heißt die Behauptung µ = 100 g abgelehnt wird. Der wahre Parameter µ hat den Wert 101, und f¨ ur die G¨ ute dieses Tests ergibt sich √ 101 − 100 Pµ (Z ∈ K | µ = 101) = Φ −1, 9599 + 10 · 1 √ 101 − 100 + Φ −1, 9599 − 10 · 1 & ' & √ √ ' = Φ −1, 9599 + 10 + Φ −1, 9599 − 10 =

0, 8854.

Die Wahrscheinlichkeit, die Nullhypothese richtigerweise abzulehnen, wenn µ = 101 ist, beträgt also 88,54%. F¨ ur andere Werte aus der Alternative B andert sich die G¨ ¨ ute nat¨ urlich. B

Beispiel (Fortsetzung 228) Weinkonsum

Betrachtet wird nun das rechtsseitige Testproblem aus dem Beispiel Weinkonsum. Trinken die Bewohner des Moselstädtchens tatsächlich u ¨ berdurchschnittlich viel Wein, ist zum Beispiel µ = 21, so ist die G¨ ute √ µ − µ0 ∗ Pµ (Z ∈ K | µ = 21) = 1 − Φ z1−α − n · σ √ 21 − 20 = 1 − Φ 1, 6449 − 100 · 3 √ 100 = 1 − Φ 1, 6449 − 3 =

0, 9543.

Das heißt, die Wahrscheinlichkeit, die Nullhypothese korrekterweise zu verB werfen, wenn µ = 21 ist, ist 95,43%.

5.2

Parametrische Tests

233

Beispiel (Fortsetzung 229) Akkus

Die G¨ ute f¨ ur das linksseitge Testproblem aus dem Beispiel Akkus f¨ ur einen Wert von µ = 78, 5 l¨ asst sich berechnen durch √ µ − µ0 Pµ (Z ∈ K | µ = 78, 5) = Φ zα∗ − n · σ √ 78, 5 − 80 = Φ −1, 6449 − 10 · 2 ' & √ = Φ −1, 6449 − 10 · 0, 75 =

0, 7663.

Damit betr¨ agt die Wahrscheinlichkeit, die Nullhypothese abzulehnen, wenn B der wahre Parameter µ = 78, 5 ist, 76,63%. Der Gauß-Test im Zweistichprobenproblem

Ist nicht nur die Lage einer Zufallsvariable X von Interesse, sondern der Vergleich zweier Zufallsvariablen X und Y bez¨ uglich ihrer Lage, so befinden wir uns im so genannten Zweistichprobenproblem 218. Die Anwendung des Gauß-Tests im Zweistichprobenfall ist eher selten, da vorausgesetzt wird, dass die Varianz sowohl von X als auch von Y bekannt ist, was in der Praxis sehr unwahrscheinlich ist. Alternativ wird dann der t-Test 242 verwendet. Voraussetzungen Folgende Voraussetzungen m¨ ussen f¨ ur die Anwendung der Testprozedur erf¨ ullt sein Gegeben sei ein Merkmal, das in zwei verschiedenen Grundgesamtheiten interessiert. Das Merkmal in Grundgesamtheit 1 sei charakterisiert durch eine Zufallsvariable X mit Erwartungswert E(X) = µX und Varianz 2 2 . Dabei ist σX bekannt. Entsprechend sei das MerkVar(X) = σX mal in Grundgesamtheit 2 beschrieben durch eine Zufallsvariable Y mit Erwartungswert E(Y ) = µY und Varianz Var(Y ) = σY2 . Dabei ist σY2 bekannt.

B

234


Betrachtet werden die zugeh¨ origen Stichprobenvariablen X1 , . . . , Xn und Y1 , . . . , Ym , die jeweils f¨ ur sich genommen unabh¨ angig und identisch wie X bzw. Y verteilt sind.

X1 , . . . , Xn folgen einer Normalverteilung mit Erwartungswert 2 2 , also Xi ∼ N (µX , σX ) f¨ ur i = 1, . . . , n, µX und Varianz σX oder die Stichprobe X1 , . . . , Xn ist mindestens vom Umfang n ≥ 30.

Y1 , . . . , Ym folgen einer Normalverteilung mit Erwartungswert ur i = 1, . . . , m, µY und Varianz σY2 , also Yi ∼ N (µY , σY2 ) f¨ oder die Stichprobe Y1 , . . . , Ym ist mindestens vom Umfang m ≥ 30. X1 , . . . , Xn , Y1 , . . . , Ym sind voneinander unabh¨ angig. Zu testen sei eine Hypothese u ¨ ber die Differenz der Erwartungswerte µX und µY der Zufallsvariablen X und Y .

Hypothesen F¨ ur den Vergleich Testmöglichkeiten Problem (1): Problem (2): Problem (3):

der

Erwartungswerte

H0 : µX = µY H0 : µX ≤ µY H0 : µX ≥ µY

gegen gegen gegen

ergeben

sich

folgende

H1 : µX = µY (zweiseitig) H1 : µX > µY (rechtsseitig) H1 : µX < µY (linksseitig)

Der Test zu Problem (1) u ¨ berpr¨ uft, ob die Differenz µX − µY verschieden von Null ist oder ob die beiden Erwartungswerte gleich sind. Soll gepr¨ uft oßer als µY ist, so muss der Test zu Problem (2) gewählt werden, ob µX gr¨ werden. Der Test zu Problem (3) wird durchgef¨ uhrt, wenn gezeigt werden soll, dass µX kleiner ist als µY .

5.2

Parametrische Tests

235

Teststatistik Seien X und Y Zufallsvariablen mit unbekanntem Erwartungswert 2 E(X) = µX und E(Y ) = µY sowie bekannten Varianzen Var(X) = σX 2 und Var(Y ) = σY . Bezeichne X das arithmetische Mittel 46 der Stichprobenvariablen X1 , . . . , Xn und Y das arithmetische Mittel der Stichprobenvariablen Y1 , . . . , Ym . Unter der Annahme, dass µX = µY gilt, folgt die Teststatistik Z=

X − Y − (µX − µY ) ! 2 2 σX σY n + m

einer Standardnormalverteilung N (0, 1), wobei dies nur approximativ gilt, wenn X1 , . . . , Xn , Y1 , . . . , Ym nicht normalverteilt sind.

Testentscheidung und Interpretation Die Testentscheidung kann anhand des kritischen Werts oder mit Hilfe des p-Werts herbeigef¨ uhrt werden. Entscheidungsregel basierend auf dem kritischen Wert Abh¨ angig von der Wahl des Signifikanzniveaus α und des Testproblems gelten folgende Entscheidungsregeln: Die Nullhypothese H0 wird zum Niveau α verworfen, falls ∗ Problem (1): |Z| > z1−α/2

Problem (2): Problem (3):

Z Z

>
µ0 H1 : µ < µ0


Der Test zu Problem (1) u ¨ berpr¨ uft die Ungleichheit der beiden Erwartungswerte, w¨ ahrend der Test zu Problem (2) f¨ ur den Nachweis geeignet ist, dass der Erwartungswert tats¨ achlich gr¨ oßer ist als unter der Nullhypothese angenommen wird. Problem (3) eignet sich demzufolge, wenn gezeigt werden soll, dass der wahre Erwartungswert von X kleiner ist als unter der Nullhypothese angenommen wird.

B

Beispiel Hypothesen

Eine Umfrage einer studentischen Zeitung aus dem letzten Semester ergab, dass die Studierenden im Schnitt 150 Euro monatlich f¨ ur Lebensmittel ausgaben. Aufgrund der gestiegenen Inflationsrate vermutet ein Leser, dass 150 Euro im jetzigen Semester nicht mehr ausreichend sind. Zu testen ist H0 : µ ≤ 150

gegen

H1 : µ > 150.

Dabei bezeichnet µ die erwarteten monatlichen Ausgaben f¨ ur Lebensmittel im jetzigen Semester. Ein Lebensmittelhersteller behauptet in seiner Werbung, dass er durch verbesserte Verarbeitungstechniken die Konservierungsstoffe in seinem Produkt von urspr¨ unglich 3 mg signifikant reduzieren konnte. Bezeichne µ die durchschnittliche Menge an Konservierungsstoffen in seinem Produkt, so ist zum Nachweis der Behauptung des Herstellers zu testen H0 : µ ≥ 3 gegen

H1 : µ < 3.

Goldene Rechtecke sind Rechtecke, bei denen die lange Seite zur kurzen Seite im Verh¨ altnis des Goldenen Schnitts stehen, das heißt Breite und L¨ ange des Rechtecks haben ein Verhältnis von 0,618. Der Ursprung dieser als besonders ästhetisch angesehenen geometrischen Form wird allgemein bei den Griechen angesiedelt, welche auch bei der Gestalt des menschlichen Körpers wiedergefunden werden kann. Es heißt n¨ amlich, dass das

5.2

Parametrische Tests

239

Verhältnis des Abstandes vom Fuß bis zum Bauchnabel geteilt durch den Abstand vom Fuß zum Kopf von als besonders sch¨ on angesehenen Menschen genau diesem Verhältnis von 0,618 entspricht. Gen¨ ugt das menschliche Schönheitsideal dem Goldenen Schnitt? H0 : µ = 0, 618

H1 : µ = 0, 618.

gegen

B Teststatistik Sei X eine Zufallsvariable mit unbekanntem Erwartungswert E(X) = µ und unbekannter Varianz Var(X) = σ 2 . Bezeichne X das arithmetische Mittel 46 und S die Stichprobenstandardabweichung 46 der Stichprobenvariablen X1 , . . . , Xn . Unter der Annahme, dass µ = µ0 gilt, folgt die Teststatistik √ X − µ0 T = n· S einer t-Verteilung mit n − 1 Freiheitsgraden, T ∼ tn−1 . Die Anzahl der Freiheitsgrade entspricht der Anzahl der Beobachtungen n minus 1. Die Verteilungsaussage gilt nur approximativ, wenn X1 , . . . , Xn nicht selbst normalverteilt sind.

Testentscheidung und Interpretation Die Testentscheidung kann basierend auf dem kritischen Wert oder mit Hilfe des p-Werts herbeigef¨ uhrt werden. Entscheidungsregel basierend auf dem kritischen Wert Abh¨ angig von der Wahl des Signifikanzniveaus α und des Testproblems gelten folgende Entscheidungsregeln: Die Nullhypothese H0 wird zum Niveau α verworfen, falls Problem (1): |T | > t∗n−1;1−α/2 Problem (2):

T

>

Problem (3):

T

t∗10;0,95 ist, kann die Nullhypothese verworfen werden, das heißt, die neue Trainingsmethode ist tats¨ achlich besser. Auch lassen sich der kritische Wert und der p-Wert mit Hilfe von R bestimmen. kritischer Wert: qt(0.95,10) p-Wert: pt(2.5037, 10, lower.tail=FALSE) Der p-Wert beträgt hier 0,01562, welcher kleiner als das vorgegebene Signifikanzniveau ist. B B

Beispiel (Fortsetzung 254) Motor¨ ol

Der Hersteller von Motorölen aus dem fr¨ uheren Beispiel 254 behauptet, dass die Verwendung seines neuen Motor¨ ols den Treibstoffverbrauch eines Kraftfahrzeugs sogar um mehr als 0,4 l/100 km verbessern kann. Es wurden Tests mit 15 Fahrzeugen eines Typs durchgef¨ uhrt. Die Messergebnisse x1 , . . . , x15 der Verbrauchswerte (in l/100 km) bei Verwendung des neuen ¨ und die Messwerte y1 , . . . , y15 unter Verwendung eines herk¨ ommlichen Ols

5.2

Parametrische Tests

259

¨ sind in der folgenden Tabelle angegeben. Es kann angenommen werOls den, dass die Messwerte x1 . . . , x15 bzw. y1 , . . . , y15 jeweils Realisierungen unabh¨ angiger und identisch normalverteilter Zufallsvariablen sind. Somit kann man auch ihre Differenzen di = xi − yi , i = 1, . . . , 15, als Realisierungen unabh¨ angiger und identisch normalverteilter Zufallsvariablen betrachten. Fahrzeug Verbr. mit Verbr. mit Differenz Fahrzeug Verbr. mit Verbr. mit Differenz

¨ neuem Ol ¨ herk¨ omml. Ol

¨ neuem Ol ¨ herk¨ omml. Ol

1 8,1 8,5 -0,4 9 8,0 8,4 -0,4

2 8,2 8,7 -0,5 10 8,4 8,8 -0,4

3 7,8 8,2 -0,4 11 8,0 8,5 -0,5

4 8,5 8,9 -0,4 12 8,1 8,6 -0,5

5 8,1 8,5 -0,4 13 7,9 8,3 -0,4

6 7,9 8,3 -0,4 14 8,2 8,7 -0,5

7 8,3 8,9 -0,6 15 8,2 8,5 -0,3

8 8,6 9,1 -0,5

Wir m¨ ochten zum Niveau α = 0, 05 testen, ob sich der Treibstoffverbrauch ¨ um mehr als 0,4 l verbessert hat. Dazu muss unter Verwendung des neuen Ols das Testproblem wie folgt formuliert werden H0 : µD ≥ −0, 4

gegen

H1 : µD < −0, 4.

Die Verbesserung des Treibstoffverbrauchs wird beschrieben durch die Werte di = xi −yi , i = 1, . . . , 15, der verbundenen Stichprobe (x1 , y1 ), . . . , (x15 , y15 ). Das arithmetische Mittel 46 und die Stichprobenstandardabweichung 46 berechnen sich zu d = 0, 44 und sD = 0, 0737. Die Teststatistik lautet T =

√ D − δ0 n· SD

und errechnet sich zu tbeo =

√

15 ·

(−0, 44 + 0, 4) = −2, 102. 0, 0737

F¨ ur α = 0, 05 ist das 0,05-Quantil gegeben als t∗14;0,05 = −t∗14;0,95 − 1, 7613 und somit tbeo = −2, 102 < −1, 7613. Das heißt, die Nullhypothese kann zum 5%-Niveau verworfen werden, und wir k¨ onnen davon ausgehen, dass mit ¨ die Fahrzeuge mindestens 0,4 l / 100 km weniger Treibstoff dem neuen Ol B verbrauchen als vorher.

260


Der F-Test Der F-Test zum Vergleich zweier Varianzen

Eine Kaufhauskette erleidet durch Ladendiebst¨ ahle nicht unerhebliche Ver¨ luste. Um diese einzudämmen, soll eine verst¨ arkte Uberwachung der Kunden stattfinden. Dazu stehen zwei Varianten zur Auswahl, die in einigen Filialen ausprobiert werden, um ihre Wirksamkeit einzusch¨ atzen, bevor man sich fl¨ achendeckend f¨ ur eine von ihnen entscheidet. Variante 1:

Video¨ uberwachung, mehrere Angestellte beobachten Monitore, als Diebe Verd¨ achigte werden an das Personal im Verkaufsraum gemeldet.

Variante 2:

Kaufhausdetektive halten sich, als Kunden getarnt, im Verkaufsraum auf und stellen verd¨ achtige Personen direkt.

Das Kriterium, mit dem die Wirksamkeit der Maßnahmen gemessen wird, ¨ ist die erreichte Umsatzsteigerung, wenn die Uberwachung stattfindet, im ¨ Vergleich zum Umsatz im urspr¨ unglichen Zustand ohne verst¨ arkte Uberwachung. Zur Einsch¨ atzung der Wirksamkeit setzt die Kette an einer Reihe von ¨ r¨ aumlich weit entfernten Standorten jeweils eine der beiden Uberwachungsstrategien ein, wobei die Verteilung der Strategien auf die Standorte zuf¨ allig erfolgt. Es werden n Filialen mit Variante 1 und m Filialen mit Variante 2 u ¨berwacht. H¨ aufig wird man n und m gleich wählen. Wenn man hingegen zum Beispiel eine Vermutung dar¨ uber hat, welche Strategie besser ist, kann es sinnvoller sein, n und m verschieden zu wählen. Wir gehen im folgenden davon aus, dass die n + m an den verschiedenen Orten gemessenen prozentualen Umsatzänderungen Realisierungen normalverteilter Zufallsvariablen sind, wobei sich die Beobachtungen f¨ ur Strategie 2 2 ur Strategie 2 durch N (µY , σY )-verteilte Zu1 durch N (µX , σX )- und die f¨ fallsvariablen beschreiben lassen. Unter diesen Annahmen reduziert sich der ¨ Vergleich der beiden Uberwachungsstrategien also auf den Vergleich der er2 und σY2 . warteten Umsatzänderungen µX und µY oder der Varianzen σX W¨ ahrend µX und µY als mittlere Umsatzänderungen zu interpretieren sind, 2 und σY2 die dabei auftretende Unsicherheit, also ein Risiko. Daher messen σX 2 und σY2 zu vergleichen. Genau dies leistet der kann es von Interesse sein, σX F-Test zum Vergleich zweier Varianzen. Er u ¨ berpr¨ uft die Gleichheit der Varianzen normalverteilter Zufallsvariablen bei unbekanntem Erwartungswert.

5.2

Parametrische Tests

261

Der F-Test zum Vergleich zweier Varianzen erlaubt es zu u ¨berpr¨ ufen, ob die Streuung in zwei normalverteilten Grundgesamtheiten gleich ist. Er bedient sich also einer konkreten Verteilungsannahme und ist somit ein parametrisches Verfahren. Er wird oft vor der Durchf¨ uhrung eines t-Tests 244 zum Mittelwertvergleich durchgef¨ uhrt, um die Gleichheit der Varianzen zu u ¨berpr¨ ufen. Je nachdem, ob der F-Test die Gleichheit der Varianzen verwirft oder eine Gleichheit nicht ausschließt, verwendet man anschließend den t-Test f¨ ur den Fall unbekannter, verschiedener Varianzen 247 oder den t-Test f¨ ur den Fall unbekannter, aber gleicher Varianzen 249. Von unmittelbarem Interesse ist der hier beschriebene F-Test, wenn die Varianz als Maß eines Risikos oder einer Genauigkeit interpretiert wird. So kann die Pr¨ azision zweier Waagen, welche mathematisch definiert ist als der Kehrwert der Varianz, anhand wiederholter Messungen von Prototypen verglichen werden. Voraussetzungen F¨ ur die Anwendung des F-Tests zum Vergleich zweier Varianzen m¨ ussen folgende Voraussetzungen erf¨ ullt sein Gegeben sei ein Merkmal, das in zwei verschiedenen Grundgesamtheiten interessiert. Das Merkmal in Grundgesamtheit 1 sei durch eine Zufallsvariable X beschrieben mit Erwartungswert E(X) = µX und Varianz Var(X) = 2 . Entsprechend sei das Merkmal in Grundgesamtheit 2 beschrieben σX durch eine Zufallsvariable Y mit E(Y ) = µY und Var(Y ) = σY2 . Betrachtet werden die zugeh¨ origen Stichprobenvariablen X1 , . . . , Xn und Y1 , . . . , Ym , die jeweils f¨ ur sich genommen unabh¨ angig und identisch wie X bzw. Y verteilt sind. X1 , . . . , Xn folgen einer Normalverteilung mit Erwartungswert 2 2 , also Xi ∼ N (µX , σX ) f¨ ur i = 1, . . . , n. µX und Varianz σX oder die Stichprobe X1 , . . . , Xn ist mindestens vom Umfang n ≥ 30.

262


Y1 , . . . , Ym folgen einer Normalverteilung mit Erwartungswert ur i = 1, . . . , m. µY und Varianz σY2 , also Yi ∼ N (µY , σY2 ) f¨ oder die Stichprobe Y1 , . . . , Ym ist mindestens vom Umfang m ≥ 30. X1 , . . . , Xn , Y1 , . . . , Ym sind voneinander unabh¨ angig. 2 Zu testen sei eine Hypothese u ¨ ber die Varianzen σX und σY2 der Zufallsvariablen X und Y .

Hypothesen 2 ¨ Der F-Test wird zur Uberpr¨ ufung der Gleichheit der Varianzen σX und 2 ¨ ufung der folgenden Hypothesen σY herangezogen. Es ist eine Uberpr¨ möglich Problem (1): Problem (2): Problem (3):

B

2 2 = σY2 gegen H1 : σX σY2 = H0 : σX 2 2 ≤ σY2 gegen H1 : σX > σY2 H0 : σX 2 2 2 H0 : σX ≥ σY gegen H1 : σX < σY2


Beispiel Hypothesen

Es ist bekannt, dass Mineralwasser mit einem relativ hohen Magnesiumgehalt empfehlenswert ist. Ein langj¨ ahriger Vergleich zwischen zwei angebotenen Sorten ergab, dass beide im Mittel den gleichen Gehalt an Magnesium aufweisen. Außerdem kann man davon ausgehen, dass der Magnesiumgehalt von Mineralwasser eine normalverteilte Zufallsgr¨ oße ist. Ein unabh¨ angiges Institut soll nun pr¨ ufen, ob die beiden Sorten den Magnesiumgehalt auch gleichm¨ aßig gut sicherstellen. Dazu muss untersucht werden, ob f¨ ur beide Mineralw¨ asser die Varianz des Magnesiumgehalts gleich ist oder ob sich die beiden Sorten hierbei unterscheiden. 2 = σY2 H0 : σX

gegen

2 H 1 : σX = σY2

Ein Energieversorger muss sicherstellen, dass die Stromversorgung gleichmäßig geschieht. Die Stromspannung im Netz ist niemals ganz konstant, kleine Schwankungen sind u ¨blich, und die Stromspannung kann als

5.2

Parametrische Tests

263

normalverteilt angenommen werden. Große Schwankungen in der Spannung sind jedoch unerw¨ unscht. Ein großer Energieversorger vermutet, dass ein Marktkonkurrent ein Schwarzes Schaf“ ist und die Stromspannung ” nicht so gleichmäßig aufrecht erh¨ alt wie sein eigenes Unternehmen. Will er dem Konkurrenten dies nachweisen, so muss er untersuchen, ob die Variabilit¨ at in der Stromspannung beim Konkurrenten tats¨ achlich größer ist als bei ihm selbst. 2 ≤ σY2 H0 : σX

gegen

2 H 1 : σX > σY2

Ein Apotheker, der selbst Rezepturen anmischt, ben¨ otigt unter Anderem eine sehr präzise Waage. Das von der Waage angezeigte Gewicht ist eine Zufallsgr¨ oße, die man als normalverteilt betrachten kann. Ein Verteter f¨ ur Pr¨ azisionswaagen möchte den Apotheker dazu bringen, eine neue (teure) Waage zu kaufen. Der Apotheker wird sein altes Ger¨ at nur ersetzen, wenn der Vertreter nachweisen kann, dass das von ihm verkaufte neue Ger¨ at wirklich genauer misst. Er will daher nachweisen, dass die Varianz der Messungen bei der neuen Waage geringer ist als bei der alten des Apothekers. 2 ≥ σY2 H0 : σX

gegen

2 H 1 : σX < σY2

B Beispiel Kaufhauskette

B

Im Beispiel aus der Einf¨ uhrung 260 k¨ onnte als Vorinformation f¨ ur die Durchf¨ uhrung eines Lagevergleichs mit einem t-Test interessieren, ob die Va¨ riabilit¨ at der Umsatzänderungen sich unter den beiden Uberwachungsstrategien unterscheidet. W¨ are dies der Fall, so m¨ usste der Vergleich der Wirksamkeit beider Strategien mit Hilfe des t-Tests f¨ ur den Fall ungleicher uhrt werden. Sollte sich hingegen herausstellen, Varianzen 247 durchgef¨ dass man nicht auf Unterschiede in den Varianzen schließen kann, reicht die Anwendung des t-Tests f¨ ur den Fall gleicher Varianzen 249. Zu testen ist demzufolge 2 = σY2 H0 : σX

gegen

2 H 1 : σX = σY2 .

B

264


Teststatistik Der F-Test zum Vergleich zweier Varianzen beruht auf einem Vergleich der Stichprobenvarianzen. Sei X das arithmetische Mittel 46 der Stichprobenvariablen X1 , . . . , Xn aus Grundgesamtheit 1 und Y entsprechend das arithmetische Mittel der Stichprobenvariablen aus Grundgesamtheit 2. Die Stichprobenvarianzen der beiden Gruppen von Stichprobenvariablen sind dann 2 SX =

n 1 · (Xi − X)2 n − 1 i=1

und

SY2 =

m 1 · (Yi − Y )2 . m − 1 i=1

Die mit F bezeichnete Teststatistik errechnet sich als Quotient der Stichprobenvarianzen F =

2 SX . SY2

2 Unter der Annahme, dass σX = σY2 gilt, folgt die Teststatistik einer F Verteilung mit n − 1 und m − 1 Freiheitsgraden. Diese Verteilungsaussage gilt nur approximativ, wenn X1 , . . . , Xn und Y1 , . . . , Ym nicht normalverteilt sind.

Testentscheidung und Interpretation Die Testentscheidung kann anhand des kritischen Werts oder mit Hilfe des p-Werts herbeigef¨ uhrt werden. Entscheidungsregel basierend auf dem kritischen Wert In Abh¨ angigkeit vom gew¨ ahlten Signifikanzniveau α gelten f¨ ur die Testprobleme (1) bis (3) folgende Entscheidungsregeln: Die Nullhypothese H0 der Gleichheit der Varianzen wird zum Niveau α verworfen, falls ∗ ∗ oder F > Fn−1;m−1;1−α/2 (zweiseitig) Problem (1): F < Fn−1;m−1;α/2


∗ F > Fn−1;m−1;1−α

F
onnen die t∗9;0,95 gilt. Hier ist |tbeo | = 1, 6470 < 1, 8331, das heißt, wir k¨ Nullhypothese nicht verwerfen. Die Daten lassen nicht darauf schließen, dass ¨ die beiden Uberwachungsstrategien zu unterschiedlichen Erfolgen f¨ uhren. F¨ ur die Kaufhauskette bedeutet das: sie kann sich f¨ ur die preiswertere der beiden B Strategien entscheiden und diese in allen Filialen einf¨ uhren. B

Beispiel Mineralwasser

Im Beispiel 262 zum Vergleich der beiden Mineralwässer werden von beiden Sorten zuf¨ allig jeweils 20 Flaschen aus verschiedenen Abf¨ ullungen ausgewählt und ihr Magnesiumgehalt bestimmt. In der folgenden Tabelle sind die Ergebnisse der Untersuchung dargestellt (Angaben in mg/l): Mineralwasser 1 80,41 80,57

81,25 79,98

80,22 81,03

80,89 80,64

81,07 80,21

80,55 80,66

79,99 80,52

80,76 81,10

80,02 80,42

81,11 80,88

78,03 80,39

80,05 78,58

81,22 79,99

80,56 80,77

80,98 80,26

82,08 81,10

80,53 80,21

79,42 80,85

Mineralwasser 2 80,42 80,30

82,24 81,97

Es sollte untersucht werden, ob f¨ ur beide Mineralwassersorten die Varianz des Magnesiumgehalts gleich ist oder ob sich die beiden Sorten hierbei unterscheiden. Wir wollen den Test hier zum Niveau α = 0, 05 durchf¨ uhren. Da der Magnesiumgehalt von Mineralwasser als normalverteilte Zufallsgr¨ oße angesehen werden kann, ist der F-Test zum Vergleich zweier Varianzen f¨ ur dieses Problem geeignet. Da es hier nur darum geht, gegebenenfalls einen Unterschied in den Varianzen nachzuweisen, ist das Testproblem 2 = σY2 H0 : σX

gegen

2 H 1 : σX = σY2

2 angemessen. Dabei bezeichnet σX die Varianz des Magnesiumgehalts in der 2 Mineralwassersorte 1, σY die entsprechende Varianz der Sorte 2.

5.2

Parametrische Tests

269

Zur Berechnung der Teststatistik bestimmen wir zun¨ achst die Varianzen in den beiden Stichproben 20

x = 80, 614

⇒

s2X =

1 (xi − 80, 614)2 = 0, 1579 19 i=1

y = 80, 4975

⇒

s2Y =

1 (yj − 80, 4975)2 = 1, 0847. 19 j=1

und 20

Der beobachtete Wert fbeo der Teststatistik ergibt sich als fbeo =

0, 1579 ≈ 0, 1456. 1, 0847

∗ ∗ ∗ = F19;19;0,975 = 2, 5264 und Fn−1;m−1;α/2 = F¨ ur α = 0, 05 ist Fn−1;m−1;1−α/2 ∗ ∗ F19;19;0,025 = 1/F19;19;0,975 = 1/2, 5264 = 0, 3958.

Wegen ∗ fbeo = 0, 1456 < F19;19;0,025 = 0, 3958

onnen wird die Nullhypothese H0 zum Niveau α = 0, 05 verworfen. Wir k¨ daraus schließen, dass die beiden Mineralwässer den mittleren Magnesiumgehalt nicht in gleicher Weise genau einhalten. Die Varianzen des Merkmals Magnesiumgehalt unterscheiden sich signifikant zwischen den beiden MineB ralwassersorten. Der F-Test zum Vergleich mehrerer Stichproben

Im Beispiel 263 ging es um die Eind¨ ammung von Ladendiebstahl durch ¨ ¨ verstärkte Uberwachung der Kunden. Es wurden zwei Uberwachungsvarianten ausprobiert. Stellen wir uns vor, dass statt zwei Varianten drei zur Verf¨ ugung stehen, n¨ amlich Variante 1:

Video¨ uberwachung, mehrere Angestellte beobachten Monitore, als Diebe Verdächigte werden an das Personal im Verkaufsraum gemeldet.

Variante 2:

Kaufhausdetektive halten sich, als Kunden getarnt, im Verkaufsraum auf und stellen verd¨ achtige Personen direkt.

270


Variante 3:

Alle Waren werden mit codierten Aufklebern versehen, die von Lesegeräten an den Ausgängen interpretiert werden k¨ onnen. Beim Bezahlen der Ware an der Kasse werden die Codes freigeschaltet, bezahlte Ware passiert die Lesegeräte ohne Alarm. Nicht bezahlte Ware hingegen f¨ uhrt zu einem lauten Alarmsignal.

¨ Wiederum ist die Umsatzsteigerung unter Einsatz der Uberwachung im Ver¨ gleich zum Umsatz ohne verstärkte Uberwachung ein Indikator f¨ ur die Wirksamkeit der Maßnahme. Da die Einf¨ uhrung der Maßnahmen unterschiedlich teuer ist, interessiert die Kaufhauskette in einem ersten Schritt, ob sich die drei Maßnahmen in ihrer Wirksamkeit unterscheiden. ¨ Testweise werden die drei Uberwachungsstrategien in sechs (Strategie 1), f¨ unf (Strategie 2) bzw. sieben (Strategie 3) zufällig ausgewählten Kaufh¨ ausern der Kette f¨ ur eine Woche eingef¨ uhrt. Von Interesse ist, ob sich die Umsatzände¨ rungen (jeweils im Vergleich zur Vorwoche) unter den drei Uberwachungsvarianten unterscheiden. Wie im Beispiel Kaufhauskette 263 266 können wir unterstellen, dass es sich bei den zugrunde liegenden Zufallsvariablen um normalverteilte Gr¨ oßen handelt. In einem solchen Fall ist der F-Test zum Vergleich mehrerer Stichproben der angemessene Test, um die betrachtete Frage zu beantworten.

Der F-Test zum Vergleich mehrerer Stichproben untersucht, ob f¨ ur ein Merkmal die Beobachtungen aus mehr als zwei unabh¨ angigen Stichproben aus derselben zugrunde liegenden Normalverteilung stammen k¨ onnten. Voraussetzung ist, dass die betrachteten Normalverteilungen alle dieselbe (unbekannte) Varianz aufweisen. Daher untersucht man mit dem F-Test tats¨ achlich nur, ob die Erwartungswerte des interessierenden Merkmals in k betrachteten Grundgesamtheiten (k > 2) gleich sind oder ob sie sich unterscheiden. Der F-Test zum Vergleich mehrerer Stichproben ist ein parametrischer Test, er ist eine Erweiterung des t-Tests im Zweistichprobenfall 244. Im Gegensatz zum t-Test unterscheidet man beim F-Test jedoch nicht weiter in die Spezialf¨ alle bekannter und unbekannter Varianzen. Wie sein nichtparametrisches Gegenst¨ uck, der Kruskal-Wallis-Test 335, deckt der F-Test nur auf, ob es Lageunterschiede zwischen den betrachteten Verteilungen gibt. Er weist nicht aus, zwischen welchen der Verteilungen diese Unterschiede gegebenen-

5.2

Parametrische Tests

271

falls bestehen. Hierzu m¨ ussten paarweise Vergleiche von je zwei Stichproben auf Lageunterschiede durchgef¨ uhrt werden. Zu diesem Zweck existieren so genannte multiple Testprozeduren, die insbesondere daf¨ ur sorgen, dass bei mehreren statistischen Tests am gleichen Datenmaterial der Fehler 1. Art f¨ ur die insgesamt getroffene Aussage unter Kontrolle bleibt. Voraussetzungen F¨ ur die Anwendung des F-Tests zum Vergleich mehrerer Stichproben m¨ ussen folgende Voraussetzungen erf¨ ullt sein Betrachtet wird ein interessierendes Merkmal X in k Grundgesamtheiten. Die Zufallsvariablen X1 , X2 , . . . , Xk der k Grundgesamtheiten sind voneinander stochastisch unabh¨ angig. Die Zufallsvariable Xi , i = 1, . . . , k besitzt Erwartungswert E(Xi ) = µi und Varianz Var(Xi ) = σ 2 . Die Varianz σ 2 ist unbekannt, aber in allen betrachteten Grundgesamtheiten gleich. Die Zufallsvariable Xi , i = 1, . . . , k ist normalverteilt, Xi ∼ N (µi , σ 2 ) oder die i-te Stichprobe Xi1 , Xi2 , . . . Xini ist mindestens von Umfang ni ≥ 30, i = 1, . . . , k. Die Stichprobenvariablen Xi1 , Xi2 , . . . Xini , i = 1, . . . , k, sind voneinander unabh¨ angig und jeweils identisch verteilt wie Xi , wobei ni den Stichprobenumfang der i-ten Stichprobe bezeichnet. Zu testen sei eine Hypothese u ¨ ber die Gleichheit der Erwartungswerte µ1 , µ2 , . . . , µk der Zufallsvariablen X1 , X2 , . . . , Xk . Damit wird unterstellt, dass die Verteilungen des Merkmals in den k Grundgesamtheiten sämtlich Normalverteilungen sind, die die gleiche Streuung besitzen, sich aber in ihrer Lage unterscheiden k¨ onnen.

272


Hypothesen Der F-Test zum Vergleich mehrerer Stichproben u ¨ berpr¨ uft global die Hypothese, ob alle Stichproben aus der gleichen Normalverteilung stammen k¨ onnen. Er kann nur aufdecken, ob sich mindestens zwei der Verteilungen in ihrer Lage unterscheiden. Er entscheidet nicht, zwischen welchen Verteilungen und in welche Richtung diese Unterschiede bestehen. Damit sind einseitige Hypothesen ausgeschlossen. Das Testproblem formuliert sich daher wie folgt H0 : µ1 = µ2 . . . = µk

gegen

H1 : µi = µj

f¨ ur mindestens eine Kombination (i, j), i = j. Unter der Nullhypothese haben die Zufallsvariablen X1 , . . . , Xk identische Verteilungsfunktionen. Unter der Alternativhypothese wird angenommen, dass sich f¨ ur mindestens ein Paar i und j, 1 ≤ i, j, ≤ k, die zugehörigen Normalverteilungen bez¨ uglich ihrer Lage unterscheiden.

B

Beispiel Hypothesen

Es wird vermutet, dass K¨ uhe unterschiedliche Mengen an Milch geben, je nachdem, ob sie im Stall Musik zu hören bekommen oder nicht. Auch die Art der Musik k¨ onnte dabei eine Rolle spielen. In einem Experiment soll dies geklärt werden. Dazu werden in einem landwirtschaftlichen Großbetrieb insgesamt 15 Milchk¨ uhe zuf¨ allig ausgewählt und ihre Milchleistung (in Litern pro Tag) festgehalten. Anschließend werden die Tiere in speziellen Ställen untergebracht. In den Stall 1 kommen f¨ unf der K¨ uhe, um einige Wochen lang t¨ aglich klassische Musik zu hören. Stall 2 werden sechs K¨ uhe zugeordnet, die Rockmusik zu h¨ oren bekommen. Stall 3 dient als Kontrollstall“, indem die vier dort untergebrachten Tiere ohne Musik” beschallung stehen. Wieder wird die Milchleistung der Tiere erhoben. Die Unterschiede zwischen der Leistung in der experimentellen und in der Standardsituation geben Auskunft dar¨ uber, ob die Musikbeschallung einen Einfluss auf die Milchleistung hat. H0 : µ1 = µ2 = µ3

gegen

H1 : µi = µj

f¨ ur mindestens eine Kombination (i, j), i = j. Die Haltbarkeit von Lebensmitteln h¨ angt unmittelbar mit den sich auf den Lebensmitteln befindlichen Bakterien zusammen, welche letztlich dazu

5.2

Parametrische Tests

273

f¨ uhren, dass das Lebensmittel verdirbt. Zur Verlängerung der Haltbarkeit von Fleisch wird eine Studie durchgef¨ uhrt, in welcher das Fleisch mit radioaktiven Strahlen behandelt wird. Dabei handelt es sich um Mengen, die f¨ ur den Menschen als ungef¨ ahrlich angenommen werden k¨ onnen. Die Strahlung wird in drei unterschiedlichen Dosen verabreicht. Zudem gibt es eine Kontrollgruppe, bei der das Fleisch keinerlei Strahlung erh¨ alt. Gemessen wird die Haltbarkeit des Fleisches anhand der Anzahl der im Fleisch befindlichen Bakterien. H0 : µ1 = µ2 = µ3 = µ4

gegen

H1 : µi = µj

f¨ ur mindestens eine Kombination (i, j), i = j. B Beispiel (Fortsetzung 263 266) Kaufhauskette

B

Im Beispiel 260 aus der Einf¨ uhrung interessiert sich die Kaufhauskette daf¨ ur, ob drei Strategien unterschiedlich wirksam sind. Daher testet sie die Hypothese, dass die drei Strategien gleich gut wirken, gegen die Alternative, dass es Unterschiede in der Wirksamkeit der Maßnahmen gibt H0 : µ1 = µ2 = µ3

gegen

H1 : µ1 = µ2 oder µ1 = µ3 oder µ2 = µ3 . B

Der F-Test zum Vergleich mehrerer Stichproben untersucht, wie stark die Mittelwerte der einzelnen Stichproben vom Gesamtmittelwert aller Stichproben abweichen. Dies geschieht basierend auf der Variabilit¨ at der Stichprobenmittelwerte untereinander, welche verglichen wird mit der Variabilität innerhalb der Stichproben. Ist die Variabilit¨ at zwischen den Stichprobenmittelwerten zu groß im Vergleich zur Variabilit¨ at innerhalb der einzelnen Stichproben, deutet dies auf Lageunterschiede zwischen den zugrunde liegenden Verteilungen in den Grundgesamtheiten hin. Teststatistik Die Teststatistik ist definiert durch k 1 2 i=1 ni · (X i − X) k−1 · . F = 1 k ni 2 i=1 j=1 (Xij − X i ) N −k ·

274


Dabei ist N

=

k

ni der betrachtete Gesamtumfang

i=1

Xi

=

ni 1 · Xi der Mittelwert der Stichprobenvariablen ni j=1 j

aus der i-ten Grundgesamtheit

X

=

k ni 1 · Xi der Gesamtmittelwert. N i=1 j=1 j

Sind die Erwartungswerte µ1 , . . . , µk in allen Grundgesamtheiten gleich, das heißt, die Nullhypothese H0 gilt, so folgt die Teststatistik einer F Verteilung mit k − 1 und N − k Freiheitsgraden. Diese Verteilungsaussage gilt nur approximativ, wenn die Zufallsvariablen X1 , . . . , Xk nicht normalverteilt sind.

Testentscheidung und Interpretation In Abh¨ angigkeit des Niveaus α gilt die folgende Entscheidungsregel: Die Nullhypothese H0 wird zu einem vorgegebenen Signifikanzniveau α verworfen, falls ∗ F > Fk−1;N −k;1−α . ∗ Dabei ist Fk−1;N −k;1−α das (1 − α)-Quantil der F -Verteilung mit k − 1 und N − k Freiheitsgraden, und F bezeichnet die Teststatistik, deren realisierter Wert basierend auf den Beobachtungen x11 , . . . , x1n1 , . . . , xk1 , . . . , xknk bestimmt wird. Wird die Nullhypothese verworfen, so kann geschlossen werden, dass es einen Unterschied bez¨ uglich des Erwartungswerts des interessierenden Merkmals in mindestens zwei der betrachteten Grundgesamtheiten gibt.

B

Beispiel (Fortsetzung 263 266 273) Kaufhauskette

In der Fortsetzung des Beispiels Kaufhauskette aus der Einf¨ uhrung 269 ¨ werden die drei Uberwachungsstrategien in den sechs (Strategie 1), f¨ unf (Strategie 2) bzw. sieben (Strategie 3) zufällig ausgewählten Kaufh¨ ausern einge¨ setzt. Die Zuweisung der Uberwachungsstrategien zu den Filialen erfolgt nach einem Zufallsprinzip, um den Einfluss anderer Effekte auszuschließen. Man

5.2

Parametrische Tests

275

beobachtet die folgenden prozentualen Umsatz¨ anderungen (jeweils gegen¨ uber ¨ der Vorwoche, in der keine besondere Uberwachung stattfand) Variante 1 Variante 2 Variante 3

4,88 5,12 4,81

2,37 3,56 3,44

6,32 1,82 4,08

5,87 2,77 3,79

3,92 3,18 4,21

4,36 4,01

3,66

¨ Da die Filialen zuf¨ allig ausgewählt und die Uberwachungsvarianten ebenfalls zuf¨ allig zugewiesen wurden, kann man davon ausgehen, dass die zugrunde liegenden Zufallsvariablen unabh¨ angig sind. Durch die Erhebung prozentualer Umsatzänderungen liegen alle Zufallsvariablen auf der gleichen Skala vor und sind damit vergleichbar. Insbesondere k¨ onnen wir deshalb annehmen, dass innerhalb der einzelnen Grundgesamtheiten (mit Strategie 1, 2 bzw. 3 u ¨berwachte Filialen) die Umsatzänderungen jeweils identisch verteilt sind. Es spricht nichts gegen eine Normalverteilungsannahme. ¨ Zu testen ist, ob sich die Umsatzänderungen unter den verschiedenen Uberwachungsstrategien im Schnitt unterscheiden H0 : µ1 = µ2 = µ3

H1 : µ1 = µ2 oder µ1 = µ3 oder µ2 = µ3 .

gegen

Das Signifikanzniveau soll α = 0, 05 betragen. Die arithmetischen Mittelwerte 46 in den drei betrachteten Gruppen errechnen sich zu x1 = 4, 62,

x2 = 3, 29,

x3 = 4.

Weiter ist der Gesamtstichprobenumfang N

=

3

ni = 6 + 5 + 7 = 18

i=1

und x =

3 ni 1 · xi = 72, 17/18 ≈ 4, 01 N i=1 j=1 j

der Gesamtmittelwert. Damit ergibt sich als realisierter Wert der Teststatistik k 1 2 i=1 ni · (xi − x) k−1 · fbeo = 1 k ni 2 i=1 j=1 (xij − xi ) N −k · Zähler: =

1 · 6 · (4, 62 − 4, 01)2 + 5 · (3, 29 − 4, 01)2 + 7 · (4 − 4, 01)2 2 0, 8906 1 · (0, 3721 + 0, 5184 + 0, 0001) = = 0, 4453 2 2

276


1 · (4, 88 − 4, 62)2 + . . . + (4, 36 − 4, 62)2 + (5, 12 − 3, 29)2 15 + . . . + (3, 18 − 3, 29)2 + (4, 81 − 4)2 + . . . + (3, 66 − 4)2

Nenner:

=

gesamt :

17, 1854 1 · (10, 1402 + 5, 8652 + 1, 18) = ≈ 1, 1457 15 15 0, 4453 ≈ 0, 3887. 1, 1457

Die realisierte Teststatistik ergibt sich also als fbeo = 0, 3887. Der kritische ∗ = 3, 6823. Wert ist F2;15;0,95 Wegen ∗ fbeo = 0, 3887 < F2;15;0,95 = 3, 6823

kann die Nullhypothese H0 zum Niveau α = 0, 05 nicht verworfen werden. ¨ Die Daten konnten keinen Hinweis darauf geben, dass die drei UberwachungsB strategien zu unterschiedlichen Erfolgen f¨ uhren. B

Beispiel (Fortsetzung 272) Milchleistung bei Musik

Im Beispiel zur Musikbeschallung von Milchk¨ uhen 272 wurden folgende Unterschiede zwischen der Leistung in der experimentellen und in der Standardsituation f¨ ur die drei St¨ alle notiert Stall 1 Stall 2 Stall 3

0,5 0,2 -0,3

0,7 -0,2 0,2

1,2 -0,3 0,2

0,1 -0,5 -0,1

0,6 -0,8

0,1

Die Unterschiede in den Leistungen können wir als Realisierungen normalverteilter Zufallsvariablen betrachten. Die Unterschiede in Stall 1 sind dabei Realisationen von X1 , dem Unterschied in der Milchleistung zwischen der Berieselung mit klassischer Musik und ohne Musikbeschallung. Entsprechend beschreibt f¨ ur Stall 2 X2 den Unterschied in der Leistung, wenn die Tiere Rockmusik h¨ oren bzw. keine Musik. Die Zufallsvariable X3 beschreibt die Differenz in der durchschnittlichen Milchmenge pro Tag zwischen der Experimentsituation ohne Musik und der Standardsituation ohne Musik. ¨ Wir wollen wissen, ob es einen Unterschied in der Anderung der Milchmenge gibt, je nachdem ob verschiedene Musik bzw. keine Musik gespielt wird. Bezeichnet man den erwarteten Unterschied in der Milchleistung f¨ ur Stall i mit

5.2

Parametrische Tests

277

µi , so wollen wir also testen H0 : µ1 = µ2 = µ3

gegen

H1 : µi = µj

f¨ ur mindestens ein Paar (i, j). Als Signifikanzniveau w¨ ahlen wir α = 0, 1. Zur Berechnung der Teststatistik bestimmen wir zun¨ achst die arithmetischen Mittelwerte der Leistungsunterschiede in den drei Ställen x1 = 0, 62,

x2 = −0, 25,

x3 = 0.

Außerdem ist der Gesamtstichprobenumfang N

=

3

ni = 5 + 6 + 4 = 15

i=1

und x

=

3 ni 1 · xi = 1, 6/15 ≈ 0, 11 N i=1 j=1 j

der Gesamtmittelwert. F¨ ur die Teststatistik erhalten wir k 1 2 i=1 ni · (xi − x) k−1 · fbeo = 1 k ni 2 i=1 j=1 (xij − xi ) N −k · 1 · 5 · (0, 62 − 0, 11)2 + 6 · (−0, 25 − 0, 11)2 2 + 4 · (0 − 0, 11)2

Zähler:

= Nenner:

=

zusammen :

1 · (0, 3721 + 0, 5184 + 0, 0001) = 1, 06325 2 1 · (0, 5 − 0, 62)2 + . . . + (0, 6 − 0, 62)2 + (0, 2 + 0, 25)2 12 + . . . + (0, 1 + 0, 25)2 + (−0, 3)2 + . . . + (−0, 1)2 1, 503 1 · (0, 628 + 0, 695 + 0, 18) = = 0, 12525 12 12 1, 06325 ≈ 8, 4890. 0, 12525

Der realisierte Wert fbeo der Teststatistik ist fbeo = 8, 4890. Der kritische ∗ = 2, 8068. Wert ist F2;12;0,9

278


Damit ist ∗ F2;12;0,9 = 2, 8068 < fbeo = 8, 4890,

und die Nullhypothese H0 kann zum Niveau α = 0, 1 verworfen werden. Die Milchleistung der K¨ uhe unterscheidet sich signifikant, je nachdem, ob und B welche Musik sie im Stall zu hören bekommen. Der exakte Binomialtest

Der Binomialtest ist ein Test u ¨ ber die Erfolgswahrscheinlichkeit p einer bernoulliverteilten 38 Zufallsvariable X. Eine Biologin m¨ ochte u ¨berpr¨ ufen, wie hoch der Anteil an Lachsforellen in einem Teich ist, indem sowohl Lachs- als auch Regenbogenforellen leben. Sie kann dazu nicht den ganzen Teich leer fischen, sondern entnimmt stattdessen eine Stichprobe vom Umfang n. Bei jedem gefangenen Tier bestimmt sie, ob es eine Lachsforelle ist oder nicht. Sie f¨ uhrt also n unabh¨ angige Bernoulli-Experimente 38 mit den Ausgängen Erfolg (Lachsforelle) und Misserfolg (keine Lachsforelle) durch. Die zugehörigen Stichprobenvariaangig und identisch bernoulliverteilt, blen X1 , . . . , Xn sind demnach unabh¨ Xi ∼ Bin(1; p), und die Erfolgswahrscheinlichkeit p entspricht dem gesuchten Anteil an Lachsforellen im Teich.Der Binomialtest beruht auf der Summe der n Stichprobenvariablen, i=1 Xi , die eine Binomialverteilung besitzt, woraus sich der Name des Tests ableitet. Da die Erfolgswahrscheinlichkeit p auch als Anteil der Objekte in der Grundgesamtheit betrachtet werden kann, die eine bestimmte Eigenschaft besitzen (hier: Lachsforelle), spricht man beim Binomialtest auch von einem Test u ¨ber einen Anteil. Voraussetzungen Das zu untersuchende Merkmal X muss dichotom sein, das heißt es besitzt genau zwei Merkmalsauspr¨ agungen. Zur Bestimmung der Anteile dieser Merkmalsausprägungen in der Grundgesamtheit wird eine unabh¨ angige Stichprobe x1 , x2 , ..., xn vom Umfang n gezogen, wobei die xi Realisierungen einer bernoulliverteilten Zufallsvariablen X mit Parameter p sind. Zu testen sei eine Hypothese u ¨ ber den Anteil p einer Merkmalsauspr¨ agung einer dichotomen Zufallsvariablen X.

5.2

Parametrische Tests

279

Im eingef¨ uhrten Beispiel w¨ urde unabh¨ angiges Ziehen bedeuten, dass vor dem Einfangen des n¨ achsten Tieres das vorige wieder ins Wasser gesetzt und ausreichend lange gewartet wird. Hypothesen Der unbekannte zu u ¨berpr¨ ufende Parameter ist p, w¨ ahrend mit p0 der unter der Nullhypothese unterstellte Wert bezeichnet wird. Das Testproblem lautet dann in Abh¨ angigkeit der gew¨ unschten Alternativhypothese Problem (1): Problem (2): Problem (3):

H0 : p = p0 H0 : p ≤ p0 H0 : p ≥ p0

gegen gegen gegen

H1 : p = p0 H1 : p > p0 H1 : p < p0


Problem (1) beleuchtet die Frage, ob der Anteil einem Zielwert entspricht oder nicht, während Problem (2) sich um den Nachweis dreht, dass der Anteil tatsächlich gr¨ oßer ist als unter der Nullhypothese angenommen wird. Problem (3) wird demzufolge aufgestellt, wenn es das Ziel ist zu zeigen, dass der wahre Anteil kleiner ist als unter der Nullhypothese angenommen.

Beispiel Hypothesen

B

Eine Biologin m¨ ochte wissen, wie sich der Anteil an Lachsforellen und Regenbogenforellen in einem Teich zueinander verhält. Getestet wird, ob es genauso viele Lachs- wie Regenbogenforellen gibt, das heißt H0 : p = 0, 5

gegen

H1 : p = 0, 5.

Dabei bezeichnet p die Erfolgswahrscheinlichkeit, eine Lachsforelle aus dem Teich zu ziehen. Ein Gesch¨ aftsf¨ uhrer u ¨berpr¨ uft eine eingegangene Warenlieferung und möchte sicherstellen, dass die gelieferte Ware keinen höheren Ausschussanteil als 10% aufweist. Es wird getestet H0 : p ≤ 0, 1

gegen

H1 : p > 0, 1.

Dabei steht p f¨ ur die Wahrscheinlichkeit, ein defektes Teil in der Lieferung zu finden. Die vom Bundesministerium 2003 eingef¨ uhrte Aufkl¨ arungskampagne, welche auf die gesundheitlichen Gefahren des Rauchens hinweist, hat zu aus-

280


dr¨ ucklichen Warnhinweisen auf Zigarettenschachteln gef¨ uhrt. Um die Effektivit¨ at dieser Kampage zu u ¨ berpr¨ ufen, soll eine Studie durchgef¨ uhrt werden. Hat fr¨ uher jeder zweite Jugendliche im Alter zwischen 12 und 16 Jahren mindestens einmal eine Zigarette geraucht, so erhofft man sich, dass sich diese Zahl mit Hilfe der Aufkl¨ arungskampage verringert hat. Hier soll also getestet werden H0 : p ≥ 0, 5

gegen

H1 : p < 0, 5.

Mit p wird die Wahrscheinlichkeit bezeichnet, dass ein Jugendlicher zwischen 12 und 16 Jahren das Rauchen zumindest einmal ausprobiert. B Teststatistik Sei mit M die interessierende Merkmalsausprägung der Zufallsvariablen X bezeichnet, die mit Wahrscheinlichkeit p eintritt. Die Stichprobenvariablen X1 , X2 , ..., Xn werden wie folgt definiert 1 falls i-tes Objekt Auspr¨ agung M zeigt, Xi = 0 falls i-tes Objekt nicht Auspr¨ agung M zeigt. Die Teststatistik ist definiert durch Y =

n

Xi ,

i=1

wobei Y unter der Nullhypothese binomialverteilt ist mit Parametern n und p0 , Y ∼ Bin(n; p0 ).

Testentscheidung Die Testentscheidung wird basierend auf den Quantilen der Binomialveruhrt. F¨ ur einen Wert α mit teilung mit Parametern n und p0 herbeigef¨ ur die gilt 0 < α < 1 bezeichne qα;U die kleinste ganze Zahl f¨ P(Y ≤ qα;U ) = P(Y = 0) + P(Y = 1) + . . . + P(Y = qα;U ) > α oßte ganze Zahl mit und qα;O die gr¨ P(Y ≥ qα;O ) = P(Y = n) + P(Y = n − 1) + . . . + P(Y = qα;O ) > α.

5.2

Parametrische Tests

281

Die Wahrscheinlichkeit errechnet sich wie folgt n · py0 · (1 − p0 )n−y , y = 0, . . . , n. P(Y = y) = y Die Nullhypothese H0 wird dann zum Niveau α abgelehnt, falls Problem (1): Y < qα/2;U oder Y > qα/2;O

(zweiseitig)

Problem (2):

Y > qα;O

(rechtsseitig)

Problem (3):

Y < qα;U

(linksseitig)

Der exakte Binomialtest ist konservativ 204, das heißt, das Niveau α wird nicht immer ganz ausgeschöpft. F¨ ur große Stichprobenumf¨ ange ist es sinnvoll, den approximativen Binomialtest 285 zu verwenden, da die Berechnung der Quantile mit gr¨ oßer werdendem Stichprobenumfang n aufw¨ andiger wird. Beispiel (Fortsetzung 182) Sport

B

In Kapitel 4 wurden die Fehlerwahrscheinlichkeiten f¨ ur den Fehler 1. Art 182 und den Fehler 2. Art 183, welche beim Testen von Hypothesen auftreten k¨ onnen, besprochen. Das Beispiel Sport diente dabei zur Illustration, dass der Fehler 1. Art kontrollierbar ist, in dem man sich eine obere Schranke f¨ ur die Wahrscheinlichkeit seines Auftretens vor der Durchf¨ uhrung des Tests vorgeben kann, während dies f¨ ur den Fehler 2. Art nicht zutrifft. Dieser hängt insbesondere von Parameterwert aus der Alternative ab, was wir auch grafisch dargestellt hatten. Die der Grafik zugrunde liegenden Berechnungen sollen nun an dieser Stelle nachgeholt werden. Dazu berechnen wir zun¨ achst den Fehler 1. Art:

α = P(Fehler 1. Art)

=

P(lehne H0 ab |H0 ist wahr)

P (Z > 19 | p = 0, 5) 30 30 · (0, 5)z · (1 − 0, 5)30−z = z z=20

=

=

0, 0494 ≈ 0, 05 ,

wobei mit Z die Anzahl der Sporttreibenden unter den befragten Studierenden bezeichnet wurde.

282


Der Fehler 2. Art berechnet sich f¨ ur einen Wert aus der Alternative von p = 0, 55 als

P(Fehler 2. Art | p = 0, 55)

= P(lehne H0 nicht ab | p = 0, 55) P(Z ≤ 19 | p = 0, 55) 19 30 · (0, 55)z · (1 − 0, 55)30−z = z z=0

=

≈

0, 865.

F¨ ur p = 0, 80, welcher wesentlich weiter von dem unter der Nullhypothese postulierten Wert von p = 0, 5 entfernt ist, wird der Fehler 2. Art entscheidend kleiner:

P(Fehler 2. Art | p = 0, 80)

= P(lehne H0 nicht ab | p = 0, 80) P(Z ≤ 19 | p = 0, 80) 19 30 · (0, 80)z · (1 − 0, 80)30−z = z z=0

=

≈

0, 026. B

B

Beispiel Jaguare und Panter

In der Familie der Jaguare gibt es Tiere, die anstelle eines hellen Fells mit schwarzen Flecken ein komplett schwarzes Fell besitzen. Wir kennen sie als Panter. In einem großen Reservat in Mittelamerika wurde der Anteil der Panter in den vergangenen Jahren konstant mit 25% gesch¨ atzt. Wildh¨ uter haben jedoch seit ungef¨ ahr einem Jahr vermehrt Panter gesichtet. Nun soll die Nullhypothese getestet werden, dass in dem Reservat höchstens 25% aller Jaguar Panter sind. Als Signifikanzniveau wird α = 0, 05 gewählt. Die Observierung der Tiere wird dabei so durchgef¨ uhrt, dass die ben¨ otigte Annahme der Unabh¨ angigkeit der Beobachtungen gerechtfertigt werden kann. Das Testproblem lautet damit H0 : p ≤ 0, 25

gegen

H1 : p > 0, 25.

5.2

Parametrische Tests

283

Es handelt sich also um ein rechtsseitiges Testproblem. Die interessierende Merkmalsauspr¨ agung M ist, dass der Jaguar schwarz ist. Von sieben beobachteten Tieren waren sechs schwarz. Die realisierte Teststatistik ergibt sich somit zu 7 xi = 6. ybeo = i=1

Die Nullhypothese wird zum Niveau α verworfen, falls Y > qα;O ist, wobei qα;O der kritische Wert einer Binomialverteilung mit n = 7 und p = 0, 25 achst die Wahrscheinlichkeiten ist. Zur Bestimmung von qα;O stellt man zun¨ P(Y = y) zusammen y P(Y = y)

0 0,1355

1 0,3114

2 0,3015

3 0,1730

4 0,0577

5 6 0,0116 0,0012

7 0, 0001

Je mehr Panter in der Stichprobe sind, desto st¨ arker sprechen die Daten gegen die Nullhypothese. Zur Bestimmung von qα;O beginnt man damit, den kritischen Bereich ab y = 7 aufzuf¨ ullen. Dies geschieht so lange wie die Wahrscheinlichkeit, dass Y in diesen Bereich f¨ allt, noch kleiner oder gleich α = 0, 05 ist. Dabei bestimmt man diese Wahrscheinlichkeit f¨ ur p = 0, 25: P(Y = 7) = 0, 0001 ≤ 0, 05, das heißt, 7 geh¨ ort in den kritischen Bereich. P(Y ≥ 6) = P(Y = 6) + P(Y = 7) = 0, 0014 ≤ 0, 05, das heißt, 6 gehört ebenfalls in den kritischen Bereich. P(Y ≥ 5) = P(Y = 5) + P(Y ≥ 6) = 0, 0129 ≤ 0, 05, das heißt, 5 gehört in den kritischen Bereich. P(Y ≥ 4) = P(Y = 4) + P(Y ≥ 5) = 0, 0706 > 0, 05, das heißt, 4 gehört nicht mehr in den kritischen Bereich, y = 4 ist nämlich die gr¨ oßte ganze Zahl, f¨ ur die P(Y ≥ y) > α = 0, 05 gilt. Demnach ist der kritische Wert qα;O = 4, und da der aus den Daten resultierende Wert der Teststatistik ybeo = 6 > 4 ist, kann die Nullhypothese H0 zum Niveau α = 0, 05 abgelehnt werden. Der Anteil an Pantern im Reservat B scheint also höher als 25% zu sein.

284

B


Beispiel Unterhaltungsshow

Ein Kandidat einer abendlichen Unterhaltungsshow wettet, dass er bei mindestens 90% aller Handyklingelmelodien den zugeh¨ origen Titel und Interpreten sowie das Herstellerfabrikat erkennt. In der Show werden ihm 15 verschiedene Melodien vorgespielt, von denen er mindestens 13 richtig erkennen muss, um die Wette zu gewinnen. Ein an Statistik interessierter Fernsehzuschauer u ¨ berlegt, ob diese Bedingung sinnvoll gew¨ ahlt ist. Er nimmt an, dass p die Wahrscheinlichkeit ist, mit welcher der Kandidat eine zuf¨ allig eingespielte Melodie richtig erkennt. Auch sei die komplette Anzahl an verf¨ ugbaren Melodien so groß, dass die Unabh¨ angigkeitsannahme gerechtfertigt ist. Betrachtet wird dann das Testproblem H0 : p ≥ 0, 9

gegen

H1 : p < 0, 9

zu einem Niveau α = 0, 05. Seien X1 , . . . , X15 die Antworten des Kandidaten zur i-ten Klingelmelodie, i = 1, . . . , 15. Die uns interessierende Merkmalsauspr¨ agung ist die richtige Antwort, kodiert mit 1, w¨ ahrend eine falsche Antwort mit 0 kodiert ist. Y bezeichne dann die Gesamtzahl der richtigen Antworten. Da hier ein linksseitiger Test vorliegt, muss der kritische Wert ur die qα;U so bestimmt werden, dass qα;U die kleinstmögliche ganze Zahl ist, f¨ gilt P(Y ≤ qα;U ) > 0, 05. Dabei wird diese Wahrscheinlichkeit berechnet f¨ ur Y ∼ Bin(15; 0, 9). Es ist möglich, diesen Wert durch Berechnen und Aufsummieren von P(Y = 0), P(Y = 1), P(Y = 2), . . . , P(Y = 15) zu erhalten. In unserem Fall ist es jedoch einfacher, die kleinstm¨ ogliche ganze Zahl zu bestimmen, f¨ ur die gilt P(Y > qα;U ) ≤ 0, 95 , was äquivalent zur obigen Vorgehensweise ist. Dazu berechnen wir f¨ ur die unter der Nullhypothese angenommene Binomialverteilung die folgenden Wahrscheinlichkeiten y P(Y = y) P(Y > y)

15 0,2059 0

14 0,3432 0,2059

13 0,2669 0,5490

12 0,1285 0,8159

11 0,0428 0,9444

10 0,0105 0,9873

... ... ...

Der kleinste Wert f¨ ur y, f¨ ur den P(Y > y) ≤ 0, 95 gilt, ist y = 11. Da P(Y > 11) ≤ 0, 95 ist, ist P(Y ≤ 11) > 0, 05 und wir erhalten qα;U = 11. Das bedeutet, selbst wenn der Kandidat mit 11 oder 12 richtigen Antworten seine

5.2

Parametrische Tests

285

Wette verlieren sollte, so spricht das auf einem 5%-Niveau nicht gegen die Annahme, dass er tatsächlich mit 90%iger Wahrscheinlichkeit Klingelmelodien B richtig erkennen kann. Beispiel Platondialog

B

Archäologen haben auf einer Pergamentschriftrolle, auf der sich die Abschrift eines Platon-Dialoges befindet, entdeckt, dass sich darunter vorher eine eventuell gel¨ oschte und u ¨berschriebene Abschrift eines anderen, möglicherweise antiken Textes befand. Nachdem Fragmente dieses Textes entziffert werden konnten, glaubt ein Wissenschaftler, dass es sich dabei um ein bislang unbekanntes St¨ uck aus einem anderen Platon-Dialog handeln k¨ onnte. Nach einer Theorie des Wissenschaftlers findet sich in 80% aller S¨ atze mindestens ein von Platon so genanntes F¨ ullwort, das f¨ ur den Satzinhalt unwichtig ist. Um seine Behauptung u ¨ber den Autor des gefundenen Texts zu untermauern, will er einen Test f¨ ur die Hypothesen H0 : p = 0, 8

gegen

H1 : p = 0, 8

durchf¨ uhren. Dabei bezeichnet p den Anteil der S¨ atze der Dialogpartner, der mindestens eins der F¨ ullw¨ orter enth¨ alt. Der Test soll zum Niveau α = 0, 05 durchgef¨ uhrt werden. Insgesamt konnten auf der Schriftrolle n = 24 S¨ atze der atzen findet sich ein solches Dialogpartner entziffert werden. In ybeo = 23 S¨ F¨ ullwort. F¨ ur einen zweiseitigen Test berechnen sich die kritischen Werte qα/2;U und qα/2;O , so dass gilt P(Y ≤ qα/2;U ) > 0, 025 und P(Y ≥ qα/2;O ) > 0, 025, wobei die Wahrscheinlichkeiten f¨ ur Y ∼ Bin(24; 0, 8) berechnet werden. Man erh¨ alt P(Y ≤ 14) = 0, 013 und P(Y ≤ 15) = 0, 036, damit ist qα/2;U = 15. Analog berechnen sich P(Y ≥ 24) = 0, 005 und P(Y ≥ 23) = 0, 033, also atze mit F¨ ullwort weder ist qα/2;O = 23. Da die Anzahl der beobachteten S¨ gr¨ oßer 23 noch kleiner 15 ist, kann die Nullhypothese nicht abgelehnt werden. B Der approximative Binomialtest

Bei gr¨ oßer werdenden Stichprobenumf¨ angen steigt auch der Aufwand zur ur eine Stichprobe vom Durchf¨ uhrung des exakten Binomialtests 278. F¨ Umfang n = 100 sei unter den u ¨blichen Voraussetzungen die Hypothese H0 : p ≤ 0, 5

gegen

H1 : p > 0, 5

286


zum Niveau α = 0, 05 zu testen. Gemäß der beim exakten Binomialtest beschriebenen Vorgehensweise ist das Quantil qα;O der Bin(100; 0, 5)-Verteilung als kritischer Wert des Tests zu bestimmen. Gesucht ist also der kleinste Wert qα;O , so dass 100

P(Y = y) > α

y=qα;O

f¨ ur Bin(100; 0, 5). Dazu m¨ ussten die Summen 100

P(Y = y) f¨ ur k = 100, 99, 98, . . .

y=k

sukzessiv berechnet werden, bis derjenige Wert von k gefunden ist, f¨ ur den diese Summe zum ersten Mal größer wird als α = 0, 05. In unserem Fall bedeutet das, 57 Summen zu bestimmen, da qα;O = 57. Bei ausreichend großem Stichprobenumfang kann statt des exakten Binomialtests auch der approximative Binomialtest verwendet werden. Dieser basiert auf der Normalverteilung, die eine Approximation f¨ ur die Binomialverteilung darstellt, wenn die unten genannten Voraussetzungen erf¨ ullt sind. Voraussetzungen Seien X1 , . . . , Xn unabh¨ angige und identisch verteilte Zufallsvariablen, die den Wert 1 mit Wahrscheinlichkeit p und den Wert 0 mit Wahrscheinlichkeit (1 − p) annehmen. Dann ist Y =

n

Xi

binomialverteilt mit Parametern n und p, Y ∼ Bin(n; p)

i=1

Gilt f¨ ur p aus der Nullhypothese n · p ≥ 5 und n · (1 − p) ≥ 5, so ist Y approximativ normalverteilt mit Erwartungswert n · p und Varianz σ 2 = n · p · (1 − p). Diese Annahme ermöglicht die Testentscheidung basierend auf einer approximativ normalverteilten Teststatistik. Zu testen sei eine Hypothese u ¨ ber den Anteil einer Merkmalsauspr¨ agung einer dichotomen Zufallsvariable X.

5.2

Parametrische Tests

287

Hypothesen Bezeichne p den unbekannten zu u ¨berpr¨ ufenden Parameter, w¨ ahrend p0 der Wert ist, mit dem dieser verglichen werden soll. Das Testproblem lautet dann in Abh¨ angigkeit der gew¨ unschten Alternativhypothese Problem (1): Problem (2): Problem (3):

H0 : p = p0 H0 : p ≤ p0 H0 : p ≥ p0

H1 : p = p0 H1 : p > p0 H1 : p < p0

gegen gegen gegen


Problem (1) beleuchtet die Frage, ob die Erfolgswahrscheinlichkeit einem Zielwert entspricht oder nicht, w¨ ahrend Problem (2) sich um den Nachweis dreht, dass die Erfolgswahrscheinlichkeit tats¨ achlich größer ist als unter der Nullhypothese angenommen wird. Problem (3) wird demzufolge aufgestellt, wenn es das Ziel ist zu zeigen, dass die wahre Erfolgswahrscheinlichkeit von X kleiner ist als unter der Nullhypothese angenommen.

Teststatistik Die Teststatistik f¨ ur den approximativen Binomialtest lautet Z=

Y − n · p0 n · p0 · (1 − p0 )

und folgt approximativ einer Standardnormalverteilung unter der Annahme, dass p = p0 gilt.

Testentscheidung Die Testentscheidung kann anhand des kritischen Werts oder mit Hilfe des p-Werts herbeigef¨ uhrt werden. Entscheidungsregel basierend auf dem kritischen Wert Abh¨ angig von der Wahl des Signifikanzniveaus α und des Testproblems gelten folgende Entscheidungsregeln: Die Nullhypothese H0 wird zum Niveau α verworfen, falls ∗ Problem (1): |Z| > z1−α/2


Z Z

>
5 und

5.2

Parametrische Tests

289

n·(1−p0 ) = 158·0, 85 = 134, 3 > 5 ausreichend groß, um den approximativen Binomialtest durchzuf¨ uhren. Die Teststatistik berechnet sich zu zbeo =

54 − 158 · 0, 15 =√ = 0, 9580. 158 · 0, 15 · 0, 85 n · p0 · (1 − p0 ) ybeo − n · p0

∗ = −1, 9599 gegeben. F¨ ur den F¨ ur α = 0, 025 ist das 0,025-Quantil mit z0,025 beobachteten Wert der Teststatistik gilt zbeo = 0, 9580 > −1, 9599. Somit kann die Hypothese nicht zum 2,5%-Niveau abgelehnt werden. Die Daten sprechen nicht daf¨ ur, dass der Anteil sanierungsbed¨ urftiger Wasserleitungen B gesunken ist.

Beispiel Faire 50 Cent M¨ unze

B

W¨ are die 50 Cent M¨ unze fair, so w¨ urde die Wahrscheinlichkeit f¨ ur Kopf beim ¨ Wurf der M¨ unze p = 0, 5 betragen. Ein Tourist aus Ubersee glaubt nach intensiver Betrachtung einer 50 Cent M¨ unze nicht, dass diese fair sein kann, und wirft die M¨ unze unabh¨ angig voneinander 100-mal. Dabei erscheint 40-mal Kopf. L¨ asst sich damit zu einem Signifikanzniveau von α = 0, 05 nachweisen, dass die M¨ unze nicht fair ist? Das Testproblem daf¨ ur muss wie folgt formuliert werden H0 : p = 0, 5

gegen

H1 : p = 0, 5.

Unter der Nullhypothese ist die Anzahl der Erfolge Y in den 100 W¨ urfen, also die Anzahl der W¨ urfe mit Kopf binomialverteilt mit Parametern n = 100 und p = 0, 5, Y ∼ Bin(100; 0, 5). ur die AnwenUnter der Annahme, dass p0 = 0, 5 gilt, ist die Voraussetzung f¨ ullt. dung des approximativen Binomialtests n · p0 = 50 = n · (1 − p0 ) > 5 erf¨ Die beobachtete Anzahl an Erfolgen ist ybeo = 40. Damit berechnet sich die Teststatistik zu zbeo =

40 − 50 =√ = −2. 100 · 0, 5 · 0, 5 n · p0 · (1 − p0 ) ybeo − n · p0

F¨ ur α = 0, 05 ist das (1−α/2)-Quantil der Standardnormalverteilung gegeben ∗ = 1, 9599. Da der Absolutbetrag der beobachteten Teststatistik als z0,975 oßer als 1, 9599, kann die Nullhypothese verworfen werden. Das |zbeo | = 2 gr¨ ¨ heißt, der Tourist aus Ubersee kann tatsächlich davon ausgehen, dass die 50 B Cent M¨ unze, die er hat unfair ist.

290


Beispiel T¨ agliche Kalorienzufuhr

B

Ern¨ ahrungswissenschaftler vermuten, dass mehr als die H¨ alfte aller Bundesb¨ urger t¨ aglich mehr Kalorien zu sich nimmt, als empfohlen. F¨ ur genauere Ergebnisse f¨ uhren sie dazu eine umfangreiche Studie durch, in welcher auch die unterschiedlichen Altersklassen, der Grad der k¨ orperlichen Belastung und das Geschlecht ber¨ ucksichtigt werden. Die Studie soll u ¨berpr¨ ufen, ob der Anteil der Bundesb¨ urger mit erh¨ ohter täglicher Kalorienzufuhr gr¨ oßer ist als 0, 5. Innerhalb einer der untersuchten Gruppen wird dazu f¨ ur 11 zuf¨ allig ausgewählte Personen die durchschnittliche t¨ agliche Kalorienaufnahme ermittelt. In der Auswahl finden sich 9 Personen, deren Kalorienaufnahme h¨ oher als empfohlen ist. Kann zu einem Signifikanzniveau von α = 0, 05 geschlossen werden, dass in der Gruppe mehr als 50% der Personen eine erhöhte Kalorienaufnahme aufweisen? Das Testproblem kann formuliert werden als H0 : p ≤ 0, 5

gegen

H1 : p > 0, 5.

Dabei gibt p die Wahrscheinlichkeit an, dass eine Person eine höhere Kalorienaufnahme als die empfohlene hat. Die Anwendung des approximativen Binomialtests ist hier erlaubt, denn es gilt n·p0 = n·(1−p0 ) = 11·0, 5 = 5, 5 > 5. Die Teststatistik berechnet sich als zbeo =

ybeo − n · p0 n · p0 · (1 − p0 )

=

9 − 5, 5 = 2, 11. 1, 658

∗ F¨ ur α = 0, 05 erhalten wir als kritischen Wert z0,95 = 1, 65. Der beobachtete oßer als 1,65. Die Nullhypothese kann Wert der Teststatistik zbeo = 2, 11 ist gr¨ also verworfen werden und es kann zum 5% Niveau geschlossen werden, dass f¨ ur die untersuchte Gruppe mehr als die H¨ alfte der Personen t¨ aglich zu viele B Kalorien zu sich nimmt.

Der χ2 -Anpassungstest

Nicht immer ist beim Testen ein spezieller Parameter einer Verteilung von Interesse, sondern vielmehr die zugrunde liegende Verteilung selbst. Beispielsweise könnte ein Unternehmen u ¨berpr¨ ufen, ob montags und freitags die Anzahl der Krankmeldungen doppelt so hoch ist wie an den restlichen Arbeitstagen der Woche. Einem unglaubw¨ urdigen Gl¨ ucksspieler ließe sich nachweisen, ob jede Augenzahl bei seinem W¨ urfel mit gleicher Wahrscheinlichkeit auftritt oder nicht. Der χ2 -Anpassungstest untersucht allgemein gesprochen, ob die vorliegenden Daten den Schluss zulassen, dass sie aus einer speziellen Verteilung stammen.

5.2

Parametrische Tests

291

Folgende Idee steckt dahinter: Der Wertebereich des Merkmals wird zun¨ achst in k Klassen eingeteilt. In der Nullhypothese wird unterstellt, dass die Daten aus einer bestimmten Verteilung stammen. Auf dieser Annahme beruhend berechnet man, welche Besetzungszahlen f¨ ur die einzelnen Klassen in diesem Fall zu erwarten sind. Diese so genannten erwarteten H¨ aufigkeiten vergleicht man mit den tatsächlich beobachteten Besetzungszahlen in der vorliegenden Stichprobe. Je weniger die beobachteten von den unter der Nullhypothese erwarteten Häufigkeiten abweichen, desto stärker unterst¨ utzt dies die Annahme, dass die Beobachtungen aus der in der Nullhypothese angenommenen Verteilung stammen. Voraussetzungen X1 , . . . , Xn seien stochastisch unabh¨ angige Stichprobenvariablen, die identisch verteilt sind wie X. Der Wertebereich von X wird in k disjunkte Klassen eingeteilt. F¨ ur die realisierte Stichprobe x1 , . . . , xn werden die ur die k Klassen bestimmt Klassenh¨ aufigkeiten ni f¨ Klasse Anzahl der Beobachtungen

1 n1

2 n2

3 n3

... ...

k nk

k Dabei gilt i=1 ni = n, das heißt, in der Summe addieren sich die einzelnen Klassenh¨ aufigkeiten wieder zum Gesamtstichprobenumfang n. Im Fall einer diskreten Zufallsvariable X mit einer kleinen Anzahl k von möglichen Auspr¨ agungen bilden diese die Klassen. Bei einer h¨ oheren Anzahl m¨ oglicher Auspr¨ agungen werden jeweils mehrere zu einer Klasse zusammengefasst. Im Fall einer stetigen Zufallsvariablen wird die x-Achse in k disjunkte, aneinander angrenzende Intervalle eingeteilt, die beispielsweise wie folgt gewählt werden k¨ onnen (a0 , a1 ], (a1 , a2 ], . . . , (ak−1 , ak ] oder

[a0 , a1 ), [a1 , a2 ), . . . , [ak−1 , ak ),

wobei a0 = −∞ und ak = ∞ möglich sind. F¨ ur die Durchf¨ uhrung des Tests m¨ ussen die Klassen stark genug besetzt sein. Die zu u ¨berpr¨ ufende Faustregel wird nach Aufstellung der Nullhypothese besprochen. Zu testen sei eine Hypothese u ¨ ber die Verteilung FX einer Zufallsvariablen X.

292


Hypothesen Sei FX (x) die unbekannte, wahre Verteilungsfunktion von X und F0 (x) die unter H0 unterstellte. Dann ist das Testproblem definiert als ur alle x ∈ R H0 : FX (x) = F0 (x) f¨ gegen ˜ ∈ R mit FX (˜ x) = F0 (˜ x). H1 : Es existiert mindestens ein x Das Testproblem kann alternativ auch in Form der Wahrscheinlichkeiten p1 , . . . , pk formuliert werden, wobei pi die Wahrscheinlichkeit ist, dass sich die Zufallsvariable X in der i-ten Klasse realisiert. Das Testproblem lautet dann H0 : p1 = p10 , p2 = p20 , . . . , pk = pk0 gegen H1 : pi = pi0

f¨ ur mindestens ein i, i = 1, . . . , k,

wobei pi0 die unter der Nullhypothese angenommene Wahrscheinlichkeit f¨ ur die i−te Klasse ist.

B

Beispiel Hypothesen

Es ist eine weit verbreitete Meinung, dass sich Babies f¨ ur ihre Geburt die f¨ ur uns eher unp¨ asslichen Nachtstunden aussuchen. Ist diese Meinung berechtigt, so m¨ ussten nachts weitaus mehr Babies geboren werden als tags¨ uber. Die Geburtszeit w¨ are also nicht u ¨ber den Tag hinweg gleich¨ verteilt sein. Zur Uberpr¨ ufung dieser These teilen wir den Tag in vier Abschnitte von je 6 Stunden ein: 1 = (0 - 6 Uhr], 2 = (6 - 12 Uhr], 3 = (12 - 18 Uhr] und 4 = (18 - 24 Uhr]. W¨ are die Geburtszeit u ¨ber den Tag hinweg gleichmäßig verteilt, so w¨ urde man etwa 1/4 aller an einem Tag geborenen Babies f¨ ur jedem der vier Zeitabschnitte erwarten. Bezeichne p1 die Wahrscheinlichkeit, dass ein Kind in den ersten sechs Stunden eines Tages geboren wird, also dass die Geburtszeit in das Intervall 1 = (0 - 6 Uhr] f¨ allt, p1 = P(X = 1). Analog seien p2 = P(X = 2), p3 = P(X = 3) und p4 = P(X = 4) definiert. Das Testproblem kann dann formuliert werden als H0 : p10 = p20 = p30 = p40 =

1 4

gegen

ur mindestens einen Zeitabschnitt ist die angenommene WahrH1 : f¨ scheinlichkeit falsch

5.2

Parametrische Tests

293

Mit diesem Testproblem u ¨ berpr¨ ufen wir nur die Gleichverteilung der Geburtszeiten. Wir k¨ onnen nicht zeigen, dass nachts tatsächlich mehr Kinder zur Welt kommen. Dazu d¨ urften wir den Tag nur in die zwei Zeitabschnitte nachts und nicht nachts einteilen. An dieser Stelle soll uns aber nur interessieren, ob die Vermutung u ¨berhaupt begr¨ undet ist. Allem neuzeitlichen Aufk¨ arungsgeist zum Trotz hält sich in der Bevölkerung immer noch der Aberglaube vom Freitag, dem 13., als Ungl¨ uckstag. Eine große Versicherung analysiert ihre Schadensmeldungen, um zu u ¨berpr¨ ufen, ob dieser Aberglaube tats¨ achlich berechtigt ist oder nicht. Sie schaut sich dazu die Anzahl der Schadensmeldungen f¨ ur den 13. eines jeden Monats, gruppiert nach den Wochentagen an. Ist der Aberglaube berechtigt, so m¨ usste es mehr Schadensmeldungen geben (einen höheren Anteil), wenn der 13. auf einen Freitag f¨ allt, als f¨ ur die anderen Wochentage. H0 :

p10 = P(Schaden, wenn 13. nicht Fr) = p20 = P(Schaden, wenn 13. Fr) =

6 , 7

1 7

gegen H1 :

f¨ ur mindestens einen der Wochenabschnitte ist die angenommene Wahrscheinlichkeit falsch. B

Teststatistik Die Teststatistik ist definiert als k (ni − n · pi0 )2 , V = n · pi0 i=1

wobei ni die beobachtete Klassenhäufigkeit in der i-ten Klasse und n · pi0 die unter H0 erwartete H¨ aufigkeit in Klasse i bezeichnet. Unter den genannten Voraussetzungen ist unter der Nullhypothese V approximativ χ2 -verteilt mit (k − 1) Freiheitsgraden, V ∼ χ2k−1 . Faustregel: F¨ ur die G¨ ultigkeit der Approximation m¨ ussen die erwarteten ur alle i = 1, . . . , k Klassenh¨ aufigkeiten die Voraussetzung n · pi0 ≥ 5 f¨ erf¨ ullen.

294


Testentscheidung und Interpretation Die Testentscheidung kann anhand des kritischen Werts oder mit Hilfe des p-Werts herbeigef¨ uhrt werden. Entscheidungsregel basierend auf dem kritischen Wert Je größer der Wert von V ist, desto stärker spricht das Testergebnis f¨ ur die Alternativhypothese. Die Nullhypothese H0 wird zum Signifikanzniveau α abgelehnt, falls gilt V > χ2k−1;1−α , wobei χ2k−1;1−α das (1 − α)-Quantil der χ2 -Verteilung mit k − 1 Freiheitsgraden ist. Entscheidungsregel basierend auf dem p-Wert Anstelle des kritischen Werts kann die Testentscheidung auch mit Hilfe des p-Werts herbeigef¨ uhrt werden: Die Nullhypothese H0 wird zum Niveau α abgelehnt, falls der p-Wert < α ist, wobei sich der p-Wert der Teststatistik V berechnet als P(V ≥ vbeo ) Dabei ist vbeo der errechnete (beobachtete) Wert der Teststatistik basierend auf den Beobachtungen. F¨ ur einen p-Wert kleiner dem Wert von α wird gesagt, dass das Ergebnis statistisch signifikant ist zum Niveau α.

Berechnung des kritischen Werts und des p-Werts in R Mit dem Programmpaket R kann der kritische Wert wie folgt berechnet werden qchisq(1-alpha, k-1) Den p-Wert erh¨ alt man mit pchisq(v.beo, k-1, lower.tail = FALSE)

5.2

Parametrische Tests

295

Beispiel (Fortsetzung 292) Geburtszeiten

B

Betrachten wir noch einmal die Vermutung der von Babies bevorzugten Zeiten, um auf die Welt zu kommen. Als Signifikanzniveau legen wir α = 0, 05 fest. Die gesammelten Daten eines Krankenhauses im Verlaufe eines Jahres ergaben Zeitabschnitt beob. Geburten

(0 - 6 ] 623

(6 - 12 ] 377

(12 - 18 ] 336

(18 - 24 ] 418

Summe 1754

Wie schon im Beispiel zu Hypothesen 292 gesehen, kann das Testproblem formuliert werden als H0 : p10 = p20 = p30 = p40 =

1 4

gegen

ur mindestens einen Zeitabschnitt ist die angenommene WahrH1 : f¨ scheinlichkeit falsch Unter der Annahme der Nullhypothese berechnen sich die erwarteten Häufigkeiten f¨ ur alle Zeitabschnitte zu 1754 ·

1 = 438, 5. 4

Die Teststatistik V =

5 (ni − n · pi0 )2 n · pi0 i=1

berechnet sich dann zu vbeo

=

(377 − 438, 5)2 (336 − 438, 5)2 (623 − 438, 5)2 + + 438, 5 438, 5 438, 5 2 (418 − 438, 5) = 111, 1717. + 438, 5

Der kritische Wert zum Niveau α = 0, 05 ist gegeben mit χ24−1;0,95 = χ23;0,95 = 7, 815. Der Wert der Teststatistik 111,1717 ist größer als der kritische Wert 7,815. Damit kann H0 zum Niveau α = 0, 05 verworfen werden. Es scheint also tatsächlich nicht unberechtigt zu sein, dass sich Babies den Zeitpunkt B f¨ ur den Start ins Leben willk¨ urlich aussuchen.

296

B


Beispiel Motoren

Ein japanischer Autofabrikant m¨ ochte beruhend auf Daten eingegangener Beschwerden während der Garantiezeit u ¨berpr¨ ufen, ob die Lebensdauer in Kilometern X eines seiner Automotoren exponentialverteilt ist mit einem Erwartungswert von nur 50 000 km statt der eigentlich angestrebten Kilome¨ terzahl. Zur Uberpr¨ ufung dieser Hypothese wurden die gefahrenen Kilometer bis zum ersten Motorschaden f¨ ur 60 zuf¨ allig ausgewählte PKW’s des Herstellers ermittelt. Als Signifikanzniveau wurde α = 0, 05 festgelegt. Die Daten sind angegeben als gefahrene Kilometer bis zum ersten Motorschaden

33272 3421 2847 95442 132824 97585 109138

1640 69322 50415 31949 50069 25946 158960

12504 53749 129307 22184 66169 11602 163972

167623 38448 8365 3945 13544 14027 61062

35501 42185 73700 74931 49549 32370 63448

25842 42029 30099 27308 73146 12440 7828

45134 54303 20202 5288 34588 75012

10229 23481 42763 142996 5947 17768

79803 28097 16177 19182 22036 88867

Zu testen ist die Nullhypothese H0 : FX (x) =

4 3 1 − exp − 50 1000 · x 0

x≥0 x 0, 05. Das heißt, die Nullhypothese kann nicht verworfen B werden. Sind die Parameter der Verteilung aus der Nullhypothese unbekannt, so kann der χ2 -Anpassungstest trotzdem angewendet werden. Bezeichnen wir mit F0 (x; ϑ1 , . . . , ϑr ), x ∈ R eine Verteilungsfunktion unter der Nullhypothese, angt. Die unbekannwelche von r unbekannten Parametern ϑ1 , . . . , ϑr abh¨ ten Parameter werden zunächst aus den Daten geschätzt. Dies geschieht in der Praxis meist durch eine Maximum-Likelihood-Sch¨ atzung 119 basierend atzungen auf der Dichtefunktion f 0 (x; ϑ1 , . . . , ϑr ). Mit den erhaltenen Sch¨ onnen wir dann die k Wahrscheinlichkeiten p1 , . . . , pk f¨ ur die k ϑˆ1 , . . . , ϑˆr k¨ Klassen schätzen (% p1 , . . . , p%k ) und diese zur Berechnung der Teststatistik einsetzen k (ni − n · p%i )2 V = . n · p%i i=1 Die Teststatistik V folgt nun approximativ einer χ2 -Verteilung mit (k −r −1) Freiheitsgraden, das heißt, die Anzahl der Freiheitsgrade verringert sich um die Anzahl der zu sch¨ atzenden Parameter.

5.2

B

Parametrische Tests

299

Beispiel Familien

F¨ ur Daten aus einer großen sozialwissenschaftlichen Studie u ¨ber 500 Familien mit 2 Kindern soll u ¨berpr¨ uft werden, ob die Anzahl von M¨ adchen, X, in der Familie binomialverteilt ist. Als Niveau sei α=0,05 vorgegeben. Anzahl M¨ adchen in der Familie i Anzahl Familien ni

0 118

1 254

2 128

Die zu u ¨ berpr¨ ufende Nullhypothese lautet x 2 · pt · (1 − p)2−t H0 : FX (x) = t t=0 f¨ ur x = 0, 1, 2 mit unbekanntem Parameter p. Zur Berechnung der Teststatistik k (ni − n · p%i )2 V = n · p%i i=1 sind zun¨ achst Schätzwerte f¨ ur

2 · pi · (1 − p)2−i , pi = P(X = i) = i

i = 0, 1, 2

zu bestimmen, wobei p die Wahrscheinlichkeit f¨ ur eine M¨ adchengeburt bezeichnet. Die Maximum-Likelihood-Sch¨ atzung f¨ ur p aus allen Daten ist gegeben durch die relative H¨ aufigkeit von M¨ adchen, das heißt p% =

0 · 118 + 1 · 254 + 2 · 128 Anzahl M¨ adchen = = 0, 51. Anzahl Kinder 500 · 2

Damit gilt p%0

=

p%1

=

p%2

=

2 2 · (% p)0 · (1 − p%)2 = · (0, 51)0 · (0, 49)2 = 0, 2401 0 0 2 2 · (% p)1 · (1 − p%)1 = · (0, 51)1 · (0, 49)1 = 0, 4998 1 1 2 2 · (% p)2 · (1 − p%)0 = · (0, 51)2 · (0, 49)0 = 0, 2601 2 2

und der Wert der Teststatistik kann berechnet werden als vbeo

=

k (ni − n · p%i )2 i=1

n · p%i

=

(118 − 500 · 0, 2401)2 500 · 0, 2401

300


+

(128 − 500 · 0, 2601)2 (254 − 500 · 0, 4998)2 + = 0, 1346. 500 · 0, 4998 500 · 0, 2601

Da die Binomialverteilung nur von einem unbekannten Parameter, n¨ amlich p, abh¨ angt und dieser zun¨ achst geschätzt werden musste, verringert sich die Anzahl der Freiheitsgrade von (k−1) auf (k−2). F¨ ur α = 0, 05 ist der kritische Wert somit gegeben als χ21;0,95 = 3, 84. Der beobachtete Wert der Teststatistik vbeo = 0, 1346 ist kleiner als 3,84 woraus folgt, dass die Nullhypothese nicht verworfen werden kann. Das heißt, es besteht kein Hinweis darauf, dass die B Annahme einer Binomialverteilung nicht gerechtfertigt ist. Der χ2 -Unabh¨ angigkeitstest

Werden in einer Studie an unabh¨ angigen Untersuchungsobjekten jeweils zwei Merkmale beobachtet, so stellt sich die Frage nach dem Zusammenhang bzw. angigkeitstests der Unabh¨ angigkeit dieser Merkmale. Mit Hilfe des χ2 -Unabh¨ kann die Hypothese der Unabh¨ angigkeit zweier Merkmale untersucht werden. Ein Vorteil dieser Methode ist, dass bereits nominales Messniveau der Merkmale zur Anwendung ausreicht. Voraussetzungen Betrachtet werden zwei Merkmale, die durch Zufallsvariablen X und Y mit Auspr¨ agungen k1 , . . . , km bzw. l1 , . . . , lq beschrieben werden. Dabei m¨ ussen X und Y mindestens nominal skaliert sein. F¨ ur stetige Zufallsvariablen werden die Wertebereiche in m bzw. q disjunkte, aneinander angrenzende Intervalle eingeteilt. Die Klasseneinteilung muss vollst¨ andig sein, das heißt jedes Objekt geh¨ ort zu genau einer Klasse. Die Stichprobenvariablen (X1 , Y1 ), . . . , (Xn , Yn ) sind unabh¨ angig und identisch wie das Paar (X, Y ) verteilt. Als Ausgangspunkt wird eine zweidimensionale Stichprobe (x1 , y1 ), . . . , (xn , yn ) vom Umfang n gezogen. Die Darstellung der Daten ist in Form einer H¨ aufigkeitstabelle möglich, welche als Kontingenztafel bezeichnet wird.

5.2

Parametrische Tests

k1 k2 .. . km Summe

301

l1 n11 n21

l2 n12 n22

... ... ...

lq n1q n2q

Summe n1• n2•

... nm1 n•1

... nm2 n•2

... ··· ...

... nmq n•q

... nm• n

nij stellt die absolute Klassenh¨ aufigkeit der Kombination (ki , lj ) dar, also die Anzahl der Beobachtungspaare mit Merkmalsauspr¨ agung ki von X und Merkmalsauspr¨ agung lj von Y . Mit ni• wird die Sumur die i-te Merkmalsausprägung der Zume der Häufigkeiten nij f¨ fallsvariable X u ¨ber alle q Merkmalsauspr¨ agungen von Y bezeichnet: q aufigkeit von ki . Analog ni• = j=1 nij . Die Größe ni• heißt Randh¨ m aufigkeit der j-ten Merkmalsbezeichnet n•j = i=1 nij die Randh¨ auspr¨ agung lj von Y . Damit gewährleistet werden kann, dass die Teststatistik unter der ur die erwarteten Nullhypothese approximativ χ2 -verteilt ist, muss f¨ Klassenh¨ aufigkeiten gelten n ˜ ij =

ni• · n•j ≥ 5. n

Zu testen sei eine Hypothese u ¨ ber die Unabh¨ angigkeit der Zufallsvariablen X und Y .

Hypothesen Es ergibt sich die Fragestellung, ob die Merkmale voneinander unabh¨ angig sind oder nicht. Im stochastischen Sinne liegt Unabh¨ angigkeit von zwei Ereignissen A und B genau dann vor, wenn P(A ∩ B) = P(A) · P(B) gilt. Diese Beziehung f¨ uhrt zu folgender Formulierung der Hypothesen H0 : pij = pi• · p•j

f¨ ur i = 1, . . . , m und j = 1, . . . , q

gegen H1 : pij = pi• · p•j

f¨ ur mindestens ein Paar (i, j).

302


Dabei ist pij = P(X = ki , Y = lj ) die Wahrscheinlichkeit, dass X die i-te und Y die j-te Merkmalsauspr¨ agung annimmt. pi• = P(X = ki ) die Wahrscheinlichkeit, dass X die i-te Merkmalsauspr¨ agung annimmt, unabh¨ angig von der Auspr¨ agung von Y und p•j = P(Y = lj ) die Wahrscheinlichkeit, dass Y die j-te Merkmalsauspr¨ agung annimmt, unabh¨ angig von der Auspr¨ agung von X. Anders ausgedr¨ uckt, lautet das Testproblem angig H0 : X und Y sind stochastisch unabh¨ gegen angig. H1 : X und Y sind stochastisch abh¨

B

Beispiel Hypothesen

H¨ angen die Reihenfolge der Geburt von Geschwistern und der erzielte Ausbildungsgrad zusammen? Oft wird beobachtet, dass Erstgeborene einen l¨ angeren Bildungsweg einschlagen als ihre j¨ ungeren Geschwister. Dies wird psychologisch damit begr¨ undet, dass sich die j¨ ungeren Geschwister oft von ihren a¨lteren Geschwistern abgrenzen wollen. Als Testproblem ergibt sich H0 : Die Variablen Geburtsreihenfolge und Ausbildungsgrad sind stochastisch unabh¨ angig gegen H1 : Die Variablen Geburtsreihenfolge und Ausbildungsgrad sind stochastisch abhängig. Gibt es einen Zusammenhang zwischen dem Geschlecht und der Teevorliebe? Der Inhaber eines Teeladens möchte dies herauszufinden, um den Kunden gezielt verschiedene Tees anzubieten. Als Testproblem ergibt sich H0 : Die Variablen Geschlecht und Teevorliebe sind stochastisch unabh¨ angig gegen angig. H1 : Die beiden Variablen sind stochastisch abh¨ B

5.2

Parametrische Tests

303

Teststatistik Die Teststatistik des χ2 -Unabh¨ angigkeitstests misst den Unterschied zwischen den tatsächlich beobachteten H¨ aufigkeiten nij der Kontingenztafel und den unter der Nullhypothese erwarteten H¨ aufigkeiten n ˜ ij . Die Randaufigkeiten wahrscheinlichkeiten pi• und p•j werden durch die relativen H¨ p%i• =

ni• n

und p%•j =

n•j n

geschätzt, wobei n der Gesamtstichprobenumfang ist. Unter der Nullhypothese H0 : pij = pi• · p•j wird die Wahrscheinlichkeit pij geschätzt durch p%ij = p%i• · p%•j . Die Teststatistik ist definiert als V =

mit n ˜ ij =

q m (nij − n ˜ ij )2 , n ˜ ij i=1 j=1

ni• · n•j = n · p%ij . n

Unter der Nullhypothese ist V approximativ χ2 verteilt mit (m−1)·(q−1) Freiheitsgraden, V ∼ χ2(m−1)·(q−1) . Faustregel: Die Approximation ist umso besser, je gr¨ oßer n ist. Es sollte ur alle i, j gelten. n ˜ ij ≥ 5 f¨

Testentscheidung und Interpretation Die Testentscheidung kann anhand des kritischen Werts oder mit Hilfe des p-Werts herbeigef¨ uhrt werden. Entscheidungsregel basierend auf dem kritischen Wert Je größer der Wert von V ist, desto stärker spricht das Testergebnis f¨ ur die Alternativhypothese. Die Nullhypothese H0 wird zum Signifikanzniveau α abgelehnt, falls gilt V > χ2(m−1)·(q−1);1−α , wobei χ2(m−1)·(q−1);1−α das (1 − α)-Quantil der χ2 -Verteilung mit (m − 1) · (q − 1) Freiheitsgraden ist.

304


Entscheidungsregel basierend auf dem p-Wert Anstelle des kritischen Werts kann die Testentscheidung auch mit Hilfe des p-Wertes herbeigef¨ uhrt werden: Die Nullhypothese H0 wird zum Niveau α abgelehnt, falls der p-Wert < α ist, wobei sich der p-Wert der Teststatistik V berechnet als P(V ≥ vbeo ). Dabei ist vbeo der errechnete (beobachtete) Wert der Teststatistik basierend auf den Beobachtungen. F¨ ur einen p-Wert kleiner dem Wert von α wird gesagt, dass das Ergebnis statistisch signifikant ist zum Niveau α.

Berechnung des kritischen Werts und des p-Werts in R Mit dem Programmpaket R kann der kritische Wert wie folgt berechnet werden qchisq(1-alpha, (m-1)*(q-1)) Den p-Wert erh¨ alt man mit pchisq(v.beo, (m-1)*(q-1), lower.tail = FALSE)

B

Beispiel Unabh¨ angigkeit von Einkommen und Geschlecht

Eine Untersuchung der Merkmale X = Einkommen mit Auspr¨ agungen niedrig, mittel und hoch Y = Geschlecht mit Auspr¨ agungen m¨ annlich und weiblich bei n = 500 Personen erbrachte die folgenden Ergebnisse

5.2

Parametrische Tests

305

niedrig mittel hoch Summe

männlich 50 110 70 230

weiblich 100 140 30 270

Summe 150 250 100 500

Die gemeinsame Verteilung von X und Y ist in einer Kontingenztafel darstellbar: sie besitzt m = 3 Zeilen und q = 2 Spalten. Als Nullhypothese interessiert angig H0 : Die Variablen Geschlecht und Einkommen sind stochastisch unabh¨ gegen H1 : Die Variablen Geschlecht und Einkommen sind stochastisch abhängig. Der Test wird zum Signifikanzniveau α = 0, 01 durchgef¨ uhrt. Die erwarteten H¨ aufigkeiten berechnen sich zu n ˜ ij =

ni• · n•j = n · p%ij n

f¨ ur i = 1, 2, 3 und j = 1, 2,

und es ergibt sich n ˜ 11

=

150 · 230 = 69, 500

n ˜ 22

=

250 · 270 = 135, 500

n ˜ 12 =

150 · 270 = 81, 500

n ˜ 31 =

100 · 230 = 46, 500

n ˜ 21 =

250 · 230 = 115, 500

n ˜ 32 =

100 · 270 = 54. 500

Die beobachtete und die unter Unabh¨ angigkeit der Merkmale zu erwartende Kontingenztafel sehen im Vergleich also folgendermaßen aus Einkommen

niedrig mittel hoch

Geschlecht beobachtet nij erwartet n ˜ ij männlich weiblich männlich weiblich 50 100 69 81 110 140 115 135 70 30 46 54

306


Die Teststatistik V bestimmt nun, wie groß der Unterschied zwischen diesen beiden Tafeln ist. Die Teststatistik ist definiert als V =

3 2 (nij − n ˜ ij )2 . n ˜ ij i=1 j=1

Damit berechnet sie sich zu vbeo

=

(100 − 81)2 (110 − 115)2 (140 − 135)2 (50 − 69)2 + + + 69 81 115 135

+

(30 − 54)2 (70 − 46)2 + = 33, 28. 46 54

Der kritische Wert zum Niveau α = 0, 01 ist χ2(3−1)·(2−1);0,99 = χ22;0,99 = 9, 21. Da der beobachtete Wert 33,28 der Teststatistik gr¨ oßer als der kritische Wert asst ist, kann H0 verworfen werden. Zu einem Signifikanzniveau von α = 0, 01 l¨ sich nachweisen, dass eine Abhängigkeit zwischen den Variablen Geschlecht B und Einkommen besteht. Der Exakte Test nach Fisher

Bei 2 × 2- Kontingenztafeln (m = q = 2) und kleinen Stichprobenumf¨ angen ¨ kann auch der exakte Test von Fisher zur Uberpr¨ ufung der Unabh¨ angigkeitshypothese angewandt werden. Hypothese Getestet werden soll die Nullhypothese H0 : pij = pi• · p•j

f¨ ur i = 1, 2 und j = 1, 2

H1 : pij = pi• · p•j

f¨ ur mindestens ein Paar (i, j)

gegen

Die Idee des Tests von Fisher ist es, die beobachtete 2 × 2-Tafel mit allen u ¨brigen Tafeln zu vergleichen, die bei gleichbleibender Randh¨ aufigkeit h¨ atten beobachtet werden können. Durch die H¨ aufigkeit n11 ist jede dieser Tafeln mit fest vorgegebener Randsumme eindeutig bestimmt, n11 dient daher als Teststatistik. Teststatistik Die Teststatistik lautet X = n11 .

5.2

Parametrische Tests

307

Gilt die Nullhypothese, das heißt, sind die beiden Merkmale unabh¨ angig, so wird die bedingte Wahrscheinlichkeit f¨ ur das Auftreten einer Tafel mit H¨ aufigaufigkeiten RHF = (n1• , n•1 , n•2 , n) beschrieben keit n11 bei festen Randh¨ durch eine hypergeometrische Verteilung n•1 n•2 n11 n −n 1• 11 , n11,min ≤ n11 ≤ n11,max , P(X = n11 |RHF) = n n1• wobei n11,min = max{0, n1• − n•2 }, n11,max = min{n•1 , n1• }. Zu kleine oder zu große Werte f¨ ur X f¨ uhren zur Ablehnung der Nullhypothese. Testentscheidung Die Nullhypothese H0 wird zum Niveau α abgelehnt, falls der p-Wert < α ist, wobei sich der p-Wert der Teststatistik X berechnet als P(X = n11 |RHF), p-Wert = n11 ∈Mn11

Mn11 =

n11 : n11,min ≤ n11

P(X = n11 |RHF) ≤1 . ≤ n11,max , P(X = n11,beo |RHF)

Dabei ist die bedingte Verteilung von X | RHF eine hypergeometrische Verteilung Hyp(n, n•1 , n1• ), und n11,beo ist der errechnete (beobachtete) Wert der Teststatistik X basierend auf der ersten H¨ aufigkeit in der Tafel. Mn11 bezeichnet die Menge der möglichen Ereignisse, die eine kleinere bedingte Wahrscheinlichkeit haben als X = n11,beo . Beispiel (Fortsetzung 302) Teevorliebe

B

Der Inhaber eines Teeladens befragt alle Kunden eines Tages, ob sie lieber Fr¨ uchtetee oder schwarzen Tee trinken. Zudem notiert er das Geschlecht der Kunden.

Fr¨ uchtetee schwarzer Tee Summe

männlich 3 3 6

weiblich 9 15 24

Summe 12 18 30

308


Der Besitzer vermutet, dass ein Zusammenhang zwischen Geschlecht und Teevorliebe besteht. Um diese Vermutung zu u ¨ berpr¨ ufen, wird das folgende Testproblem formuliert H0 : Die Variablen Geschlecht und Teevorliebe sind stochastisch unabh¨ angig gegen H1 : Die Variablen Geschlecht und Teevorliebe sind stochastisch abh¨ angig. Das heißt, formal H0 : pij = pi• · p•j

f¨ ur i = 1, 2 und j = 1, 2

H1 : pij = pi• · p•j

f¨ ur mindestens ein Paar (i, j),

gegen

wobei f¨ ur die Teesorten der Fr¨ uchtetee mit 1 und der schwarze Tee mit 2 kodiert sind, f¨ ur das Geschlecht die Auspr¨ agung m¨ annlich als 1 und weiblich als 2. Mit pij ist die Wahrscheinlichkeit f¨ ur die i-te Teesorte und das j-te Geschlecht bezeichnet. Es soll ein Test zum Niveau α = 0, 1 durchgef¨ uhrt werden. Die Teststatistik des exakten Tests von Fisher nimmt den Wert n11,beo = 3 an. Mit der bedingten hypergeometrischen Verteilung X | RHF ∼ Hyp(30, 12, 6), wobei RHF = (n1• , n•1 , n•2 , n) = (12, 6, 24, 30) ist, wird der p-Wert berechnet 24 6 3 12 − 3 = 0, 3023. p-Wert ≥ P(X = n11,beo = 3) = 30 12 Der p-Wert muss gr¨ oßer als α = 0, 1 sein, da n11,beo = 3 ∈ Mn11 . Damit kann die Hypothese der Unabh¨ angigkeit der Variablen Geschlecht und B Teevorliebe zum Niveau α = 0, 1 nicht abgelehnt werden.

5.2

Parametrische Tests

309

Tests im linearen Regressionsmodell

Im einfachen linearen Regressionsmodell Yi = β0 + β1 · xi + εi ,

f¨ ur i = 1, . . . , n

gibt es die beiden Parameter β0 und β1 . Dabei entspricht β0 dem Achsenabaufig will man wissen, schnitt und β1 der Steigung der Regressionsgeraden. H¨ ob die Steigung signifikant von Null verschieden ist. Sollte dies nicht der Fall sein, so kann man gem¨ aß dem linearen Regressionsmodell davon ausgehen, dass kein signifikanter linearer Zusammenhang zwischen den beiden betrachteten Merkmalen Y und x besteht. So k¨ onnte die Bedienung aus dem ur sie u ¨berhaupt Beispiel 135 daran interessiert sein zu wissen, ob es sich f¨ lohnt, mehr G¨ aste am Abend zu bedienen (das heißt ob β1 > 0), zum Beispiel ¨ durch das Ubernehmen eines gr¨ oßeren Bedienbereichs. Im Beispiel 140 167 der Intelligenz möchten die Initiatoren der Studie erfahren, ob intelligentere Abiturienten die gestellte Aufgabe tats¨ achlich signifikant schneller l¨ osen können (das heißt ob β1 < 0). Nat¨ urlich kann man sich auch allgemeiner fragen, ob sich der Steigungsparameter signifikant von einem festen Wert c ∈ R unterscheidet. Ebenso kann man u ¨berpr¨ ufen, ob sich der Achsenabschnitt signifikant von Null oder von einem anderen vorgegebenen Wert unterscheidet. Voraussetzungen Zur Anwendung der Tests u ¨ber die Parameter des einfachen linearen Regressionsmodells m¨ ussen folgende Voraussetzungen erf¨ ullt sein Betrachtet werden unabh¨ angige Zufallsvariablen Y1 , . . . , Yn , zusamoße. Alle Paare men mit zugehörigen Werten x1 , . . . , xn der Einflussgr¨ (xi , Yi ) folgen dem gleichen einfachen linearen Regressionsmodell Yi = β0 + β1 · xi + εi ,

i = 1, . . . , n.

Beobachtet seien die Paare (x1 , y1 ), . . . , (xn , yn ). F¨ ur die Modellfehler εi gilt: εi sind unabh¨ angig und identisch normalverteilt, εi ∼ N (0, σ 2 ), i = 1, . . . , n. Damit sind auch die Zufallsvariablen Yi normalverteilt mit E(Yi ) = β0 + β1 · xi , i = 1, . . . , n.

310


Hypothesen F¨ ur die Parameter β0 und β1 des einfachen linearen Regressionsmodells k¨ onnen folgende Testprobleme betrachtet werden Problem (1): Problem (2): Problem (3):

H0 : βj = c H0 : βj ≤ c H0 : βj ≥ c

H1 : βj = c H1 : βj > c H1 : βj < c

gegen gegen gegen


Dabei ist c ∈ R ein fest vorgegebener Wert, und die Testprobleme können f¨ ur j = 0, 1 aufgestellt werden.

Teststatistik Wie bei der Herleitung der Konfidenzintervalle f¨ ur die Regressionskoeffizienten (Verteilungen der Parameterschätzer oßen 164) sind die Gr¨ − βj TβKQ j ! , Tσj2

j = 0, 1

t-verteilt mit n − 2 Freiheitsgraden. Hierbei sind f¨ ur j = 0, 1 TβKQ j

die KQ Sch¨ atzer 138 f¨ ur βj ,

σj2

=

Tσ02

=

Tσ12

=

TσU2

=

Var(TβKQ ) die Varianzen der Sch¨ atzer TβKQ , j j n x2 n i=1 i TσU2 · , n · i=1 (xi − x)2 TσU2 , 2 i=1 (xi − x) n 1 · (Yi − Y%i )2 , n − 2 i=1 n

wobei Tσ02 , Tσ12 , Tσ2 Varianzsch¨ atzer f¨ ur σ02 , σ12 , σ 2 bezeichnen. Unter der Annahme, dass βj = c gilt, sind daher die Teststatistiken TβKQ −c j , Tj = ! Tσj2 t-verteilt mit n − 2 Freiheitsgraden.

j = 0, 1

5.2

Parametrische Tests

311

Testentscheidung und Interpretation Die Testentscheidung kann anhand des kritischen Werts oder mit Hilfe des p-Werts herbeigef¨ uhrt werden. Entscheidungsregel basierend auf dem kritischen Wert In Abh¨ angigkeit vom gewählten Signifikanzniveau α gelten f¨ ur die Testprobleme (1) bis (3) folgende Entscheidungsregeln: Die Nullhypothese H0 wird zum Niveau α verworfen, wenn Problem (1): |Tj |

> t∗n−2;1−α/2

Problem (2):

Tj

>

Problem (3):

Tj

900

auf. Als Signifikanzniveau w¨ ahlt er α = 0, 05. Die zu berechnende Teststatistik ist − 900 TβKQ . T1 = 1! Tσ12 Aus den vorherigen Berechnungen zum Gewinn eines Unternehmers 138 sind die folgenden realisierten Gr¨ oßen bereits bekannt atzung f¨ u r β1 , β%1 = 986, 860, die KQ Sch¨ σ %12 = 686, 5503, die geschätzte Varianz des Schätzers TβKQ . 1 Die realisierte Teststatistik t1,beo ergibt sich zu t1,beo =

86, 860 β%1 − 900 = 3, 3150. = 2 26, 2021 σ %1

Der kritische Werte ist das 0,95-Quantil der t-Verteilung mit 3 Freiheitsgraden t∗3;0,95 = 2, 3534.

5.2

Parametrische Tests

313

Wegen t∗3;0,95 = 2, 3534 < t1,beo = 3, 3150 kann die Nullhypothese H0 zum Niveau α = 0, 05 verworfen werden. Der Gewinnzuwachs bei einer Erh¨ ohung der Produktion um 1 000 Einheiten ist B signifikant gr¨ oßer als 900. Beispiel (Fortsetzung 140 167) Intelligenz und Probleml¨ osen

Im Beispiel der Untersuchung des Zusammenhangs zwischen der Intelligenz und der Probleml¨ osefähigkeit von Abiturienten 140 167 waren die folgenden Daten beobachtet worden: xi yi

100 3,8

105 3,3

110 3,4

115 2,0

120 2,3

125 2,6

130 1,8

135 1,6

Die graphische ¨ Uberpr¨ ufung 141 des Zusammenhangs zwischen den Intelligenzquotienten und den Zeiten bis zur Probleml¨ osung ergibt keinen Hinweis, der gegen den Ansatz eines einfachen linearen Regressionsmodells Yi = β0 + β1 · xi + εi spricht. Eine Normalverteilung der Fehler kann ebenfalls unterstellt werden. Die Initiatoren der Studie interessiert, ob eine h¨ ohere Intelligenz zu signifikant geringerer Zeit bis zur L¨ osung des gestellten Problems f¨ uhrt. Sie m¨ ochten also H0 : β1 ≥ 0

gegen

H1 : β1 < 0

testen. Als Signifikanzniveau soll α = 0, 1 gew¨ ahlt werden. Die zu berechnende Teststatistik ist −0 TβKQ 1 . T1 = ! Tσ12 Aus den Berechnungen zu Intelligenz und Probleml¨ osen 140 wissen wir, dass die KQ Sch¨ atzung f¨ ur β1 den Wert β%1 = − 0, 060 hat und die geschätze Varianz des Schätzers TβKQ gerade σ %12 = 0, 0002 ist. 1

B

314


Man berechnet die realisierte Teststatistik t1,beo als − 0, 060 β%1 = − 4, 2553. t1,beo = 2 = 0, 0141 σ %1 Als kritischen Wert erhält man das 0,1-Quantil der t-Verteilung mit 6 Freiheitsgraden: t∗6;0,1 = −t∗6;0,9 = − 1, 4398. Wegen t∗6;0,1 = − 1, 4398 > t1,beo = − 4, 2553 kann die Nullhypothese H0 zum Niveau α = 0, 1 verworfen werden. AbituriB enten mit einem höheren IQ l¨ osen die Aufgabe signifikant schneller.

5.3

5.3 Nichtparametrische Tests Eine Großzahl statistischer Verfahren unterstellt, dass die beobachteten Daten aus einer Grundgesamtheit stammen, die sich durch ein statistisches Modell aus einer bekannten Verteilungsklasse beschreiben l¨ asst. Damit wird angenommen, dass die Daten durch einen bestimmten Mechanismus erzeugt wurden, n¨ amlich durch eine spezielle Verteilung, die bis auf die sie charakterisierenden Parameter bekannt ist. (Der Erwartungswert und die Varianz einer Zufallsvariablen sind oftmals Funktionen dieser Parameter, wenn die Zufallsvariable dieser Verteilung folgt.) Methoden, die auf der obigen Annahme aufbauen, werden allgemein als parametrische Verfahren bezeichnet. H¨ aufig geht diese Annahme so weit, dass zur Anwendung eines statistischen Verfahrens speziell das Vorliegen von Daten aus einer normalverteilten Grundgesamtheit gefordert wird. Diese Anforderung an die Daten ist jedoch nicht immer zu rechtfertigen. In diesen F¨ allen bedarf es alternativer Methoden, den so genannten nichtparametrischen Verfahren. Da die Kenntnis der zugrunde liegenden Verteilung in der nichtparametrischen Statistik nicht vorausgesetzt wird, werden nichtparametrische Verfahren insbesondere dann eingesetzt, wenn wenig oder keine Information u ¨ber die Verteilung, aus der die Daten stammen, vorliegt. Dar¨ uber hinaus zeigt sich ein weiterer Vorteil in der zumeist einfachen Anwendung dieser Methoden. Die Verfahren basieren oft auf den R¨ angen der Beobachtungen oder auf den Vorzeichen, die aus den Abweichungen von einem bestimmten Wert resultieren.

5.3

Nichtparametrische Tests

315

Grundlagen

In diesem Abschnitt wollen wir zun¨ achst ben¨ otigte Grundlagen f¨ ur die Durchf¨ uhrung nichtparametrischer Tests einf¨ uhren. Diese beziehen sich haupts¨ achlich auf das Verhalten von Ordnungstatistiken, da beispielsweise der Wilcoxon-Rangsummen-Test 209 oder auch der Kruskal-Wallis-Test angen der geordneten Beobachtungen aus der Stichprobe ba335 auf den R¨ sieren. Dazu f¨ uhren wir zun¨ achst Ränge und den Begriff der Bindungen ein. Betrachtet wird eine Stichprobe z1 , . . . , zn+m vom Umfang n+m. Dabei kann es sich um Beobachtungen eines Merkmals handeln, aber auch um die Kombination von Beobachtungen verschiedener Merkmale. Die Merkmale m¨ ussen mindestens ordinal skaliert sein. Regel Verfahren zur Rangbildung: Die Beobachtungen z1 , . . . , zn+m werden der Gr¨ oße nach geordnet, beginnend mit der kleinsten. Den geordneten Beobachtungen werden Platznummern, die so genannten R¨ ange zugewiesen. Die kleinste Beobachtung erh¨ alt dabei den Rangwert 1, die n¨ achst größere den Rangwert 2 und so weiter. Die Rangwerte reichen von 1 bis n + m. Der Rang der i-ten Beobachtung wird mit R(zi ) bezeichnet. Stimmen mehrere Beobachtungen u ¨berein (Bindungen), so werden ihnen Durchschnittsr¨ ange zugewiesen.

Bindungen Besitzen zwei oder mehrere Beobachtungen in einer Stichprobe den gleichen Wert, so wird dies als Bindung bezeichnet. Eine eindeutige Zuweisung der R¨ ange ist nicht mehr möglich. In der Praxis werden dann h¨ aufig Durchschnittsr¨ ange gebildet.

In der Theorie ist das Auftreten von Bindungen bei der Betrachtung stetiger Zufallsvariablen X und Y ausgeschlossen. Die Praxis jedoch ermöglicht in vielen Situationen nur bedingt exakte Messungen, so dass sich gleiche Werte nicht immer vermeiden lassen. Durchschnittsr¨ ange Kann f¨ ur zwei oder mehrere Beobachtungen der Rang nicht eindeutig zugewiesen werden, so wird ihr Durchschnittsrang ermittelt. Dieser errechnet sich aus dem arithmetischen Mittel der betroffenen Ränge.

316


Den von Bindungen betroffenen Beobachtungen k¨ onnen die R¨ ange auch basierend auf einem Zufallsprinzip zugewiesen werden. Diese Methode ist aber aus statistischer Sichtweise weniger effizient und ist daher in der Praxis un¨ ublich. B

Beispiel Quiz Show

In einer Quiz Show stehen sich die zwei Teams Blau und Rot mit je vier Kandidaten gegen¨ uber. Allen Kandidaten werden je zehn Fragen gestellt, die individuell beantwortet werden m¨ ussen. F¨ ur jede richtige Antwort gibt es einen Punkt. Es gewinnt das Team, das am Ende die h¨ ochste Punktzahl hat. Gegeben sei folgender Spielausgang:

Team Punkte je Kandidat Summe

Blau 6 6 23

6

5

Rot 8 2 19

5

4

Innerhalb des blauen Teams erzielten drei Kandidaten die gleiche Punktzahl (6 Punkte). Ebenso gibt es je einen Kandidaten in beiden Teams mit 5 Punkten. Die geordneten Daten sehen wie folgt aus:

geordnete Beobachtungen Rang (ri )

2 1

4 2

5

5

6

6

6

8 8

Die Ränge {3; 4} und {5; 6; 7} lassen sich nicht eindeutig vergeben. Daher werden die jeweiligen Durchschnittsr¨ ange gebildet: r3;4 =

3+4 = 3, 5 2

und

r5;6;7 =

5+6+7 = 6. 3

Die Ränge werden somit wie folgt zugewiesen: geordnete Beobachtungen Rang (ri )

2 1

4 2

5 3,5

5 3,5

6 6

6 6

6 6

8 8 B

5.3


317

Der Vorzeichen-Test

In einem S¨ agewerk werden Bretter zugeschnitten. Die Soll-Länge beträgt 100 cm, die tatsächlich geschnittenen Längen variieren aufgrund von Zufallsschwankungen. Man kann zwar davon ausgehen, dass sie sich im Mittel symmetrisch um einen festen Wert verteilen, die zugrunde liegende Verteilung der Schnittl¨ ange ist jedoch unbekannt. Der Besitzer des Sägewerks möchte u ¨berpr¨ ufen, ob seine Maschine, die die Bretter zuschneidet, im Mittel die korrekte Schnittl¨ ange einh¨ alt. K¨ onnte man unterstellen, dass die Schnittl¨ ange einer Normalverteilung folgt, w¨ are der t-Test im Einstichprobenfall der angemessene Test f¨ ur dieses Problem. Im Fall des Sägewerks kann man lediglich von einer symmetrischen Verteilung, jedoch nicht von einer Normalverteilung der Schnittl¨ angen ausgehen. In einem solchen Fall kann man auf den nichtparametrischen Vorzeichen-Test zur¨ uckgreifen. Seine Testentscheidung basiert auf den Abweichungen der Daten zum Median der zugrunde liegenden Verteilung. Voraussetzungen Seien X1 , . . . , Xn unabh¨ angige und identisch wie X verteilte Stichprobenvariablen mit stetiger Verteilungsfunktion FX (x). Das Messniveau der Daten muss mindestens ordinal sein. Zu testen sei eine Hypothese u ¨ ber den Median 13 e xmed einer Zufallsvariablen X.

Hypothesen Der unbekannte Median der Zufallsvariable X wird mit xmed bezeichnet, während δ0 ein gegebener, unter der Nullhypothese unterstellter Wert sei. Das Testproblem lautet dann in Abh¨ angigkeit der gew¨ unschten Alternativhypothese Problem (1): Problem (2): Problem (3):

H0 : xmed = δ0 H0 : xmed ≤ δ0 H0 : xmed ≥ δ0

gegen gegen gegen

H1 : xmed = δ0 (zweiseitig) H1 : xmed > δ0 (rechtsseitig) H1 : xmed < δ0 (linksseitig)

318


Teststatistik Die Teststatistik beim Vorzeichen-Test ist definiert als Y = Anzahl der Xi mit einem Wert kleiner als δ0 . Es wird also f¨ ur jede Beobachtung festgehalten, ob sie kleiner oder gr¨ oßer bzw. gleich dem Wert δ0 ist. Dies lässt sich als Bernoulliversuch 38 auffassen, und die Teststatistik Y ist somit unter der Annahme xmed = δ0 binomialverteilt mit Parametern n und p = 0, 5, Y ∼ Bin(n; 0, 5). Der Wert 0,5 f¨ ur den Parameter p l¨ asst sich damit begr¨ unden, dass f¨ ur ur, dass Xi kleiner als δ0 ist, gerade xmed = δ0 die Wahrscheinlichkeit daf¨ 0,5 betr¨ agt. Dies folgt aus der Definition des Medians. Beim linksseitigen und rechtsseitigen Test ist der Fall xmed = δ0 lediglich der Grenzfall der Hypothese. Dennoch f¨ uhrt das Vorgehen in der beschriebenen Form (siehe ¨ Testentscheidung) zu einer validen Uberpr¨ ufung der entsprechenden Nullhypothese. Testentscheidung und Interpretation Die Testentscheidung kann anhand des kritischen Werts oder mit Hilfe des p-Werts herbeigef¨ uhrt werden. Entscheidungsregel basierend auf dem kritischen Wert F¨ ur einen Wert α mit 0 < α < 1 bezeichne qα die kleinste ganze Zahl f¨ ur die gilt P(Y ≤ qα ) = P(Y = 0) + P(Y = 1) + . . . + P(Y = qα ) > α. Große Werte der Teststatistik Y (Y nahe an n, dem Stichprobenumfang) sprechen f¨ ur xmed < δ0 , kleine Werte (Y nahe bei 0) hingegen f¨ ur xmed > δ0 . Die Nullhypothese H0 wird zum Niveau α abgelehnt, falls Problem (1): Y < qα/2 oder Y > n − qα/2

(zweiseitig)

Problem (2):

Y < qα

(rechtsseitig)

Problem (3):

Y > n − qα

(linksseitig)

5.3


319

Entscheidungsregel basierend auf dem p-Wert Anstelle des kritischen Werts kann die Testentscheidung auch mit Hilfe des p-Werts herbeigef¨ uhrt werden. Die Nullhypothese H0 wird zum Niveau α abgelehnt, falls der p-Wert < α ist, wobei sich der p-Wert der Teststatistik Y berechnet als Problem (1): p-Wert = 2 · [P(Y = 0) + ... + P(Y = min{ybeo , n − ybeo })] * ) n n n + ... + + = 2 · 0, 5n· min{ybeo , n − ybeo } 1 0 Problem (2): p-Wert = P(Y = 0) + P(Y = 1) + ... + P(Y = ybeo ) = 0, 5n ·

* ) n n n + ... + + ybeo 1 0

Problem (3): p-Wert = P(Y = n) + P(Y = n − 1) + ... + P(Y = ybeo ) * ) n n n + ... + + = 0, 5 · ybeo n−1 n n

Der Vorzeichen-Test ist ein konservativer 204 Test, das heißt, das Niveau α wird nicht immer ganz ausgesch¨ opft. Da die Berechnungen der Quantile f¨ ur große Stichprobenumf¨ ange sehr aufwändig werden, kann die Approximation der Binomialverteilung durch die Normalverteilung zur Bestimmung der Quantile oder des p-Werts verwendet werden. Der Vorzeichen-Test kann auch zum Vergleich der mittleren Lage (im Sinne des Medians) zweier Zufallsvariaangige blen herangezogen werden. Seien hierzu (X1 , Y1 ), . . . , (Xn , Yn ) unabh¨ und identisch wie (X, Y ) verteilte Zufallsvariablen mit stetigen Verteilungsfunktionen FX (x) und FY (y). Besitzen X und Y den gleichen Median, so ist der Median von X − Y gleich 0, so dass die Gleichheit der mittleren Lage von X und Y anhand von X1 − Y1 , . . . , Xn − Yn getestet werden kann, indem f¨ ur den Schwellenwert δ0 = 0 angenommen wird. Dieses Vorgehen ist

320


genauso wie im Fall normalverteilter Zufallsvariablen X und Y beim t-Test im Zweistichprobenfall f¨ ur unverbundene Stichproben. B

Beispiel S¨ agewerk

In einem S¨ agewerk sollen Bretter mit einer Länge von 100 cm hergestellt werden, dazu wird die S¨ age auf den Sollwert von 100 cm eingestellt. Zusätzlich muss jedoch von Schwankungen ausgegangen werden, die zuf¨ allig, aber begrenzt sind. Die Firma u ¨berpr¨ uft in regelm¨ aßigen Abständen, ob die Maschine richtig zentriert ist. Sie erhebt dazu eine Stichprobe und f¨ uhrt einen Vorzeichen-Test zum Signifikanzniveau α = 0, 2 durch. Ist es das Ziel, die Solll¨ ange von 100 cm zu u ¨berpr¨ ufen, so muss auf Abweichungen in beide Richtungen vom Sollwert getestet werden. Damit ist folgendes zweiseitiges Testproblem ad¨ aquat H0 : xmed = 100

gegen

H1 : xmed = 100

Die Stichprobe besteht aus n = 9 Brettern. Unter der Nullhypothese ist die Anzahl der Bretter in der Stichprobe, die k¨ urzer als 100 cm sind, binomialverteilt mit n = 9 und p = 0, 5. In folgender Tabelle sind die Dichte P(Y = x) und die Verteilungsfunktion F(x) = P(Y ≤ x) dieser Binomialverteilung tabelliert, wobei Y die Teststatistik bezeichnet. Y war definiert als die Anzahl der Beobachtungen, die kleiner als der vorgegebene Sollwert von δ0 = 100 sind. x 0 P(Y = x) 0,0020 P(Y ≤ x) 0,0020

1 0,0175 0,0195

2 0,0703 0,0898

3 0,1641 0,2539

4 0,2461 0,5000

5 0,2461 0,7461

6 0,1641 0,9102

7 0,0703 0,9805

Zum Signifikanzniveau α = 0, 2 ist der kritische Wert qα/2 = q0,1 = 3, da P(Y ≤ 2) ≤ 0, 1 < P(Y ≤ 3) gilt. Beobachtet wurden die folgenden L¨ angen x L¨ ange

1 99,0

2 100,2

3 99,8

4 100,4

5 100,5

6 100,1

7 99,5

8 100,3

9 100,1

Da genau 3 Bretter k¨ urzer als 100 cm sind, ist der Wert der Teststatistik ybeo = 3. Entsprechend der Entscheidungsregel gilt: qα/2 = 3 = ybeo = 3 < n − qα/2 = 6, und H0 kann zum Niveau α = 0, 2 nicht verworfen werden. Alternativ kann auch der p-Wert f¨ ur die Testentscheidung herangezogen werden p-Wert =

2 · [P(Y = 0) + P(Y = 1) + P(Y = 2) + P(Y = 3)]

5.3


=

321

2 · P(Y ≤ 3) = 2 · 0, 2539 = 0, 5068.

Der p-Wert 0,5068 ist erwartungsgem¨ aß gr¨ oßer als α, da ja beide Entscheidungskriterien a¨quivalent sind. H0 kann zum Niveau α = 0, 2 nicht verworfen B werden. Beispiel Schadstoff

B

Nach einem Industrieunfall in einem Chemieunternehmen wurde im Grundwasser ein Schadstoff festgestellt. Der von der EU vorgegebene Grenzwert von 5 ppm wurde nicht u ¨berschritten. Man ist sich jedoch einig, dass schon geringere Konzentrationen des Schadstoffes Schäden an Fauna und Flora in der Umgebung mit hoher Wahrscheinlichkeit verursachen k¨ onnen. Experten nennen einen geringeren Grenzwert von 1 ppm, bei dem man sicher sein kann, dass eine Schadstoffmenge unterhalb dieses Werts keine negativen Auswirkungen auf die Umwelt hat. Die ansässige Umweltbehörde entscheidet, dass teure Entgiftungsmaßnahmen nur dann nicht vorgenommen werden m¨ ussen, wenn mindestens 50% der Fl¨ ache im verseuchten Gebiet eine Konzentration von weniger als 1 ppm aufweist. Dazu werden Bodenproben von verschiedenen Stellen genommen und die Schadstoffkonzentrationen im Labor gemessen. Basierend auf dieser Stichprobe soll mit Hilfe eines Vorzeichen-Tests zum Niveau α = 0, 05 eine Entscheidung herbeigef¨ uhrt werden. Probe Menge in ppm Probe Menge in ppm

1 0,5 10 3,4

2 0,8 11 0,8

3 0,4 12 0,1

4 2,3 13 1,2

5 0,6 14 0,7

6 1,6 15 0,2

7 0,2 16 0,8

8 0,3 17 0,9

9 0,9

Die Schadstoffmessungen in ppm werden entsprechend der Herleitung des Vorzeichen-Tests als Xi , i = 1, 2, 3, . . . , 17 bezeichnet. Die Zufallsvariablen angig und identisch wie eine Zufallsvariable X verteilt Xi werden als unabh¨ angenommen. Es stellt sich nun die Frage, ob der Median von X kleiner oder doch gr¨ oßer als der strenge Wert δ0 = 1 ist. Es handelt sich hierbei also um ein linksseitiges Testproblem H0 :

xmed ≥ δ0

gegen

H1 :

xmed < δ0 ,

da nur eine Ablehnung der Nullhypothese die Entscheidung unterst¨ utzen kann, keine Maßnahmen vorzunehmen. In 13 der 17 Proben wurde eine Konzentration geringer als 1 ppm, dem Vergleichswert, festgestellt. Der realisierte

322


Wert der Teststatistik beträgt also ybeo = 13. Die Testentscheidung soll basierend auf dem kritischen Wert herbeigef¨ uhrt werden. Als Signifikanzniveau ist α = 0, 05 gewählt worden. Dazu brauchen wir nur das Quantil qα = q0,05 der Binomialverteilung mit n = 17 und p = 0, 5. Wir berechnen die Werte der Verteilungsfunktion P(X ≤ x) bis zu dem ersten x, f¨ ur das P(X ≤ x) > 0, 05 gilt 17 17 < 0, 0001 P(X ≤ 0) = 0, 5 · 0 P(X ≤ 1) = P(X ≤ 0) + 0, 517 · 17

P(X ≤ 2) = P(X ≤ 1) + 0, 5

17

P(X ≤ 3) = P(X ≤ 2) + 0, 5

P(X ≤ 5) = P(X ≤ 4) + 0, 5

17 1

17 · 2

17 · 3

P(X ≤ 4) = P(X ≤ 3) + 0, 517 · 17

17 4

17 · 5

< 0, 0001 = 0, 0012 = 0, 0064 = 0, 0245 = 0, 0717

Das Quantil ist gegeben durch q0,05 = 5, denn f¨ ur x = 4 ist der Wert der Verteilungsfunktion noch kleiner als 0,05, f¨ ur x = 5 jedoch schon größer als 0,05. Da der obere kritische Wert n − q0,05 = 17 − 5 = 12 ist und der Wert der Teststatistik ybeo = 13 ist, ist ybeo > n − q0,05 und die Nullhypothese kann entsprechend der Entscheidungsregel abgelehnt werden. Das heißt, es werden keine Maßnahmen zur Entgiftung des betroffenen Gebietes getroffen, da man zu 95% sicher sein kann, dass höchstens die Hälfte des Gebietes eine Schadstoffverschmutzung zwischen 1 ppm und 5 ppm aufB weist. B

Beispiel T¨ agliche Regenmenge

Auf Saramsanu sagt man, dass es im Inland der kleinen Insel st¨ arker regnet als an der K¨ uste. Um diese Behauptung zu u ¨berpr¨ ufen, soll ein Vorzeichen-Test zum Niveau α = 0, 05 durchgef¨ uhrt werden. Der Vorzeichen-Test eignet sich, da u ¨ber die Verteilung der Regenmenge aus Saramsanu keine hinreichende

5.3


323

Information vorliegt. Zur Durchf¨ uhrung werden an mehreren Tagen an jeweils einer Stelle im Inland und einer Stelle an der K¨ uste die Niederschläge in Liter pro Quadratmeter gemessen. Wir nehmen dabei an, dass die Beobachtungen voneinander unabh¨ angig sind. Tag Inland K¨ uste

1 16,3 20,2

2 1,9 1,7

3 11,3 0

4 34,8 23,3

5 15,1 14,3

6 19,6 45,0

7 1,5 0,8

8 0,1 0,2

9 56,1 10,8

10 32,8 28,9

Die t¨ agliche Niederschlagsmenge werde im Inland mit X, die an der K¨ uste mit U bezeichnet. Das f¨ ur die Fragestellung ben¨ otigte Testproblem lautet nun H0 :

xmed ≤ umed

gegen

H1 :

xmed > umed ,

wobei wir anhand der Daten u ¨berpr¨ ufen wollen, ob die Nullhypothese verworfen werden kann. Bei n¨ aherer Betrachtung ist festzustellen, dass dieses Testproblem nicht f¨ ur den Vorzeichen-Test definiert worden ist (siehe Hypothesen). Jedoch k¨ onnen wir uns auf die Bemerkung berufen, welche besagt, dass das Testproblem entsprechend umgeformt werden kann. Dazu betrachten wir die Differenz der beiden Regenmengen, bezeichnet mit Z = X − U , welche genau dann den Wert Null annimmt, wenn xmed = umed gilt. Wir betrachten nun also die Zufallsvariable Z = X − U bzw. die Stichprobenvariablen Z1 , . . . , Z10 und formulieren das Testproblem entsprechend. Das obige Testproblem kann dann auch als rechtsseitig geschrieben werden H0 :

zmed ≤ 0 gegen

H1 :

zmed > 0,

wie es f¨ ur den Vorzeichen-Test eingef¨ uhrt wurde. ur Die Teststatistik Y entspricht der Anzahl der Zi , die kleiner sind als 0. F¨ unsere Daten betr¨ agt der Wert der Teststatistik ybeo = 3. Das Quantil q0,05 der Binomialverteilung mit n = 10 und p = 0, 5 ist gegeben durch q0,05 = 2, da P(Y ≤ 1) = 0, 0107 < 0, 05 und P(Y ≤ 2) = 0, 0547 > 0, 05. Die Nullhypothese kann also nicht abgelehnt werden, denn der Wert der Teststatistik ist gr¨ oßer als der kritische Wert: ybeo = 3 > q0,05 = 2. Somit konnte die obige Vermutung einer h¨ oheren Niederschlagsmenge basierend auf der Stichprobe B und der gew¨ ahlten Methode nicht nachgewiesen werden.

324


Der Wilcoxon-Rangsummen-Test

B

Beispiel IT Branche

Eine noch junge Firma aus dem IT-Bereich möchte ihre Position in der Branche festigen, indem sie ihren Marktanteil und damit verbunden den j¨ ahrlichen Umsatz steigert. Basierend auf den bisherigen Erfahrungen und den Umsatzzahlen beschließt das Unternehmen, zwei favorisierte Verkaufsstrategien auszuprobieren. F¨ ur einen m¨ oglichst fairen Vergleich erfolgt eine zuf¨ allige Zuteilung der beiden Strategien auf je zehn der insgesamt zwanzig Filialen. Unter ansonsten gleichen Bedingungen wird in jeder Filiale die Zeit (in Minuten) bis zur T¨ atigung der ersten 50 Verk¨ aufe gemessen. Die gewinnbringendere Strategie soll dann einheitlich in allen Filialen verwendet werden. Das Bestreben nach einer möglichst zuverl¨ assigen Entscheidung ist nachvollziehbar, da eine im Mittel effizientere Verkaufspsychologie einen h¨ oheren B Umsatz f¨ ur das Unternehmen bedeutet. Allgemein lassen sich solche Entscheidungen mit Hilfe geeigneter statistischer Methoden aus der Sch¨ atz- und Testtheorie treffen. In dem Fallbeispiel kann davon ausgegangen werden, dass die Wartezeiten bis zur Tätigung der ersten 50 Verk¨ aufe keiner Normalverteilung folgen und dass zu wenig Information zur Annahme einer anderen Verteilung vorliegt. Die Anwendung eines nichtparametrischen Entscheidungsverfahrens erscheint daher sinnvoll. Der Wilcoxon-Rangsummen-Test ist ein Rangtest auf Lagealternativen f¨ ur Daten aus unabh¨ angigen Stichproben mit mindestens ordinalem Messniveau. Er geh¨ ort in die Klasse der nichtparametrischen Verfahren und wird angewendet, wenn zwei unbekannte Verteilungen bez¨ uglich ihrer Lage miteinander verglichen werden sollen oder es sich bei den Verteilungen nicht um Normalverteilungen handelt. Anwendungen dieses Tests finden sich in allen natur- und gesellschaftswissenschaftlichen Fachgebieten. H¨ aufig ist der Vergleich zweier Behandlungen mit dem Ziel, einen möglichen Unterschied in ihrer Wirksamkeit nachzuweisen, von Interesse. Die Bezeichnung Rangtest ergibt sich aus der Tatsache, dass anstelle der eigentlichen Beobachtungen nur deren R¨ ange in die Teststatistik eingehen.

5.3


325

Kann den Daten eine Normalverteilung unterstellt werden, so sollte aus statistischer Sichtweise das parametrische Gegenst¨ uck des Wilcoxon-Rangsummen-Tests, der t-Test, verwendet werden. Voraussetzungen F¨ ur eine Anwendung des Wilcoxon-Rangsummen-Tests m¨ ussen folgende Voraussetzungen erf¨ ullt sein Betrachtet werden zwei Merkmale, dargestellt durch Zufallsvariablen X und Y , die mindestens ordinal skaliert sind. Die Zufallsvariablen X und Y sind stochastisch unabhängig. Die Zufallsvariablen X und Y haben die stetigen Verteilungsfunktionen FX (x) und GY (y). Die Verteilungsfunktion GY (z) an der Stelle z ∈ R ergibt sich aus einer Verschiebung der Verteilungsfunktion FX (z) um einen Wert δ ∈ R : FX (z) = GY (z − δ). Dies bedeutet: Beide Verteilungen besitzen die gleiche Gestalt und damit auch die gleiche Streuung, sie unterscheiden sich jedoch in ihrer Lage. Zu testen sei eine Hypothese u ¨ ber die Lageparameter der Zufallsvariablen X und Y . Zu beachten ist, dass es sich hierbei um Voraussetzungen an die Verteilungen FX (x) und GY (y) der Zufallsvariablen X und Y handelt. Die Stichangig und identisch probenvariablen X1 , . . . , Xn sollen voneinander unabh¨ angig und idengemäß FX (x) verteilt sein, Y1 , . . . , Ym voneinander unabh¨ tisch verteilt gemäß der Verteilung GY (y). Beobachtet werden die Stichproben x1 , . . . , xn und y1 , . . . , ym .

gY(y)

fX(x)

d

326


Ein positiver Wert von δ bedeutet, dass GY (z) oberhalb von FX (z) liegt, bzw. altnis zu f X (z) nach links verschoben dass die Dichtefunktion g Y (z) im Verh¨ ist. Die Zufallsvariable Y nimmt also mit gr¨ oßerer Wahrscheinlichkeit kleinere Werte an als X. F¨ ur δ < 0 gilt der umgekehrte Sachverhalt. Der Wilcoxon-Rangsummen-Test u ¨ berpr¨ uft die Lageverschiebung der Ver¨ ufung des Parameters δ. Eine Verteilungsfunktion FX (z) durch die Uberpr¨ schiebung liegt vor, wenn δ verschieden von Null ist. (Zur Erinnerung: Die Verteilungsfunktion FX (z) ist um einen Wert δ ∈ R verschoben, wenn gilt FX (z) = GY (z − δ).) Ist die Richtung der vermuteten Verschiebung bekannt, so wird getestet, ob δ gr¨ oßer oder kleiner als Null ist, andernfalls erfolgt ein Test, ob δ von Null verschieden ist. Hypothesen F¨ ur den Parameter δ ∈ R ergeben sich f¨ ur den Test auf Lagealternativen folgende m¨ ogliche Hypothesen Problem (1): Problem (2): Problem (3):

H0 : δ = 0 H0 : δ ≤ 0 H0 : δ ≥ 0

gegen gegen gegen

H1 : δ = 0 H1 : δ > 0 H1 : δ < 0


In Problem(1) wird getestet, ob generell eine Lageverschiebung der Verahrend Problem (2) und teilungsfunktion FX um einen Wert δ vorliegt. W¨ (3) von einer Lageverschiebung der Verteilungsfunktion FX gezielt in eine Richtung ausgehen.

B

Beispiel Hypothesen

In vielen Reisezentren der Deutschen Bahn wurde lange ein Servicesystem verwendet, das f¨ ur jeden ge¨ offneten Schalter eine eigene Warteschlange vorsieht. Alternativ gibt es die M¨ oglichkeit der Bildung einer gemeinschaftlichen Schlange f¨ ur alle Schalter. Von Interesse ist, ob die Strategie der Bildung einer gemeinschaftlichen Schlange die mittlere Wartezeit der Kunden verk¨ urzt. Bezeichne X die Wartezeit der Kunden bei separaten Warteschlangen und Y die Wartezeit bei einer gemeinschaftlichen Warteschlange. Dann l¨ asst sich das Testproblem wie folgt formulieren H0 : δ ≤ 0 gegen

H1 : δ > 0.

Ein pharmazeutisches Unternehmen hat ein neues Antibiotikum zur Behandlung von Tuberkulose entwickelt. Nun m¨ ochte es dessen Wirkeffizienz

5.3


327

¨ mit der eines herk¨ ommlichen Mittels vergleichen. Bei einer Uberlegenheit soll der neue Wirkstoff das herkömmliche Antibiotikum ersetzen. Eine Zielvariable der Untersuchung ist damit die mittlere Behandlungsdauer der Patienten. Seien mit X bzw. Y die Behandlungszeiten bei Anwendung des Standardantibiotikums bzw. des neuen Antibiotikums bezeichnet. Dann muss das Testproblem formuliert werden als H0 : δ ≤ 0

gegen

H1 : δ > 0.

Ein Bauer m¨ ochte Kresse an einen nahe gelegenen Supermarkt verkaufen. Aufgrund seiner Erfahrungen vermutet der Bauer, dass die Aussaat der Kresse auf Watte mit zugesetzten Nährstoffen ertragreicher ist als eine Aussaat auf handels¨ ublicher Erde, die mit Bakterien oder anderen Sch¨ adlingen kontaminiert sein kann. Er entschließt sich, beide Methoden in einem Versuch zu vergleichen, in der Hoffnung, seine Vermutung durch die Daten untermauern zu k¨ onnen. Bezeichne X den Ertrag bei Aussaat der Kresse auf Erde und Y den Ertrag bei Aussaat auf Watte. Dann formulieren sich Null- und Alternativhypothese als H0 : δ ≥ 0

gegen

H1 : δ < 0. B

Beispiel (Fortsetzung 324) IT Branche

Greifen wir zur¨ uck auf das Beispiel aus der Einf¨ uhrung. Die Firma aus der IT-Branche hat das Ziel, unter zwei verschiedenen Verkaufsstrategien die gewinnbringendere herauszufinden. Angenommen das Unternehmen hat schon zu Beginn die Vermutung, dass eine der Strategien (bezeichnet mit Strategie 2) effizienter ist, als die andere (bezeichnet mit Strategie 1). Es erwartet also f¨ ur die Filialen, die Strategie 2 einsetzen, jeweils k¨ urzere Zeiten f¨ ur die ersten 50 Verk¨ aufe, als f¨ ur diejenigen Filialen, die Strategie 1 verwenden. Seien X und Y Zufallsvariablen, die die Zeit bis zur T¨ atigung der ersten 50 Verkäufe pro Filiale unter Strategie 1 bzw. Strategie 2 beschreiben. Unter der effizienteren Strategie ist es wahrscheinlicher, k¨ urzere Wartezeiten zu beobachten. Die Verteilungsfunktion von Y sollte also in Bezug auf die von X nach links verschoben sein. Um die Vermutung des Unternehmens zu u ¨berpr¨ ufen, ist also die Hypothese zu testen, dass δ positiv ist.

B

328


Es ergibt sich damit das Testproblem mit den Hypothesen H0 und H1 : H0 : δ ≤ 0

gegen

H1 : δ > 0 . B

Teststatistik Die mit W bezeichnete Teststatistik errechnet sich aus der Summe der R¨ ange der Stichprobenvariablen X1 , . . . , Xn : W =

n

R(Xi ),

i=1

wobei R(Xi ) der Rang von Xi in der kombinierten Stichprobe ist. Man beachte, dass die Ränge der Stichprobenvariablen Y1 , . . . , Ym nicht in die Teststatistik eingehen.

Zuweisung der R¨ ange Die Beobachtungen x1 , . . . , xn , y1 , . . . , ym werden zu einer kombinierten Stichprobe z1 , . . . , zn+m zusammengefasst. In der kombinierten Stichprobe werden den Beobachtungen ihre R¨ ange zugeordnet. Die Rangzahlen reichen dabei von 1 bis n + m. Bei gleichen Beobachtungswerten (Bindungen) werden die Durchschnittsr¨ ange zugewiesen.

Die Ränge R(xi ) bzw. R(yi ), die den Beobachtungen x1 , . . . , xn , y1 , . . . , ym zugeordnet werden, sind selbst Realisierungen einer gleichverteilten Zufallsvariablen R. Damit kann die Verteilung der Teststatistik u ¨ber kombinatorische ¨ Uberlegungen bestimmt werden, die in der einschl¨ agigen Literatur zu finden sind, siehe zum Beispiel B¨ uning, Trenkler (1994). Liegen Bindungen innerhalb einer Stichprobe vor, also zwischen zwei x- oder zwei y-Werten, so bleibt die Teststatistik davon unber¨ uhrt. Bindungen zwischen Beobachtungen der einzelnen Stichproben hingegen haben einen Einfluss auf den Wert der Teststatistik W und somit auch auf die Verteilung von W . Dieser Einfluss ist jedoch begrenzt, wenn die Anzahl der Bindungen gering ist.

5.3


329

Testentscheidung und Interpretation Abh¨ angig von der Wahl des Signifikanzniveaus α gelten f¨ ur die Probleme (1)-(3) folgende Entscheidungsregeln: Die Nullhypothese H0 wird zum Niveau α verworfen, wenn ∗ ∗ oder W ≥ w1−α/2 Problem (1): W ≤ wα/2 ∗ W ≥ w1−α W ≤ wα∗



Der kritische Wert wα∗ ist das α−Quantil der Verteilung von W . Die Symmetrie der Verteilung der Teststatistik W erlaubt die Berechnung ∗ mit Hilfe von wα∗ . von w1−α Es gilt folgender Zusammenhang: ∗ = n · (m + n + 1) − wα∗ , w1−α

wobei n und m jeweils die Stichprobenumfänge f¨ ur die Zufallsvariablen X und Y sind. Dabei m¨ ussen n und m nicht notwendigerweise gleich groß sein. Basierend auf der Testentscheidung, kann nun eine Schlussfolgerung bez¨ uglich der urspr¨ unglichen Problemstellung gezogen werden. Zum Beispiel, ob tatsächlich eine Lageverschiebung vorliegt und was diese im Zusammenhang mit der urspr¨ unglichen Problemstellung bedeutet. Dabei sollte ersichtlich werden, welche Information aus den Daten gewonnen werden konnte. Auf das Programmpaket R kann zur Berechnung der kritischen Werte nicht zur¨ uckgegriffen werden, da R eine andere Teststatistik verwendet. Beispiel (Fortsetzung 324 327) IT Branche

B

Die Firma aus der IT-Branche hat zur Untersuchung der beiden vorgeschlagenen Strategien die Zeit in Minuten bis zur Abhandlung der ersten 50 Verk¨ aufe pro Filiale gemessen. Zu einem Niveau α = 0, 05 soll u ¨berpr¨ uft werden, ob ¨ sich eine Uberlegenheit der Strategie 2 nachweisen läßt. Es wurden folgende Zeiten (in min) beobachtet Strategie Minuten

101

98

1 210

141

112

58

237

2 86

74

125

330


Seien X und Y die Zufallsvariablen, die die Zeit bis zur T¨ atigung der ersten 50 Verk¨ aufe pro Filiale unter Strategie 1 bzw. Strategie 2 beschreiben. Das Messniveau von X und Y ist somit metrisch und X und Y haben stetige Verteilungsfunktionen FX (x) und GY (y). (Zu beachten ist jedoch, dass die Zeit nur diskret gemessen werden kann.) Wird von den unterschiedlichen Strategien 1 und 2 abgesehen, sind die Bedingungen f¨ ur alle Filialen ansonsten gleich. Daher kann angenommen werden, ochstens bez¨ uglich dass sich die Verteilungsfunktionen FX (x) und GY (y) h¨ ihrer Lage unterscheiden. Eine Normalverteilung als zugrunde liegende Verteilung ist nicht zu vermuten, da es sich bei X und Y um Wartezeiten handelt. Ist Strategie 2 tatsächlich u ¨berlegen, so sollte sich dies in signifikant k¨ urzeren Verkaufszeiten widerspiegeln. Die Dichtefunktion der Zufallsvariablen Y (Strategie 2) w¨ urde also nach links verschoben sein, das heißt δ > 0. Das Testproblem lautet damit: H0 : δ ≤ 0

gegen

H1 : δ > 0.

Die Beobachtungen der kombinierten Stichprobe werden, beginnend mit der kleinsten, der Gr¨ oße nach geordnet. Strategie Beobachtungen Rang (ri )

2 y1 58 1

2 y4 74 2

2 y3 86 3

1 x2 98 4

1 x1 101 5

1 x5 112 6

2 y5 125 7

1 x4 141 8

1 x3 210 9

2 y2 237 10

Zur Berechnung der Teststatistik W werden alle Ränge, die zu Beobachtungen der Zufallsvariablen X geh¨ oren, aufsummiert. Die Realisierung wbeo ergibt sich damit als wbeo =

5

R(xi ) = 1 + 2 + 3 + 7 + 10 = 23.

i=1 ∗ ∗ ist mit n = m = 5 und α = 0, 05 als w1−α = 36 Der kritische Wert w1−α gegeben. ∗ Der kritische Wert w0,95 = 36 ist gr¨ oßer als der Wert der Teststatistik wbeo = 23. Die Nullhypothese kann damit zu einem Signifikanzniveau von α = 0, 05 nicht verworfen werden. Aufgrund der Daten l¨ asst sich also keine ¨ B Uberlegenheit von Strategie 2 nachweisen.

5.3


331

Erh¨ oht sich die Anzahl der Beobachtungen in den einzelnen Stichproben, so l¨ asst sich die Verteilung von W durch eine Normalverteilung approximieren. Als Faustregel gilt, dass m oder n gr¨ oßer als 25 sein sollten. Die standardisierte Teststatistik Z=

W − µW σW

ist f¨ ur m, n −→ ∞ mit m n −→ γ = 0, ∞ unter der Nullhypothese H0 asymptotisch standardnormalverteilt, das heißt Z ∼ N (0, 1). Erwartungswert und die Varianz von W sind gegeben durch 2 und σW = n · m · (n + m + 1)/12.

µW = n · (n + m + 1)/2

Teststatistik Die Teststatistik Z l¨ asst sich also schreiben als W − n · (n + m + 1)/2 . Z= n · m · (n + m + 1)/12 und folgt unter der Annahme δ = 0 einer Standardnormalverteilung N (0, 1).

Testentscheidung F¨ ur große Stichprobenumf¨ ange gelten damit folgende Entscheidungsregeln: Die Nullhypothese H0 wird zum Niveau α verworfen, falls ∗ Problem (1): |Z| > z1−α/2


Z Z

>
2). Damit kann der Kruskal-Wallis-Test als eine Verallgemeinerung des Wilcoxon Rangsummentests 324 aufgefasst werden. Der Test beruht ebenfalls auf den R¨ angen der Gesamtstichprobe. Ziel des Tests ist es aufzudecken, ob es in den k Grundgesamtheiten irgendwo Unterschiede in der Lage der Verteilungen gibt. Ein solcher Test, der simultan Unterschiede in k Stichproben u ¨berpr¨ uft, wird auch als globaler Test bezeichnet. Der Kruskal-Wallis-Test zeigt nur auf, ob irgendwelche Lageunterschiede bestehen. Man kann aus seinem Ergebnis aber nicht schließen, zwischen welchen der untersuchten Grundgesamtheiten es solche Unterschiede gibt. Dazu wären paarweise Vergleiche zwischen je zwei Stichproben erforderlich. Hierzu werden spezielle so genannte multiple Testprozeduren ben¨ otigt, um das geforderte Testniveau α einzuhalten und damit den Fehler 1. Art f¨ ur den Lagevergleich unter Kontrolle zu halten. Kann den Daten eine Normalverteilung mit gleicher Varianz f¨ ur die k Stichproben unterstellt werden, so sollte aus statistischer Sichtweise das parametrische Gegenst¨ uck des Kruskal-Wallis-Tests, der F-Test 269, verwendet werden, da der F-Test in dieser Situation effizienter ist. Voraussetzungen F¨ ur die Anwendung des Kruskal-Wallis-Tests m¨ ussen folgende Voraussetzungen erf¨ ullt sein: Das interessierende Merkmal X ist mindestens ordinal skaliert mit stetiger Verteilungsfunktion F(x). Die Zufallsvariablen X1 , X2 , . . . , Xk der k Grundgesamtheiten sind voneinander stochastisch unabh¨ angig. Die Zufallsvariable Xi , i = 1, . . . , k besitzt die stetige Verteilungsfunktion FXi (x).

5.3


337

Die Verteilungsfunktion FXi (z), i = 1, . . . , k, an der Stelle z ∈ R ergibt sich aus einer Verschiebung der Verteilungsfunktion F um einen Wert δi ∈ R FXi (z) = F(z + δi ),

f¨ ur alle z ∈ R.

Damit wird unterstellt, dass die Verteilungen des Merkmals in den k Grundgesamtheiten die gleiche Gestalt und Streuung besitzen, sich aber in ihrer Lage unterscheiden k¨ onnen. Außerdem sind die Stichprobenvaangig und idenriablen Xi1 , Xi2 , . . . Xini , i = 1, . . . , k, voneinander unabh¨ tisch verteilt gemäß FXi , wobei ni den Stichprobenumfang der i-ten Stichprobe bezeichnet. Die Daten sollten mindestens ordinales Messniveau besitzen.

Hypothesen Der Kruskal-Wallis Test u ¨ berpr¨ uft global die Hypothese, ob alle Stichproben aus der gleichen Grundgesamtheit stammen und somit ein und derselben Verteilung folgen. Er kann nur aufdecken, ob sich mindestens zwei der Verteilungen in ihrer Lage unterscheiden. Er entscheidet nicht, zwischen welchen Verteilungen und in welche Richtung diese Unterschiede bestehen. Damit sind einseitige Hypothesen ausgeschlossen. Das Testproblem formuliert sich daher wie folgt H0 : δ1 = δ2 = . . . = δk = 0

gegen

H1 : δi = 0

f¨ ur mindestens ein i, i = 1, . . . , k. Unter der Nullhypothese haben die Zufallsvariablen X1 , . . . , Xk identische Verteilungsfunktionen. Unter der Alternativhypothese wird angenommen, dass sich f¨ ur mindestens ein Paar i und j, 1 ≤ i, j, ≤ k, die zugeh¨ origen Verteilungsfunktionen bez¨ uglich ihrer Lage unterscheiden, das bedeutet FXi (z) = FXj (z − δ) mit δ = 0.

Beispiel Hypothesen

Um eine Empfehlung an seine Leser herausgeben zu können, ist ein Gesundheitsmagazin an einem Vergleich unterschiedlicher Fetak¨ ase interessiert. Es ist bekannt, dass sich Kuh-, Ziegen-, bzw. Schafsmilch in ihrer

B

338


Zusammensetzung unterscheiden. Daher soll insbesondere untersucht werden, ob damit auch der Kaloriengehalt von Fetak¨ ase aus Kuh-, Ziegenbzw. Schafsmilch voneinander abweicht. H0 : δ1 = δ2 = δ3 = 0 gegen

H1 : δi = 0

f¨ ur mindestens ein i, i = 1, . . . , 3. Es ist von Interesse, ob sich der Ertrag von Erdbeeren durch den Einsatz unterschiedlicher D¨ ungemittel steigern l¨ asst. In einer Studie wurden daher drei verschiedene D¨ ungemittel auf jeweils neun gleichfl¨ achigen Erdbeerfeldern mit vergleichbarer Bodenstruktur und auch sonst vergleichbaren Bedingungen eingesetzt. Anschließend soll anhand des Gewichts der pro Feld geernteten Menge an Erdbeeren u ¨ berpr¨ uft werden, ob ein Unterschied zwischen den Erträgen unter den D¨ ungemitteln besteht. H0 : δ1 = δ2 = δ3 = 0 gegen

H1 : δi = 0

f¨ ur mindestens ein i, i = 1, . . . , 3. Mehrere Angeh¨ orige einer Krankenkasse beschweren sich u ¨ber zu lan¨ ge Wartezeiten bei verschiedenen Arzten. Dabei fällt der Krankenkasse auf, dass es sich bei den eingegangenen Beschwerden relativ häufig um Zahn¨ arzte handelt. Daher m¨ ochte die Krankenkasse u ¨ berpr¨ ufen, ob sich ¨ die mittlere Wartezeit der Patienten je nach Fachgebiet der Arzte unterscheidet. H0 : δ1 = δ2 = . . . = δk = 0 gegen

H1 : δi = 0

f¨ ur mindestens ein i, i = 1, . . . , k, wobei k die Anzahl der von der Krankenkasse untersuchten Fachrichtungen ist. B B

Beispiel (Fortsetzung 335) Kognitive F¨ ahigkeiten

¨ Greifen wir zur¨ uck auf das Beispiel 335. Zur Uberpr¨ ufung der Wahrnehmungs- und Koordinationsf¨ ahigkeit in Abh¨ angigkeit vom Alter sollten sechs-, siebenund achtj¨ ahrige Kinder einzelne Bilder aus einer Bildergeschichte in der richtigen Reihenfolge anordnen. Das Ziel ist nun, Unterschiede zwischen den verschiedenen Altersgruppen hinsichtlich der f¨ ur diese Aufgabe benötigten Zeit aufzudecken.

5.3


339

Seien X1 , X2 und X3 die Zufallsvariablen, die in den drei Altersgruppen jeweils die Zeit bis zur Bewältigung der gestellten Aufgabe messen. Damit ist zu u ¨berpr¨ ufen, ob sich die Verteilungsfunktionen der Zufallsvariablen hinsichtlich ihrer Lage unterscheiden. Es ergibt sich damit folgendes Testproblem mit den Hypothesen H0 und H1 H0 : δ1 = δ2 = δ3 = 0

gegen

H1 : δi = 0 B

f¨ ur mindestens ein i, i = 1, 2, 3.

Zuweisung der R¨ ange 328 Die k Stichproben werden zu einer Gesamtstichprobe vom Umfang n = k i=1 ni vereinigt. Alle Beobachtungen der kombinierten Stichprobe werden der Gr¨ oße nach geordnet. Den geordneten Werten werden in aufsteigender Reihenfolge die Ränge rij , i = 1, . . . , k und j = 1, . . . , ni zugewiesen. Mögliche Rangwerte sind die nat¨ urlichen Zahlen 1, 2, . . . , n. Der Wert rij bezeichnet den Rang der j-ten Beobachtung der i-ten Stichprobe innerhalb der kombinierten Gesamtstichprobe. Bei gleichen Beobachtungswerten (Bindungen) werden die Durchschnittsr¨ ange bestimmt und zugewiesen. Damit ergibt sich ri =

ni

rij

j=1

als Rangsumme der i-ten Stichprobe.

Teststatistik Unter der Nullhypothese gilt f¨ ur den Erwartungswert der Rangsumme der i-ten Stichprobe ni · (n + 1) . E(Ri ) = 2 ¨ Zur Uberpr¨ ufung der Nullhypothese H0 betrachtet man im Wesentlichen, wie stark die tatsächlich beobachteten Rangsummen von den unter H0 erwarteten abweichen. Dies geschieht in Form einer gewichteten Summe der quadrierten Abweichungen. Die Teststatistik H wird definiert als 1 12 · (Ri − E(Ri ))2 . n · (n + 1) i=1 ni k

H=

Die Verteilung der Teststatistik unter H0 kann durch kombinatorische ¨ Uberlegungen bestimmt werden.

340


Testentscheidung und Interpretation Große Abweichungen der beobachteten Rangsummen von den unter H0 erwarteten sprechen gegen die Nullhypothese. Die Teststatistik nimmt in solchen F¨ allen große Werte an. Die Nullhypothese H0 wird zum Signifikanzniveau α abgelehnt, falls H ≥ h∗1−α . Der kritische Wert h∗1−α ist das (1 − α)-Quantil der Verteilung von H. F¨ ur mehr als 3 Stichproben (k > 3) und gr¨ oßere Stichprobenumf¨ ange nimmt der Rechenaufwand zur Bestimmung der Verteilung von H schnell zu. In diesen Fällen kann die Verteilung von H unter der Nullhypothese H0 gut durch die χ2 −Verteilung mit (k − 1) Freiheitsgraden approximiert werden. Damit gilt die folgende Entscheidungsregel Testentscheidung basierend auf der χ2 -Verteilung Die Nullhypothese wird zum Niveau α verworfen, falls H ≥ χ2k−1;1−α , wobei k der Anzahl der Stichproben entspricht. Die Testentscheidung basierend auf der χ2 -Verteilung ermöglicht uns wieder die Berechnung des kritischen Werts oder des p-Werts mit dem Programmpaket R 294. B

Beispiel (Fortsetzung 335 338) Kognitive F¨ ahigkeiten

¨ Zur Uberpr¨ ufung der kognitiven F¨ ahigkeiten wurde die Zeit gemessen, die die Kinder zur Anordnung der einzelner Bilder aus der Bildergeschichte ben¨ otigten. Dabei konnte die Zeit auf halbe Minuten genau erfasst werden. Zum Niveau von α = 0, 05 soll nun u ¨berpr¨ uft werden, ob sich Unterschiede in der Entwicklung zwischen den Kindern nachweisen lassen. Es wurden folgende Zeiten beobachtet Alter Zeit in min

5

3,5

6 Jahre 4 4,5

3,5

4,5

7 Jahre 3 3 3,5

3

2

8 Jahre 2 3 2

Seien X1 , X2 und X3 die Zufallsvariablen, die die Zeit bis zur richtigen Anordnung der Bildergeschichte in den drei Altersgruppen beschreiben. X1 , X2

5.3


341

und X3 sind stetige Zufallsvariablen und haben stetige Verteilungsfunktionen FX1 (x), FX2 (x) und FX3 (x). Da die Zeit in der Studie diskret gemessen wurde (auf halbe Minuten genau), liegt ordinales Messniveau vor. Wird von dem unterschiedlichen Alter der Kinder abgesehen, sind die Bedingungen f¨ ur alle Sch¨ uler ansonsten gleich. Daher kann angenommen werden, dass sich die ochstens bez¨ uglich ihrer Verteilungsfunktionen FX1 (x), FX2 (x) und FX3 (x) h¨ Lage unterscheiden. Eine Normalverteilung als zugrunde liegende Verteilung ist aufgrund der wenigen Daten und der diskreten Messung problematisch, die Anwendung des Kruskal-Wallis-Tests ist also sinnvoll. Liegen tatsächlich Unterschiede in den kognitiven F¨ ahigkeiten sechs-, siebenund achtj¨ ahriger Kinder vor, sollte sich dies in signifikant unterschiedlichen Bearbeitungszeiten widerspiegeln. Mindestens eine der Verteilungsfunktionen urde also gegen¨ uber den anderen verder Zufallsvariablen X1 , X2 und X3 w¨ schoben sein. Das Testproblem lautet damit H0 : δ1 = δ2 = δ3 = 0 gegen

H1 : δi = 0

f¨ ur mindestens ein i, i = 1, 2, 3. Die Nullhypothese impliziert also keinen Unterschied zwischen den unterschiedlichen Altersgruppen, während die Alternativhypothese eine Differenz annimmt. Die Beobachtungen der kombinierten Stichprobe werden, beginnend mit der kleinsten, der Gr¨ oße nach geordnet. Beob. 2 2 Rang (ri ) Altersgruppe 3

2 2 3

2 2 3

3 5,5 2

3 5,5 2

3 5,5 2

3 3,5 5,5 9 3 1

3,5 9 2

3,5 9 1

4 11 1

4,5 12,5 1

4,5 12,5 2

5 14 1

Zur Berechnung der Teststatistik H werden zunächst die Rangsummen der drei Stichproben bestimmt. Dazu werden die R¨ ange der Beobachtungen, die zu einer Stichprobe geh¨ oren, aufsummiert r1

=

9 + 9 + 11 + 12, 5 + 14 = 55, 5

r2

=

5, 5 + 5, 5 + 5, 5 + 9 + 12, 5 = 38

r3

=

3 + 3 + 3 + 5, 5 = 14, 5.

Außerdem werden die unter der Nullhypothese H0 erwarteten Rangsummen bestimmt E(R1 )

=

E(R2 )

=

5 · (14 + 1) n1 · (n + 1) = = 37, 5 2 2 5 · (14 + 1) n2 · (n + 1) = = 37, 5 2 2

342


E(R3 ) =

4 · (14 + 1) n3 · (n + 1) = = 30. 2 2

Die Realisierung hbeo der Teststatistik ergibt sich damit als ) * (38 − 37, 5)2 (14, 5 − 30)2 12 (55, 5 − 37, 5)2 · + + hbeo = 14 · (14 + 1) 5 5 4 = 7, 1379. ur α = 0, 05 gegeben Der kritische Wert h∗1−α ist mit n1 = n2 = 5, n3 = 4 f¨ als h∗0,95 = 5, 6429. Da der kritische Wert h∗0,95 = 5, 6429 kleiner ist als der Wert der Teststatistik hbeo = 7, 1379, kann die Nullhypothese zum Niveau von α = 0, 05 verworfen werden. Damit unterscheiden sich die Zeiten, die sechs-, siebenund achtj¨ ahrige Sch¨ uler f¨ ur das Ordnen der Bildergeschichte B ben¨ otigen. B

Beispiel (Fortsetzung 337) Erdbeeren

Erinnern wir uns an das Beispiel zu den Hypothesen 337, in dem untersucht werden soll, ob sich der Ertrag von Erdbeeren hinsichtlich des verwendeten D¨ ungemittels unterscheidet. Seien X1 , X2 und X3 die Zufallsvariablen, die den Ertrag der Erdbeeren in Kilogramm pro Feld jeweils f¨ ur die D¨ ungemittel 1, 2 und 3 beschreiben. Sollten sich die Ertr¨ age der Erdbeerfelder bez¨ uglich der D¨ ungung tats¨ achlich unterscheiden, so ist von gegeneinander verschobenen Lagen der Verteilungsfunktionen FX1 (x), FX2 (x) und FX3 (x) auszugehen. Es ergibt sich folgendes Testproblem H0 : δ1 = δ2 = δ3 = 0 gegen

H1 : δi = 0

f¨ ur mindestens ein i, i = 1, 2, 3. In der Studie wurden jeweils 9 Felder mit einem D¨ ungemittel behandelt. F¨ ur die insgesamt 27 Felder ergaben sich folgende Ertr¨ age in Kilogramm D¨ ungemittel 1 D¨ ungemittel 2 D¨ ungemittel 3

101 93 45

72 67 44

85 62 79

121 75 55

100 79 61

89 80 63

95 81 67

80 86 51

78 87 60

5.3


343

Die geordnete Gesamtstichprobe ist somit wie folgt gegeben Beobachtungen Rang D¨ ungemittel

44 1 3

45 2 3

51 3 3

55 4 3

60 5 3

61 6 3

62 7 2

63 8 3

67 9,5 2

Beobachtungen Rang D¨ ungemittel

67 9,5 3

72 11 1

75 12 2

78 13 1

79 14,5 3

79 14,5 2

80 16,5 2

80 16,5 1

81 18 2

Beobachtungen Rang D¨ ungemittel

85 19 1

86 20 2

87 21 2

89 22 1

93 23 2

95 24 1

100 25 1

101 26 1

121 27 1

Damit ergeben sich die Rangsummen der drei Stichproben gemäß r1

=

11 + 13 + 16, 5 + 19 + 22 + 24 + 25 + 26 + 27 = 183, 5

r2

=

7 + 9, 5 + 12 + 14, 5 + 16, 5 + 18 + 20 + 21 + 23 = 141, 5

r3

=

1 + 2 + 3 + 4 + 5 + 6 + 8 + 9, 5 + 14, 5 = 53.

Die unter der Nullhypothese H0 erwarteten Rangsummen lauten E(Ri ) =

9 · (27 + 1) ni · (n + 1) = = 126, 2 2

f¨ ur i = 1, 2, 3.

Die Realisierung hbeo der Teststatistik ergibt sich damit als ) * (183, 5 − 126)2 (141, 5 − 126)2 (53 − 126)2 12 + + hbeo = 27 · (27 + 1) 9 9 9 =

15, 6534.

Da die Stichprobenumf¨ ange ni , i = 1, 2, 3 jeweils größer als 5 sind, ist die Teststatistik unter der Nullhypothese H0 approximativ χ2 -verteilt. Der Wert der Teststatistik hbeo = 15, 6534 ist gr¨ oßer als der kritische Wert χ22;0,95 = 5, 9915. Die Nullhypothese H0 kann damit verworfen werden. Zu einem Signifikanzniveau α = 0, 05 kann geschlossen werden, dass der Ertrag von Erdbeeren sich bei Verwendung der verschiedenen D¨ unger unterscheidet. B

344

B


Beispiel (Fortsetzung 337) Fetak¨ ase

Ein Gesundheitsmagazin möchte untersuchen, ob sich der Kaloriengehalt von Fetak¨ ase hergestellt aus Kuh-, Schafs- bzw. Ziegenmilch unterscheidet. Dazu wurde bei verschiedenen handels¨ ublichen Produkten der Kaloriengehalt pro 100 g Fetak¨ ase ermittelt. Seien X1 , X2 und X3 die Zufallsvariablen, die den Kaloriengehalt (in kcal) der Fetakäse aus Kuh-, Schafs- bzw. Ziegenmilch beschreiben. Sollten sich die K¨ ase aus verschiedenen Milchsorten bez¨ uglich ihres Kaloriengehalts unterscheiden, so ist von gegeneinander verschobenen Lagen der Verteilungsfunktionen FX1 (x), FX2 (x) und FX3 (x) auszugehen. Es ergibt sich folgendes Testproblem H0 : δ1 = δ2 = δ3 = 0 gegen

H1 : δi = 0

f¨ ur mindestens ein i, i = 1, 2, 3. In der Studie wurden drei, f¨ unf und vier Fetak¨ aseprodukte der betreffenden Milchsorten untersucht. F¨ ur die insgesamt 12 untersuchten K¨ ase ergaben sich folgende Messwerte in kcal/100 g Fetak¨ ase aus Kuhmilch Fetak¨ ase aus Schafsmilch Fetak¨ ase aus Ziegenmilch

214 237 145

227 242 207

268 266 212

298 285

251

Die geordnete Gesamtstichprobe mit zugewiesenen Rängen ist somit wie folgt gegeben Beobachtungen Rang Milchsorte

145 1 3

207 2 3

212 3 3

214 4 1

227 5 1

237 6 2

Beobachtungen Rang Milchsorte

242 7 2

251 8 2

266 9 2

268 10 1

285 11 3

298 12 2

Zur Berechnung der Teststatistik H werden zunächst die Rangsummen der drei Stichproben bestimmt, d.h. die R¨ ange der Beobachtungen, die zu einer Stichprobe geh¨ oren, werden aufsummiert r1

= 4 + 5 + 10 = 19

r2

= 6 + 7 + 8 + 9 + 12 = 42

r3

= 1 + 2 + 3 + 11 = 17.

Literaturverzeichnis

345

Außerdem werden die unter der Nullhypothese H0 erwarteten Rangsummen bestimmt E(R1 )

=

E(R2 )

=

E(R3 )

=

3 · (12 + 1) n1 · (n + 1) = = 19, 5 2 2 5 · (12 + 1) n2 · (n + 1) = = 32, 5 2 2 4 · (12 + 1) n3 · (n + 1) = = 26. 2 2

Die Realisierung hbeo der Teststatistik ergibt sich damit als ) * (19 − 19, 5)2 (42 − 32, 5)2 (17 − 26)2 12 + + hbeo = 12 · (12 + 1) 3 5 4 =

2, 9526.

Der kritische Wert h∗1−α mit n1 = 3, n2 = 5, n3 = 4 und α = 0, 05 ergibt sich zu h∗0,95 = 5, 6308. Der Wert der Teststatistik hbeo = 2, 9526 ist kleiner als der kritische Wert h∗1−α = 5, 6308. Die Nullhypothese H0 kann damit zum Signifikanzniveau α = 0, 05 nicht verworfen werden. Aufgrund der vorliegenden Daten gibt es also keinen Hinweis darauf, dass sich die Fetak¨ ase der verschiedenen untersuchten B Milchsorten bez¨ uglich ihres Kaloriengehalts unterscheiden.


347

Literaturverzeichnis Bartlett, M.S. (1967). it Statistical Methods. 6th ed., The Iowa Stats University Press, Ames. B¨ uning, H., Trenkler G. (1994). Nichtparametrische statistische Methoden. 2. Aufl., de Gruyter, Berlin. Burkschat, M., Cramer, E., Kamps, U. (2004). Beschreibende Statistik. Grundlegende Methoden. Springer, Berlin. Casella, G., Berger, R.L. (1990). Statistical Inference. Duxbury Press, Belmont. Dehling, H., Haupt, B. (2003). Einf¨ uhrung in die Wahrscheinlichkeitstheorie und Statistik. Springer, Berlin. Efron, B., Tibshirani, R.J. (1993). An Introduction to the Bootstrap. Chapman & Hall/CRC, Boca Raton. Evans, M., Hastings, N., Peacock, B. (2000). Statistical Distributions. 3rd ed., Wiley, New York. Fahrmeir, L., K¨ unstler, R., Pigeot, I., Tutz, G. (2003). Statistik. Der Weg zur Datenanalyse. 4. Aufl., Springer, Berlin. Gelman, A., Carlin, J.B., Stern, H.S., Rubin, D.B. (1998). Bayesian Data Analysis. Chapman & Hall, London. Larsen, R.J., Marx, M.L. (1986). Mathematical Statistics and its Applications. Prentice-Hall, Englewood Cliffs. Lehmann, E.L., Casella, G. (1998). Theory of Point Estimation. 2nd ed., Springer, New York. Levy, P.S., Lemeshow, S. (1999). Sampling of Populations. Methods and Applications. 3rd ed., Wiley, New York. Mood, A.M., Graybill, F.A., Boes, D.C. (1974). Introduction to the Theory of Statistics, McGraw-Hill, Singapore. Moore, D.S. (2000). The Basic Practice of Statistics. Freeman and Company, New York. Mosler, K., Schmid, F. (2003). Beschreibende Statistik und Wirtschaftsstatistik. Springer, Berlin.

348


Mosler, K., Schmid, F. (2004). Wahrscheinlichkeitsrechnung und schließende Statistik. Springer, Berlin. Neter, J., Kutner, M.H., Nachtsheim, C.J., Wasserman, W. (1996). Applied Linear Statistical Models. 4th ed., Irwin, Chicago. R Development Core Team (2004). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-00-3, URL http://www.R-project.org. Serfling, R.J. (1980). Approximation Theorems of Mathematical Statistics. Wiley, New York.

Index

349

Index Akzeptanzbereich, 191 Alternativhypothese, 176 arithmetisches Mittel, 46 Bedingte Dichte, 22 Verteilung, 23 Bedingter Erwartungswert Eigenschaften, 30 Bernoulli-Experiment, 38 Bernoulliverteilung, 4, 38 Beste Tests, 198 Bias, 66 Bindungen, 315 Binomialkoeffizient, 38 Binomialtest approximativer, 220, 285 exakter, 220, 278 Binomialverteilung, 39 χ2 -Anpassungstest, 220, 290 angigkeitstest, 221, 300 χ2 -Unabh¨ χ2 -Verteilung, 44 Cauchy-Verteilung, 109 Cramér-Rao-Ungleichung, 82 Dichte bedingte, 22 diskrete, 14 gemeinsame, 19 stetige, 14 Randdichte, 20 Rechenregeln, 18 effizient, 76 Effizienz, 63, 76 Einflussgr¨ oße, 135 Einstichprobenproblem, 217 EMILeA-stat, v Entscheidungsregel, 192 Erfolgswahrscheinlichkeit, 38 Erwartungstreue, 63, 64 asymptotisch, 67

Erwartungswert, 24 bedingter, 29 Eigenschaften, 25 Rechenregeln, 25 Sch¨ atzung, 68 Exakter Test, Fisher, 221, 306 Exponentialfamilie k-parametrige, 105 einparametrige, 101 Exponentialverteilung, 47 F-Test, 218, 219, 260 Lagevergleich, 269 Varianzvergleich, 260 F -Verteilung, 46 Faktorisierungssatz, 95, 96 verallgemeinerter, 97 Fehler 1. Art, 182 Fehler 2. Art, 183 Fisher-Information, 81 Fisher-Neyman, Satz von, 95 Freiheitsgrade, 44–46 Gammafunktion, 44 Gammaverteilung, 47 Gauß-Markov, Satz von, 145 Gauß-Test, 208, 217, 218, 222 Geometrische Verteilung, 40 Gleichverteilung, 42 Grundgesamtheit, 9 G¨ ute, 194 G¨ utefunktion, 194 Eigenschaften, 195 Hypergeometrische Verteilung, 40 Hypothese, 175 einfach, 180 zusammengesetzt, 180 Indikatorfunktion, 102 Intervallsch¨ atzer, 148 Eigenschaften, 150 Intervallsch¨ atzung, 53, 147

350

Index

k-Stichprobenproblem, 219 Kleinste-Quadrate-Sch¨ atzer, 138 Klinischer Versuch, 4 Konfidenzintervall, 148 ¨ Ubersicht, 151 approximative f¨ ur Erwartungswert bei beliebigen Verteilungen, 159 f¨ ur Erwartungswert bei Normalverteilung bekannte Varianz, 153 unbekannte Varianz, 155 f¨ ur Anteil p, 158 f¨ ur Regressionskoeffizienten, 165 f¨ ur Varianz bei Normalverteilung, 155 Eigenschaften, 150 Herleitung f¨ ur Normalverteilung, 151 Simulation, 149 konservativ, 204 Konsistenz, 63, 86 im quadratischen Mittel, 88 schwache, 87 starke, 88 Zusammenhang Konsistenzarten, 91 Konvergenz fast sichere, 88 in Wahrscheinlichkeit, 87 Korrelation, 32 Eigenschaften, 33 Rechenregeln, 33 Korrelationskoeffizient, 32 Bravais-Pearson, 33 Kovarianz, 32 Eigenschaften, 33 Rechenregeln, 33 KQ-Methode, 134 KQ-Sch¨ atzung, Prognose, 138 kritischer Bereich, 190 kritischer Wert, 190 Kruskal-Wallis-Test, 219, 335 Lehmann-Scheffé, Satz von, 101 Likelihood-Funktion, 116 Interpretation, 117 Likelihood-Quotienten-Test, 210

Macht, 194 Maximum, Verteilung, 37 Maximum-Likelihood-Sch¨ atzung, 119, 120 Median, 13 Methode der kleinsten Quadrate, 134 Minimum, Verteilung, 36 mittlerer quadratischer Fehler, 63, 71 ML-Sch¨ atzer Eigenschaften, 122 Invarianz, 123 Momentensch¨ atzer, 108 MSE, 63, 71 MSE-effizient, 76 Neyman-Pearson-Lemma, 199 Normalverteilung, 42 asymptotisch, 92 Nullhypothese, 176 Ordnungsstatistik, 36 Verteilung, 36 p-Wert, 189 Parameter, 12 Poissonverteilung, 41 Prognosen, 138 Punktsch¨ atzer, unverzerrt, 64 Punktsch¨ atzung, 53, 54 Quantil, 13 Quartil, 13 R, vi, 57, 227, 236, 240, 248, 257, 265, 288, 294, 304, 340 R¨ ange Zuweisung, 328 Randdichte, 20 Rao-Blackwell, Satz von, 97 Rechteckverteilung, 42 Regressionskoeffizienten, 135 Regressionsmodell einfaches lineares, 135 Prognose, 138 Tests, 221, 309 Regularit¨ atsbedingungen, 78

Index

351

konservativ, 204 unverf¨ alscht, 198 Durchf¨ uhrung, 193 Satz Testentscheidung, 192 Faktorisierungssatz, 95, 96 Testergebnisse, Interpretation, 186 verallgemeinerter, 97 Fisher-Information bei Unabh¨ angig- Testproblem, 177 einseitig, 180 keit, 81 linksseitig, 178 Vollst¨ andigkeit und Suffizienz in einrechtsseitig, 178 parametrigen Exponentialfamilien, 104 zweiseitig, 178, 180 Satz von Tests Fisher-Neyman, 95 Regressionsmodell, 221, 309 Gauß-Markov, 145 Teststatistik, 180 Lehmann-Scheffé, 101 Trennsch¨ arfe, 194 Rao-Blackwell, 97 Sch¨ atzer gleichm¨ aßig bester erwartungstreuer, UMVUE, 77 Unabh¨ angigkeit, 31 77 Rechenregeln, 31 Kleinste-Quadrate, 138 Untersuchungseinheiten, 9 Maximum-Likelihood, 119 unverbundene Stichproben, 244 Momentenmethode, 108 unverf¨ a lscht, 198 Sch¨ atzfunktion, 55 unverzerrt, 64 Signifikanzniveau, 187 St¨ orgr¨ oße, 135 Varianz, 26 Standardabweichung, 26 Eigenschaften, 27 Standardisierung, 43 Rechenregeln, 27 Statistik, 55 Sch¨ atzung, 69 suffiziente, 94 verbundene Stichproben, 243 Stetigkeitskorrektur, 332 Verschiebungssatz, 33 Stichprobe, 10 Verteilung Stichproben bedingte, 23 verbunden, 243 Maximum, 37 unverbunden, 244 Minimum, 36 Stichprobenstandardabweichung, 46 Verteilungsfunktion, 12 Stichprobenvariablen, 35 empirische, 18 stochastisch unabh¨ angig, 31 Rechenregeln, 18 Suffizienz, 63, 93, 94 Verzerrung, 66 Vollst¨ andigkeit, 93, 98 t-Test, 217, 218 Vorzeichen-Test, 217, 317 Einstichprobenfall, 236 Zweistichprobenfall, 242 Wilcoxon-Rangsummen-Test, 218, 324 unverbundene Stichproben, 244 wirksam, 76 verbundene Stichproben, 253 t-Verteilung, 45 Zielgr¨ oße, 135 Test Zufallsvariable, 11 Residuen, 138

352

Index

diskrete, 11 stetige, 11 Zufallsvariablen unabh¨ angige, 31 Zusammenhang Konfidenzintervalle, Tests, 205 Zweistichprobenproblem, 218

Schließende Statistik: Grundlegende Methoden GERMAN

Molekularbiologische Methoden in der Lebensmittelanalytik: Grundlegende Methoden und Anwendungen

Methoden der Statistik: Lehr- und Arbeitsbuch

Statistik-Praktikum mit Excel GERMAN

Grundlegende Statistik mit R: Eine anwendungsorientierte Einführung in die Verwendung der Statistik Software R

Mathematische Methoden Der Personenversicherung german

Grundlegende Statistik mit R. Eine anwendungsorientierte Einfuhrung in die Verwendung der Statistik Software R

Statistik

Beschreibende Statistik und Wirtschaftsstatistik, 2.Auflage German

Statistik

Deskriptive Statistik: Eine Einführung in Methoden und Anwendungen mit R und SPSS (Springer-Lehrbuch) (German Edition)

Quantitative Methoden 1: Einführung in die Statistik, 2. Auflage (Springer-Lehrbuch) (German Edition)

Six Sigma: Methoden und Statistik für die Praxis

Deskriptive Statistik. Eine Einführung in Methoden und Anwendungen mit SPSS

Quantitative Methoden 2: Einführung in Die Statistik, 2. Auflage

Rapid Control Prototyping: Methoden und Anwendungen GERMAN

Grundlegende Algorithmen mit Java

Coupled-Cluster-R12-Methoden mit Auxiliarbasisfunktionen German

Quantitative Methoden 2 3 Auflage German

Schnelleinstieg Statistik

Statistik-Übungen: Beschreibende Statistik - Wahrscheinlichkeitsrechnung - Schließende Statistik 3. Auflage (Lehrbuch)

Arbeitsbuch Statistik

Statistik-Übungen: Beschreibende Statistik - Wahrscheinlichkeitsrechnung - Schließende Statistik, 3. Auflage

Mathematische Statistik (Reihe: Statistik und ihre Anwendungen)

Multivariate Statistik in der Okologie: Eine Einfuhrung GERMAN

Beschreibende Statistik: Interaktive Grafiken ([email protected] ) German

Epidemiologische Methoden

Statistik: Der Weg zur Datenanalyse (Springer-Lehrbuch) (German Edition)

Arbeitsbuch zur deskriptiven und induktiven Statistik (Springer-Lehrbuch) German

Kostenbewusstes Konstruieren: Praxisbewährte Methoden und Informationssysteme für den Konstruktionsprozess German

Mathematik für Naturwissenschaftler: Methoden, Anwendungen, Programmcodes (Springer-Lehrbuch) (German Edition)

Schließende Statistik: Grundlegende Methoden GERMAN

Molekularbiologische Methoden in der Lebensmittelanalytik: Grundlegende Methoden und Anwendungen

Methoden der Statistik: Lehr- und Arbeitsbuch

Statistik-Praktikum mit Excel GERMAN

Grundlegende Statistik mit R: Eine anwendungsorientierte Einführung in die Verwendung der Statistik Software R

Mathematische Methoden Der Personenversicherung german

Grundlegende Statistik mit R. Eine anwendungsorientierte Einfuhrung in die Verwendung der Statistik Software R

Statistik

Beschreibende Statistik und Wirtschaftsstatistik, 2.Auflage German

Statistik

Deskriptive Statistik: Eine Einführung in Methoden und Anwendungen mit R und SPSS (Springer-Lehrbuch) (German Edition)

Quantitative Methoden 1: Einführung in die Statistik, 2. Auflage (Springer-Lehrbuch) (German Edition)

Six Sigma: Methoden und Statistik für die Praxis

Deskriptive Statistik. Eine Einführung in Methoden und Anwendungen mit SPSS

Quantitative Methoden 2: Einführung in Die Statistik, 2. Auflage

Rapid Control Prototyping: Methoden und Anwendungen GERMAN

Grundlegende Algorithmen mit Java

Coupled-Cluster-R12-Methoden mit Auxiliarbasisfunktionen German

Quantitative Methoden 2 3 Auflage German

Schnelleinstieg Statistik

Statistik-Übungen: Beschreibende Statistik - Wahrscheinlichkeitsrechnung - Schließende Statistik 3. Auflage (Lehrbuch)

Arbeitsbuch Statistik

Statistik-Übungen: Beschreibende Statistik - Wahrscheinlichkeitsrechnung - Schließende Statistik, 3. Auflage

Mathematische Statistik (Reihe: Statistik und ihre Anwendungen)

Multivariate Statistik in der Okologie: Eine Einfuhrung GERMAN

Beschreibende Statistik: Interaktive Grafiken ([email protected] ) German

Epidemiologische Methoden

Statistik: Der Weg zur Datenanalyse (Springer-Lehrbuch) (German Edition)

Arbeitsbuch zur deskriptiven und induktiven Statistik (Springer-Lehrbuch) German

Kostenbewusstes Konstruieren: Praxisbewährte Methoden und Informationssysteme für den Konstruktionsprozess German

Mathematik für Naturwissenschaftler: Methoden, Anwendungen, Programmcodes (Springer-Lehrbuch) (German Edition)

Recommend Documents