Prognoserechnung
Peter Mertens · Susanne Rässler Herausgeber
Prognoserechnung Sechste, völlig neu bearbeitete und erweiterte Auflage
Mit Beiträgen von S. Albers, C. Becker, Y. Chen, M. Deistler, J. Falk, M. Frölich, J. Große-Wilde, G. Greve, M. Grottke, K. Hansen, W. Härdle, M. Helm, P. Janetzke, W. Krämer, U. Küsters, H. Langen †, M. Lechner, H. Lejmi, G. Matt, P. Mertens, K. Neusser, N. Niederhübner, A. Nowack, S. Rässler, H. Schneeberger, M. Schröder, R. Schuhr, R. Schulz, R. Stäglin, H. Steiger, W. Trux, F. Weinthaler, R. Wildner, K. Wolf, A. J. Zeller
Physica-Verlag Ein Unternehmen von Springer
Professor Dr. Dr. h.c. mult. Peter Mertens Universität Erlangen-Nürnberg Bereich Wirtschaftsinformatik I Lange Gasse 20 90403 Nürnberg E-mail:
[email protected] PD Dr. Susanne Rässler Institut für Arbeitsmarkt- und Berufsforschung (IAB) Kompetenzzentrum für empirische Methoden Regensburger Straße 104 90478 Nürnberg E-mail:
[email protected] Mit 124 Abbildungen und 58 Tabellen
ISBN 3-7908-0216-6
Physica-Verlag Heidelberg
ISBN 3-7908-0758-3 5. Auflage Physica-Verlag Heidelberg
Bibliografische Information Der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.ddb.de abrufbar. Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9. September 1965 in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes. Physica-Verlag ist ein Unternehmen von Springer Science+Business Media springer.de © Physica-Verlag Heidelberg 1981, 1994, 2005 Printed in Germany Die Wiedergabe von Gebrauchsnamen, Handelsnamen,Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Umschlaggestaltung: Erich Kirchner Herstellung: Helmut Petri Druck: betz-druck SPIN 10998236
88/3130 – 5 4 3 2 1 0 – Gedruckt auf säurefreiem Papier
Vorwort zur sechsten Auflage Seit Erscheinen der funften Auflage ist eine Reihe von interessanten Entwicklungen eingetreten: 1.
Prognosen haben sich vor allem auf dem Weg uber Standardsoftware („ERP-Systeme") weiter ihren Weg in die Praxis der betrieblichen Dispositions- und Planungssysteme gebahnt.
2.
Aus der Unternehmenspraxis resultieren neue Herausforderungen. Z. B. versucht man im Bereich „Business Intelligence", Marktforschungsdaten mit Ergebnissen der Datenmustererkennung („Data Mining") und mit Prognoserechnungsverfahren zu verknupfen („Predictive Analytics"). Lieferkettenmanagement (Supply Chain Management) hat das interessante Konzept des „Collaborative Planning, Forecasting and Replenishment" (CPFR) hervorgebracht.
3.
Die Prognosetheorie ist vor allem im Grenzgebiet zwischen Betriebswirtschaft, Volkswirtschaft, Informatik (Kunstliche Intelligenz), Operations Research, Statistik und Wirtschaftsinformatik, namentlich im US-amerikanischen Raum, beachtlich weiterentwickelt worden. Charakteristisch ist das Journal of Forecasting mit seinen vielen und facettenreichen Aufsatzen.
4.
Auch im deutschsprachigem Raum werden zunehmend Prognosen nachgefragt, die auf „weichen Daten" (etwa Personencharakteristika aus Kundendatenbanken Oder Umfragen) basieren, also nicht „harten" Daten, die aus einem Produktionsoder Dispositionsprozess stammen. Der damit verbundenen zusatzlichen Unsicherheit versuchen die beschriebenen Verfahren Rechnung zu tragen.
Nach wie vor existieren zwei Welten: Auf der einen Seite aus der Praxis heraus entstandene pragmatische Heuristiken, auf der anderen Seite eine hoch entwickelte und mathematisch-statistisch wohl fundierte Theorie. Nicht uberall ist der Graben zwischen den beiden „Welten" schon gut gefullt. Daher haben wir in diesem Buch beiden Kategorien Raum gegeben. Mit der sechsten Auflage werden neuere Entwicklungen und Anwendungsgebiete der Vorhersagemethodik berucksichtigt, was sich in einer Umstrukturierung des Buches niederschlagt: Wir haben es in zwei Teile gegliedert, wobei sich der erste Teil (Kapitel 1 bis 19) den methodischen Grundlagen der Prognoserechnung in ihren vielen Facetten widmet, der zweite Teil (Kapitel 20 bis 26) spezielle Anwendungsfelder zum Gegenstand hat. Einige Beitrage fokussieren auf die Entwicklung der Prognoserechnung fur Massendaten im betrieblichen Bereich. Fast alle Aufsatze sind wesentlich uberarbeitet und den in den letzten Jahren gewonnenen Erkenntnissen angeglichen worden. Zehn Kapitel (von nunmehr 26) sind neu hinzugekommen respektive von neuen Autoren vollig uberarbeitet oder neu erarbeitet worden. Unserer Meinung nach gilt fur den betrieblichen und die verwandten Bereiche durchaus der Satz „Forecasting is a mixture of science, art, and luck". Wenigen erstaunlich treffsicheren Vorhersagen, wie z. B. dem Moore'schen Gesetz (die Dichte von Halbleiterspeichern und die Verarbeitungsgeschwindigkeit von Prozessoren wachsen alle 18 Monate auf das Doppelte) stehen viele „Flops" gegenuber. So aulierte Charles Duell
VI
Vorwort zur sechsten Auflage
vom US-Patentamt 1899: „Alles was erfunden werden kann, ist bereits erfunden worden." Der Vater der Gebruder Wright glaubte noch 1903, dass Menschen niemals fliegen werden. Ein Pressesprecher von Daimler-Benz auUerte sich am Anfang des 20. Jahrhunderts dahin, dass es in Europa nie mehr als 1.000 Autos geben werde, well nicht mehr Chauffeure verfugbar waren. Bill Gates, der Grunder von Microsoft, schatzte 1981, dass 640 KB Hauptspeicher pro PC genug sein werden (er selbst hat zur „Zerstorung" dieser Prognose maUgeblich beigetragen). Ferner bleibt der vielfach zitierte Ausspruch des Statistikers George E.P. Box anzufugen, der sinngemali sagte: „Alle Modelle sind falsch, aber einige sind hilfreich". Wir sollten uns also bescheiden. Die in diesem Buch vorgestellten Prognoserechnungs-Algorithmen haben groStenteils den Zweck, Massenprognosen zu rationalisieren oder uberhaupt erst zu ermoglichen und damit die teilautomatischen oder automatischen Dispositionen in Vertrieb, Materialwirtschaft, Produktion, Logistik, Finanzwirtschaft und in anderen Funktionsbereichen bzw. bei anderen Prozessen zu verbessern. Bei der Herausgabe der Neuauflage haben uns Frau Waltraut Ruck und vor allem Frau Marga Stein in aufopferungsvoller Weise unterstutzt. Wir sind den beiden zu groRem Dank verpflichtet. Die folgenden Damen und Herren haben bei den redaktionellen Arbeiten geholfen: Mag. rer. soc. oec. Irene Walther, Dipl.-Biol. Elmar Dolgener, Dipl.Kfm. Jorn Grolie-Wilde, Dr. Marco Meyer, Dipl.-Wirtsch.-lnf. Jochen Speyerer, Dipl.Ing. Martin Stolilein, Dipl.-Volkswirt Andrew Zeller und Dipl.-Kfm. Thomas Zeller. Auch ihnen gebuhrt Dank! Unseren Autoren mussten wir manche Konzession abringen, um eine gewisse Einheitlichkeit im vorliegenden Sammelband zu gewahrleisten. Wir danken alien fur ihr Verstandnis und ihr Entgegenkommen.
Nurnberg, im August 2004
Peter Mertens und Susanne Rassler
Inhaltsverzeichnis re/7 /; Allgemeine 1
2
Prognosemethoden
Prognoserechnung - Einfiihrung und Uberblick von Peter Mertens und Susanne Rassler 1.1 Zur Bedeutung der Prognoserechnung 1.2 Uberblick 1.3 Voraussetzungen beim Leser 1.4 Literatur Einfuhrung in die kurzfristige Zeitreihenprognose und Vergieich der einzeinen Verfahren von Michael Schroder 2.1 Uberblick 2.2 Allgemeine Uberlegungen 2.2.1 Anforderungen an Verfahren fur kurzfristige Prognoserechnungssysteme 2.2.2 Datenauswahl und -analyse 2.2.2.1 Datenquellen 2.2.2.2 Datenanalyse 2.2.3 Prognoseintervall und Vorhersagezeitraum 2.3 Modelle zur Abbildung von Zeitreihen 2.3.1 Graphische Ubersicht uber die Moglichkeiten zur Modellbildung 2.3.2 Mathematische Beschreibung der wichtigsten Modelle 2.3.2.1 Konstantes Modell 2.3.2.2 Lineares Modell 2.3.2.3 Modelle hoherer Ordnung 2.3.2.4 Trigonometrische Modelle 2.4 Methoden zur Abschatzung der Modellkoeffizienten 2.4.1 Gbersicht 2.4.2 Methoden fur das konstante Modell 2.4.2.1 Gleitende Durchschnitte erster Ordnung 2.4.2.2 Gewogene gleitende Durchschnitte 2.4.2.3 Exponentiell gewogene Durchschnitte (exponentielles Glatten erster Ordnung) 2.4.2.3.1 Ubergang von gleitenden Durchschnitten zum exponentiellen Glatten 2.4.2.3.2 Prinzip des exponentiellen Glattens 2.4.2.3.3 Bestimmung des Glattungsfaktors 2.4.2.3.4 Reaktion auf plotzliche Veranderungen 2.4.2.3.4.1 Reaktion auf einen Impuls 2.4.2.3.4.2 Reaktion auf eine Niveauanderung 2.4.2.3.5 Bedeutung und Vorteile des exponentiellen Glattens 2.4.3 Methoden zur Abschatzung der beiden Koeffizienten im linearen Modell mit Trend 2.4.3.1 Exponentielles Glatten mit Trendkorrektur 2.4.3.2 Exponentielles Glatten zweiter Ordnung (nach Brown) 2.4.3.2.1 Verwendung von Glattungswerten erster und zweiter Ordnung 2.4.3.2.2 Direkte Fortschreibung der Modellkoeffizienten
1 1 2 5 5 7 7 7 7 8 9 9 10 11 11 13 13 13 14 14 14 14 15 16 18 18 18 20 21 24 24 25 26 28 28 29 29 31
VIII
Inhaltsverzeichnis
2.4.3.2.3 Vergleich zwischen exponentiellem Glatten mit Trendkorrektur und exponentiellem Glatten zweiter Ordnung (nach Brown) 2.4.3.3 Zwei-Parameter-Modell nach Holt 2.4.3.4 Zwei-Parameter-Modell mit gedampftem Trend 2.4.3.5 Drei-Parameter-Modell mit Fehlerdifferenzausdruck 2.5 Moglichkeiten und Grenzen der Zeitreihenextrapolation 2.6 Literatur
34 34 35 36 36 37
3
Einfuhrung in die Prognose saisonaler Zeitreihen mithilfe exponentieller Glattungstechniken und Vergleich der Verfahren von Winters und Harrison 39 von Roland Schuhr 3.1 Einleitung 39 3.2 Das Holt-Winters-Verfahren 40 3.2.1 Das Prognoseproblem und die Prognosefunktionen des Verfahrens 40 3.2.2 Rekursive Berechnung der Prognosefunktionskoeffizienten 41 3.2.3 Implementierung des Verfahrens 44 3.2.4 Bin numerisches Beispiel 47 3.2.5 Modifikationen des Basisansatzes 47 3.3 Das SEATREND-Verfahren von Harrison 50 3.3.1 Berechnung der Niveau- und der Trendwerte 50 3.3.2 Berechnung der Saisonfaktoren 51 3.3.2.1 Fourier-Polynom-Darstellung und Fourier-Glattung von Saisonfaktoren 51 3.3.2.2 Rekursive Berechnung geglatteter Saisonfaktoren 52 3.3.3 Implementierung des Verfahrens 55 3.3.4 Ein numerisches Beispiel 56 3.4 Verfahrensvergleich und Ausblick 56 3.5 Literatur 58
4
Prognose bei unregelmaRigem Bedarf von Arthur Nowack 4.1 Abgrenzung zwischen regelmaBigem und unregelmaBigem bzw. sporadischem Bedarf 4.1.1 Kennzeichen des „regelma(iigen Bedarfs" 4.1.2 Festlegung des „sporadischen Bedarfs" im IMPACT-Verfahren 4.2 Vorhersage bei unregelmaBigem Bedarf - Verfahren von Trux 4.2.1 Begriff „unregelmaSiger Bedarf" 4.2.2 Vorhersage der Anzahl von Bestellungen 4.2.3 Vorhersage der Menge je Bestellung 4.3 Das Modell zur Vorhersage fur sporadische Nachfragemengen von Wedekind 4.3.1 Begriffsbestimmung „sporadische Nachfrage" 4.3.2 Das Vorhersagemodell 4.4 Ein „dynamisches" Vorhersagemodell zur Prognose bei unregelmaUigem Bedarf 4.4.1 Analyse der Probleme der bisher dargestellten Verfahren 4.4.1.1 Verlust der Information uber den Zeitpunkt der Nachfrage 4.4.1.2 Kumulation des Bedarfs zu Bedarf je Intervall 4.4.1.3 Verspatete Reaktion auf Anderung der Nachfragestruktur
61
61 61 61 62 62 63 63 64 64 65 67 67 67 67 68
Inhaltsverzeichnis
5
6
7
IX
4.4.1.4 Nicht steuerbare Genauigkeit der Vorhersage 4.4.2 Grundaufbau bisheriger Systeme 4.4.3 Grundidee der dynamischen Vorhersage 4.4.4 Beschreibung des Verfahrens der dynamischen Vorhersage 4.4.4.1 Einteilung des Bedarfs in Klassen mit konstantem Bedarf 4.4.4.2 Vorgabe von Vorhersagewerten fur die Nachfrageintervalle 4.4.4.3 Feststellen von signifikanten Veranderungen 4.4.4.4 Berechnung des aktuellen Wertes je Interval! 4.4.5 Fortschreibung der Zeitverteilung der in Klassen eingeteilten Nachfrage 4.4.6 Merkmale des Verfahrens 4.4.6.1 Wahlbare Genauigkeit 4.4.6.2 Aktualitat der gespeicherten Werte 4.4.6.3 Schnelles Anpassen an Strukturveranderungen 4.5 Literatur
68 68 69 70 70 70 70 71 72 72 72 72 72 72
Ein gemischt deterministisch-stochastisches Prognoseverfahren von Walter Trux 5.1 Prinzip der gemischt deterministisch-stochastischen Prognoseverfahren 5.2 Beispiel einer gemischt deterministisch-stochastischen Prognose 5.3 Kritische Wurdigung 5.4 Literatur
73
Prognose mithilfe von Verweilzeitverteilungen von Heinz Langen und Fritz Weinthaler 6.1 Die Grundgedanken des Verfahrens 6.2 Die analytische Vorstufe der Prognose 6.2.1 Die Strukturanalyse 6.2.2 Die Analyse der Ubergangsgesetzmaliigkeiten 6.2.2.1 Wesen und Begriff der Verweilzeitverteilung 6.2.2.2 Die Arten von VenA/eilzeitverteilungen 6.2.2.2.1 Mengenverteilungen 6.2.2.2.2 Wertverteilungen 6.2.2.2.3 Einfache Verteilungen 6.2.2.2.4 Komplexe Verteilungen 6.2.2.3 Die Ermittlung von VenA/eilzeitverteilungen 6.2.2.4 Die Aufbereitung von VenA/eilzeitverteilungen 6.3 Die Prognose 6.3.1 Prognose mit einfacher VenA/eilzeitverteilung 6.3.2 Prognose mit komplexer Verweilzeitverteilung 6.3.2.1 Im Produktionsbereich 6.3.2.2 Im Investitionsbereich 6.4 Schlussbetrachtung 6.5 Literatur Punkt-, Intervallprognose und Test auf Strukturbruch mithilfe der Regressionsanalyse von Hans Schneeberger 7.1 Einleitung 7.2 Prognose im Fall einfacher linearer Regression
73 73 76 76 77 77 77 78 78 79 80 80 81 81 81 82 82 83 83 84 84 88 89 89 91 91 91
Inhaltsverzeichnis
8
9
7.2.1 Punkt- und Intervallprognose 7.2.2 Strukturbruch der Regressionsgeraden 7.3 Prognose im Fall multipler (k-dimensionaler) linearer Regression 7.3.1 Punkt-und Intervallprognose 7.3.2 Strukturbruch der Regressionshyperebenen 7.4 Nichtlineare Regression 7.5 Literatur
91 96 98 98 102 104 104
Prognose mit Paneldaten von Susanne Rassler und Katja Wolf 8.1 Einleitung 8.2 Lineare Modellspezifikationen fur Paneldaten 8.3 Schatzverfahren und ihre Eigenschaften 8.4 Moglichkeiten zur Prognose 8.5 AbschlieBende Bemerkungen 8.6 Literatur
105
Prognose mit nichtparametrischen Verfahren von Ying Chen, Wolfgang Hardle und Rainer Schuiz 9.1 Einleitung 9.2 Nichtparametrische Verfahren 9.2.1 Einfuhrung 9.2.2 Lokal gewichtete lineare Regression 9.2.3 Prognose 9.3 Anwendung auf Volatilitaten 9.4 Literatur
10 Adaptive EinflussgroRenkombination (AEK) - Prognosen mit schrittweiser Regression und adaptivem Gewichten von Gunter Matt 10.1 Einleitung und Uberblick 10.2 Beschreibung des Verfahrens der adaptiven Einflussgrolienkombination 10.3 Vergleich der adaptiven EinflussgroSenkombination mit anderen Vorhersageverfahren 10.3.1 Vergleich von AEK, Winters, HOREST, NP1, NP2 und Disponentenprognosen 10.3.2 Vergleiche mit weiteren Prognoseverfahren 10.4 Beispiele fur den praktischen Einsatz des Verfahrens der adaptiven EinflussgrolJenkombination 10.5 Literatur 11 Mittel- und langfristige Absatzprognose auf der Basis von Sattigungsmodeilen von Peter Mertens und Jurgen Falk 11.1 Einleitung 11.2 Systematik und grober Uberblick 11.3 Grundmodelle 11.3.1 Vorbemerkung und Uberblick 11.3.2 Das logistische Modell
105 105 108 110 111 112 113 113 113 113 116 119 120 124 125 125 129 136 138 145 151 162 169 169 170 171 171 172
Inhaltsverzeichnis
XI
11.3.2.1 Der Modellansatz 11.3.2.2 Analyse von Modelleigenschaften 11.3.2.3 Zur Kritik des logistischen Ansatzes 11.3.3 Das exponentielle Modell 11.3.4 Das Bass-Modell 11.3.5 Das Gompertz-Modell 11.4 Flexible Modelle 11.4.1 Vorbemerkung und Uberblick 11.4.2 Generalisierte logistische Funktionen 11.4.3 Eine verallgemeinerte exponentielle Funktion 11.4.4 Das generalisierte Bass-Modell von Easingwood, Mahajan und Muller und verwandte Ansatze 11.5 EnA/eiterte Modelle fur Erstkaufe 11.5.1 Vorbemerkung und Uberblick 11.5.2 EnA/eiterungen des logistischen Modells 11.5.3 Das Modell von Weblus 11.5.4 Das Modell von Bonus 11.5.5 Eine EnA/eiterung des Modells von Bonus und das Modell der Einkommensklassen von Lewandowski 11.5.6 Die Modelle von Roos und von Szeliski sowie vonKlaassen und Koyck 11.5.7 EnA/eiterungen des Bass-Modells 11.6 Modelle mit Komponenten fur Wiederholungskaufe 11.6.1 Problematik und Uberblick 11.6.2 Das Modell von Olson und Choi und venA/andte Verfahren 11.6.3 Das Modell von Parfitt und Collins und verwandte Verfahren 11.7 Entscheidungsunterstutzung uber Testmarkte 11.8 Verwendungsbreite und Vergleich 11.9 Schlussbemerkung und Ausblick 11.10 Literatur 12 Indikatorprognosen von Norbert Niederhubner 12.1 Einfuhrung 12.2 Ablauf des Indikatorverfahrens 12.3 Methoden der Lag-Bestimmung 12.4 Prognoseverfahren 12.4.1 Regressionsanalyse 12.4.2 Multivariate ARIMA-Modelle 12.4.3 Kombinierte Prognosen 12.5 Validierung der Prognosen 12.6 Ein Beispiel 12.7 Literatur 13 Lineare Filter und integrierte autoregressive Prozesse von Klaus Hansen 13.1 Einleitung 13.2 Lineare Filter 13.2.1 Differenzenfilter 13.2.2 Exponentiell glattende Filter
172 174 176 177 178 179 181 181 182 183 184 185 185 185 187 188 190 190 191 192 192 193 195 198 200 200 201 205 205 205 206 207 207 208 209 210 211 213 215
.
215 215 217 219
XII
Inhaltsverzeichnis
13.2.3 Der Wiener-Filter 13.3 Integrierte autoregressive Moving-Average-Prozesse 13.3.1 Stationare Prozesse 13.3.2 Instationare Prozesse 13.3.3 Die Modellidentifikation 13.4 Anwendungen 13.4.1 Eine ARIMA(p,d,q)-Prognose 13.4.1.1 Modellidentifikation 13.4.1.2 Prognose 13.4.1.3 Modelluberprufung 13.4.2 Eine ARIMA(p,d,q)(sp,sd,sq)S-Prognose 13.4.2.1 Modellidentifikation 13.4.2.2 Prognose 13.4.2.3 Modelluberprufung 13.5 Ex post Prognose mithilfe von ARIMA-lnterventionsanalysen 13.5.1 ARIMA-lnterventionsmodelle 13.5.2 Anwendung 13.5.2.1 Modellidentifikation 13.5.2.2 Prognose 13.5.2.3 Modelluberprufung 13.5.2.4 Interpretation der Werte der Koeffizienten der Dummy-Variablen 13.6 Literatur 14 Prognose uni- und multivariater Zeitreihen von Manfred Deistler und Klaus Neusser 14.1 Einfuhrung 14.2 Die Theorie der linearen Kleinst-Quadrate-Prognose 14.3 Die Prognose aus unendlicher Vergangenheit 14.4 AR- und ARMA-Prozesse 14.5 Die Schatzung der Pradiktoren fur ARMA-Systeme 14.6 ARMAX-Modelle und bedingte Prognose 14.7 Die Prognose gesamtwirtschaftlicher GroBen 14.8 Absatzprognose 14.9 Literatur 15 Die Input-Output-Rechnung als Hilfsmittel der Prognose von Reiner Staglin 15.1 Einleitung 15.2 Input-Output-Tabellen als Informationssystem fur die Prognose 15.2.1 Symmetrische Input-Output-Tabelle als Datensystem 15.2.2 Deskriptive Auswertung der symmetrischen Input-Output-Tabelle 15.2.2.1 Output-Koeffizienten 15.2.2.2 Input-Koeffizienten 15.2.2.3 Triangulation 15.3 Input-Output-Analyse als Hilfsmittel der Prognose 15.3.1 Input-Output-Modell 15.3.1.1 Das traditionelle Modell 15.3.1.2 Das enA/eiterte Modell 15.3.1.3 Das dynamische Modell
219 221 221 223 223 225 225 225 226 226 229 229 229 229 232 232 233 234 234 234 235 237 239 239 240 242 244 247 250 252 255 258 261 261 262 262 263 263 264 265 266 266 266 267 268
Inhaltsverzeichnis 15.3.2 ModellmaRige Auswertung der symmetrischen Input-Output-Tabelle 15.3.2.1 Inverse Koeffizienten 15.3.2.2 Berechnung unternehmensbezogener Produktionseffekte 15.3.2.3 Zusammenhang zwischen letzter Verwendung und Bruttoproduktion 15.3.2.3.1 Diagnostische Bedeutung 15.3.2.3.2 Prognostische Bedeutung 15.3.3 Transformation der Input-Output-Ergebnisse in BeschaftigungsgroRen 15.4 Input-Output-Auswertungsprogramme 15.5 Literatur 16 Prognose mithilfe von Markovprozessen von Klaus Hansen 16.1 Einfuhrung 16.2 Regulare Markovprozesse 16.2.1 Definition und grundlegende Merkmale 16.2.2 Modellbildung des regularen Prozesses mithilfe der erzeugenden Funktion 16.2.3 Anwendungen 16.2.3.1 Prognose von Marktanteil und Absatzmengen 16.2.3.2 Prognose einer Lagerbestandsbewegung 16.3 Absorbierende Markovprozesse 16.3.1 Definition und grundlegende Merkmale 16.3.2 Modellbildung des absorbierenden Prozesses mithilfe der erzeugenden Funktion 16.3.3 Anwendungen 16.4 Periodische Markovprozesse 16.4.1 Definition und grundlegende Merkmale 16.4.2 Modellbildung des zyklischen Prozesses mithilfe der erzeugenden Funktion 16.4.3 Anwendungen 16.5 Bewertete Markovprozesse 16.5.1 Definition und grundlegende Merkmale 16.5.2 Anwendungen 16.6 Fazit 16.7 Literatur 17 Der Beitrag der Kunstlichen Intelligenz zur betrieblichen Prognose von Philipp Janetzke und Jurgen Falk 17.1 Einleitung 17.2 Expertensysteme 17.2.1 Prognosespezifischer Aufbau 17.2.2 Wissensreprasentation 17.2.3 Wissensverarbeitung 17.2.4 Einsatz wissensbasierter Prognosesysteme 17.2.4.1 Expertensysteme mit mathematisch-statistischen Methoden 17.2.4.1.1 Nicht integrierte Auswahlsysteme 17.2.4.1.2 Integrierte Auswahlsysteme 17.2.4.2 Expertensysteme mit empirischen Methoden 17.2.4.3 Vorteile des Einsatzes von Expertensystemen
XIII 269 269 270 272 272 273 275 275 276 279 279 281 281 284 286 287 289 291 291 294 295 296 296 297 299 299 299 300 303 303 305 305 305 305 306 307 308 308 308 309 310 311
XIV
Inhaltsverzeichnis
17.3 Kunstliche Neuronale Netze 17.3.1 Motivation fur den Prognoseeinsatz 17.3.2 Prognose mit Multilayerperceptrons 17.3.2.1 Topologie 17.3.2.2 Anwendung 17.3.2.2.1 Ereignisprognose 17.3.2.2.2 Zeitverlaufsprognose 17.3.3 Prognose mit selbstorganisierenden Karten 17.3.3.1 Topologie 17.3.3.2 Anwendung 17.3.4 Prognose mit Boltzmannmaschinen 17.3.4.1 Topologie 17.3.4.2 Anwendung 17.3.5 Weiterfuhrende Netzwerkmodelle 17.3.6 Aspekte der betrieblichen VenA^endung von Kunstlichen Neuronalen Netzen als Prognoseverfahren 17.3.7 Weiterfuhrende Einsatzgebiete von Kunstlichen Neuronalen Netzen in der Prognose 17.4 Vergleich der vorgestellten Prognosemodelle 17.4.1 Vergleiche der Prognosemodelle der Kunstlichen Intelligenz untereinander 17.4.1.1 Expertensysteme mit Kunstlichen Neuronalen Netzen 17.4.1.2 Kunstliche Neuronale Netzmodelle untereinander 17.4.1.3 Kunstliche Neuronale Netze mit Case-Based Reasoning 17.4.2 Vergleiche der Kunstlichen Neuronalen Netze mit mathematischstatistischen Verfahren 17.4.2.1 Kunstliche Neuronale Netze mit Regressionsmethoden 17.4.2.2 Kunstliche Neuronale Netze mit der Diskriminanzanalyse 17.5 Hybridsysteme 17.5.1 Formen von Hybridsystemen 17.5.1.1 Expertensystem in Verbindung mit Kunstlichem Neuronalem Netz 17.5.1.2 EnA/eiterung um Ansatze aus der Genetik 17.5.1.3 Interagierende Kunstliche Neuronale Netze 17.5.2 Anwendungen 17.5.2.1 Expertensystem und Kunstliche Neuronale Netze 17.5.2.2 Kunstliche Neuronale Netze und andere Verfahren 17.6 Ausblick 17.7 Literatur 17.8 Anhang: Tabellarische Ubersicht der im Beitrag erwahnten Systeme 18 Monitoring von Prognosemodellen von Ulrich Kusters und Claudia Becker 18.1 Ubersicht 18.2 AusreiUertypen und ihre Konsequenzen 18.2.1 Ausreiliertypen 18.2.2 Konsequenzen der unzureichenden Berucksichtigung von AusreiBern 18.2.2.1 Auswirkungen auf die Modellschatzung und -identifikation 18.2.2.2 Auswirkungen auf die Prognosefunktion
312 312 312 312 313 313 313 315 315 315 316 316 316 316 317 317 318 318 318 319 319 320 320 321 322 322 322 323 324 324 324 326 326 326 332 335 335 337 337 340 340 341
Inhaltsverzeichnis 18.2.3 Malinahmen zur Berucksichtigung von AusreiSern 18.3 Monitore in exponentiellen Glattungsmodellen 18.3.1 Diagnose additiverAusreilier 18.3.2 Diagnose von Niveauverschiebungen 18.3.3 Kalibration von Schwellenwerten 18.3.4 Verfahren zur Berucksichtigung identifizierter Ausreilier 18.3.5 Probleme der Monitore der exponentiellen Glattung 18.3.6 Monitore in Strukturkomponentenmodelien 18.3.7 Softwarepakete 18.4 Monitore in Box-Jenkins-Modellen 18.4.1 Modelldefinition 18.4.2 Diagnosetechniken 18.4.3 Software-Pakete 18.4.4 Beurteilung 18.5 Schlussbemerkungen 18.6 Literatur 19 Evaluation, Kombination und Auswahl betriebswirtschaftlicher Prognoseverfahren von Ulrich Kusters 19.1 Uberblick 19.2 Evaluation der Prognosegenauigkeit 19.2.1 Grundlagen der Evaluation 19.2.2 Differenzierungsmerkmale von EvaluationsmaSen 19.2.3 Untersuchungsdesigns 19.2.4 PrognoseevaluationsmaSe (Gutemalie) 19.2.4.1 Grundsatzliche Hinweise 19.2.4.2 Evaluationsma(Je ohne Referenz zu einem Benchmark 19.2.4.3 Benchmarkbasierte Vergleichsmalie 19.2.5 Evaluation von Wahrscheinlichkeits- und Ereignisprognosen 19.2.6 Evaluation von Intervallprognosen 19.2.7 Tests auf Prognoseaquivalenz 19.2.8 Evaluation von Dichteprognosen 19.3 Kombination von Prognosen 19.3.1 Grundlegende Verfahren 19.3.2 Kombination durch Varianzminimierung 19.3.3 Kombination durch Regression 19.3.4 Konfidenzintervalle von Prognosekombinationen 19.3.5 Prognosekombination durch RBF 19.3.6 Beziehungen zwischen Kombination, Evaluation, Einschluss (Encompassing) und Effizienz konkurrierender Verfahren 19.3.7 Prognosekombination in der Praxis 19.4 Prognosewettbewerbe 19.4.1 Ziele und Bandbreite der Prognosewettbewerbe 19.4.2 Ausgewahlte Resultate der Wettbewerbe 19.4.3 Kritik an Prognosewettbewerben 19.5 Auswahl von Prognoseverfahren 19.5.1 Grundsatzliche Hinweise
XV 343 344 344 345 348 351 352 353 353 354 354 356 359 359 360 362 367 367 368 368 369 370 374 374 375 378 381 383 383 386 386 386 388 388 388 389 389 390 391 391 391 392 394 394
XVI
Inhaltsverzeichnis
19.5.2 Einflussfaktor Sach- und Aggregationsebene 19.5.3 Einflussfaktor Informationsbasen 19.5.4 Einflussfaktor PrognosegroBen 19.5.5 Einflussfaktor Nutzer-Anforderungen 19.5.6 Einflussfaktor verfugbare Prognosesoftware 19.5.7 Faktische Nutzung von Prognoseverfahren in Unternehmen 19.5.8 Ein grobes Entscheidungsraster 19.6 Schlussbemerkungen 19.7 Literatur
395 395 395 396 396 397 398 398 400
Teil II: Spezielle Prognosemethoden fiir betriebswirtschaftliche und volkswirtschaftliche Anwendungsfelder 20 Modellgestiitzte Marktanteilsprognose auf Basis von Paneldaten von Raimund Wildner 20.1 Problemstellung 20.2 Paneldaten als Grundlage fur Marketing-Mix-Modelle 20.3 Prognosen mit Scanner-Handelspanel-Modellen 20.3.1 Die Datenbasis 20.3.2 Die Modellbildung 20.3.3 Prognosen am Fallbeispiel 20.4 Prognosen mit Scanner-Verbraucherpanel-Modellen 20.4.1 Vorbemerkung 20.4.2 Die Datenbasis 20.4.3 Die Modellierung 20.4.4 Prognosen am Fallbeispiel 20.5 Modellauswahl und Fazit 20.6 Literatur 21 Die Verbindung von Absatzplanung und Prognoserechnung ein Beispiel aus der Praxis von Meinhard Helm 21.1 Die Absatzplanung in der vernetzten Welt 21.2 Die Planungsstrukturen 21.2.1 Die Produktstruktur 21.2.2 Die Systemstruktur 21.2.3 Die Vertriebsstruktur 21.3 Der Planungsablauf 21.4 Die Wahl der Planungsebene 21.5 Methodeneinsatz in der Planung 21.6 Ein Prognosebeispiel 21.6.1 DieZeitreihe 21.6.2 Der Instabilitatsfilter 21.6.3 Der Saisonfilter 21.6.4 Der autoregressive Filter 21.6.5 Das Prognosemodell 21.7 Fazit 21.8 Literatur
405 405 406 408 408 408 410 413 413 414 414 416 417 418
419 419 419 419 420 421 422 423 424 426 426 427 427 427 428 429 430
Inhaltsverzeichnis 22 Kundenwertprognose von Sonke Albers und Goetz Greve 22.1 Einleitung 22.2 Der Begriff Kundenwert 22.3 Ein Model! zur Prognose des Kundenwerts 22.3.1 Das Grundmodell und seine EnA/eiterung 22.3.2 Bestimmung des Deckungsbeitragssatzes 22.3.3 Bestimmung der Umsatzentwicklung uber die Zeit 22.3.4 Bestimmung der Transaktionshaufigkeit 22.3.5 Bestimmung des Referenzwerts 22.3.6 Bestimmung des KalkulationszinsfuBes 22.4 Zusammenfassung 22.5 Literatur 23 Qualitatsvergleiche bei Kreditausfallprognosen von Walter Kramer 23.1 Qualitative versus quantitative Prognosen 23.2 Trennscharfe und Kalibrierung 23.3 Weitere Halbordnungen von Wahrscheinlichkeitsprognosen 23.4 SkalanA/ertige AbweichungsmaUe 23.5 Literatur 24 Beratung mithilfe von statistischen Prognosen. Welches Instrument ist das sinnvollste? von Markus Frolich, Michael Lechner und Heidi Steiger 24.1 Einleitung 24.2 Expertensysteme zur Programmauswahl 24.3 Definition des optimalen Instruments 24.4 Identifikation der individuellen Prognosen 24.5 Schatzung der individuellen Prognosen 24.6 Auswahl der besten MaSnahme 24.7 Praktische Anwendung: Arbeitsmarktiiche MaUnahmen in der Schweiz 24.8 Fazit 24.9 Literatur 25 Prognose von Softwarezuverlassigkeit, Softwareversagensfallen und Softwarefehlern von Michael Grottke 25.1 Einleitung 25.2 Softwarezuverlassigkeitswachstumsmodelle 25.2.1 Markovprozess-Modelle 25.2.2 Ein Semi-Markovprozess-Modell: Littlewood-Verrall-Modell 25.2.3 Nichthomogene Poissonprozess-Modelle 25.2.4 Weitere Ansatze zur Modellvereinheitlichung 25.2.5 Systematisches und nutzungsprofilorientiertes Testen 25.2.6 Evaluierung und Verbesserung der Modellgute 25.3 Weitere Modellklassen 25.3.1 Stichprobenmodelle 25.3.2 Modelle zur Prognose von Software
XVII 431 431 431 432 432 433 434 435 436 437 437 437 439 439 439 441 445 446
449 449 449 450 451 453 454 455 457 457 459 459 460 463 469 471 476 476 477 480 480 483
XVIII
Inhaltsverzeichnis
25.4 AbschlielJende Bemerkung 25.5 Literatur
485 485
26 Kooperative Vorhersage in Unternehmensnetzwerken von Peter Mertens, Andrew J. Zeller, Jorn Grolie-Wilde und Habib Lejmi 26.1 Von der Einzelprognose zur kooperativen Vorhersage 26.2 Der CPFR-Prozess 26.3 Vorhersagemethoden der Standardsoftware 26.4 Herausforderungen 26.4.1 Prognosesituation 26.4.2 Prognoseprozess 26.4.3 Abstimmungsbedarf 26.4.4 Verdichtungsmechanismen 26.4.5 Abgleich der Prognose mit der Produktionsmoglichkeit 26.5 Kritische Wurdigung 26.6 Literatur
489 489 489 490 493 493 494 494 496 497 499 500
Stichwortverzeichnis
503
Autorenverzeichnis Prof. Dr. Sonke Albers Institut fur betriebswirtschaftliche Innovationsforschung, Universitat Kiel Dipl.-Kauffrau Claudia Becker Munchen M.A. Ying Chen Institut fur Statistik und Okonometrie, Humboldt-Universitat zu Berlin Prof. Dr. Manfred Deistler Forschungsgruppe Okonometrie und Systemtheorie, TU Wien Dr. Jurgen Falk fcs fair computer systems GmbH, Nurnberg Dr. Markus Frolich SIAW-HSG, Universitat St. Gallen Dipl.-Kfm. Jorn GroBe-Wilde Bereich Wirtschaftsinformatik I, Universitat Eriangen-Nurnberg Dipl.-Kfm. Goetz Greve Institut fur betriebswirtschaftliche Innovationsforschung, Universitat Kiel Dr. Michael Grottke Lehrstuhl fur Statistik und Okonometrie, Universitat Eriangen-Nurnberg Prof. Dr. Klaus Hansen Institut fur Unternehmensforschung, Universitat Hamburg Prof. Dr. Wolfgang Hardle Institut fur Statistik und Okonometrie, Humboldt-Universitat zu Berlin Dr. Meinhard Helm Weilheim Prof. Dr. Philipp Janetzke Lehrgebiet Wirtschaftsinformatik, FH Weihenstephan Prof. Dr. Walter Kramer Institut fur Wirtschafts- und Sozialstatistik, Universitat Dortmund Prof. Dr. Ulrich Kusters Lehrstuhl fur Statistik und Quantitative Methoden, Katholische Universitat Eichstatt-lngolstadt Prof. Dr. Heinz Langenf zuletzt Abteilung fur Allgemeine Betriebswirtschaftslehre, Wirtschaftsprufung und betriebliche Steuerlehre, Universitat Tubingen
XX
Autorenverzeichnis
Prof. Dr. Michael Lechner SIAW-HSG, Universitat St. Gallen Dr. Habib Lejmi Bereich Wirtschaftsinformatik I, Universitat Eriangen-Nurnberg Dipl.-Math. Gunter Matt Augustdorf Prof. Dr. Dr. h.c. mult. Peter Mertens Bereich Wirtschaftsinformatik I, Universitat Eriangen-Nurnberg Prof. Dr. Klaus Neusser Volkswirtschaftliches Institut, Universitat Bern Dipl.-lnf. Norbert Niederhubner Ammerbuch Dipl.-lng. Dipl.-Wirtsch.-lng. Arthur Nowack Nowack EDV GmbH, Rosenheim PD Dr. Susanne Rassler Institut fur Arbeitsmarkt- und Berufsforschung (lAB), Nurnberg Prof. Dr. Hans Schneeberger Holzkirchen Dr. Michael Schroder Industrieautomationsprojekte, Allhaming PD Dr. Roland Schuhr Institut fur Empirische Wirtschaftsforschung, Universitat Leipzig Dr. Rainer Schuiz University of Aberdeen Business School, Aberdeen Prof. Dr. Reiner Staglin DIW, Berlin Lie. oec. Heidi Steiger SIAW-HSG, Universitat St. Gallen Dr. Walter Trux Erbato GmbH, Munchen Dipl.-Kfm. Fritz Weinthaler Gingen Dr. Raimund Wildner GfKAG, Nurnberg Dr. Katja Wolf Institut fur Arbeitsmarkt- und Berufsforschung (lAB), Nurnberg
Autorenverzeichnis Dipl.-Volkswirt Andrew J. Zeller Bereich Wirtschaftsinformatik I, Universitat Eriangen-Nurnberg
XXI
1
Prognoserechnung - Einfiihrung und Uberblick
von Peter Mertens und Susanne Rassler 1.1
Zur Bedeutung der Prognoserechnung
Der Wunsch des Menschen, in die Zukunft zu schauen, durfte so alt sein wie die Menschheit selbst. Nach dem Aufkommen der elektronischen Rechenanlagen war vor allem durch die populare Literatur der Eindruck erweckt worden, als ob nunmehr ein neuer Weg zur Erfullung dieses uralten Menschheitstraumes gewiesen sei. Charakteristisch hierfur waren Redewendungen wie z. B. „Computer haben vorhergesagt, dass im Jahr 2000 ...". Zunachst trat im Hinblick auf „die exakte Prognose" durch computerunterstutzte Prognoseverfahren eine gewisse Ernuchterung ein. Bekannte Methoden etwa in Verbindung mit Standardprogrammen in den Sektoren Absatz, Lagerhaltung und Finanzierung - haben hier zum Teil zu Enttauschungen gefuhrt. Ungeachtet dessen ist der Trend, anspruchsvollere Modelle zu entwickein, die die realen Gegebenheiten besser erfassen und daher immer genauere Prognosen versprechen, ungebrochen. Der Fortschritt in der Computertechnik, der sich in immer kurzeren Rechenzeiten und einem standig wachsenden Speicherplatzangebot zeigt, hat es uberhaupt erst ermbglicht, solche komplexen Methoden einzusetzen. Nicht jedes Verfahren ist fur jede reale Konstellation geeignet. Aus diesem Grunde enthalten leistungsfahige Prognosesysteme mittlerweile eine groBere Anzahl alternativer Algorithmen. Allerdings erfordern Auswahl und Parametrierung meist mathematische Experten, was in der betrieblichen Praxis zu einem Akzeptanzproblem gefuhrt hat. Mit Werkzeugen aus der so genannten Kunstiichen Intelligenz (Kl) gelingt es, Expertenwissen zu verarbeiten. Somit wird der unerfahrene Benutzer bei der Auswahl vom System beraten und durch den Prognoseprozess „intelligenf gefuhrt. Eine hohere Genauigkeit bei betrieblichen Vorhersagen kann also dadurch erreicht werden, dass Praktiker aufgrund der Kl-Unterstutzung eher geneigt sind, komplexe Methoden einzusetzen. Selbst wenn Prognosesysteme nur in etwa die gleiche Prognosesicherheit bringen wie Vorhersagen menschlicher Sachbearbeiter, resultiert immer noch ein beachtlicher Nutzeffekt, und zwar liegt dieser in der Rationalisierung der Prognose begrundet. Nehmen wir an, es sei der Zukunftsbedarf von 500 Produkten zu ermittein, die in einem industriellen Lager gefuhrt werden. Einem Menschen mag es gelingen, fur einen oder zwei dieser Artikel, die man beliebig herausgreift, eine bessere Vorhersage zu machen als ein Informationsverarbeitungs-System (IV-System), well er eine besonders intensive Datenanalyse anstellt und gewisse Hintergrundinformationen (etwa aus einem Kundengesprach) einbringen kann. Es ist jedoch undenkbar, dass der Sachbearbeiter die gleiche Sorgfalt auf alle 500 Produkte verwendet. Das Computer-Programm behandelt hingegen alle Positionen im Lager mit gleicher Akkuratesse. Damit wird aber klar, dass - bezogen auf das gesamte Lager - die IV-gestutzte besser als die menschliche Prognose ist. Daruber hinaus wird durch rechnerunterstutzte Prognosemodelle menschliche Arbeitszeit eingespart, und es kann im Sinne einer integrierten Informationsverarbeitung vermieden werden, automatische Datenflusse zu unterbrechen, um menschliche Vorhersagen einzuholen [7].
Mertens, Rassler Trotz der Vorteile der Computer-Prognose mag es auch vorkommen, dass fur bestimmte Anwendungsfalle einer menschlichen Vorhersage der Vorzug zu geben ist. Das wird dann der Fall sein, wenn der Aufwand fur Prognosemodell und -software im Verhaltnis zum Nutzen zu hoch ist. Zur Entscheidung, ob ein kompliziertes System, eine menschliche Schatzung oder auch ein sehr einfaches Prognosemodell zur Anwendung kommen soil, mussen die Kosten fur die Vorhersage mit den Ertragen verglichen werden, die durch die Minderung des mit der Qualitat der Prognose verbundenen Risikos entstehen (vgl. hierzu [4]).
1.2
Uberblick
Gegenstand dieser Schrift sind in erster Linie Prognoseverfahren, die in Verbindung mit der IV im betriebswirtschaftlichen Bereich benutzt werden konnen. Es ergeben sich allerdings zahlreiche Verbindungslinien zu Vorhersagemethoden in anderen Disziplinen, insbesondere in den Sozialwissenschaften und in der Volkswirtschaft (vgl. dazu [1]> [5], [6] und [9]), zum Teil auch in den Natur- und den Ingenieurwissenschaften. In der Literatur sind verschiedene Ansatze einer Systematisierung vorzufinden. Zum einen wird in methodischer Hinsicht unterschieden in Verfahren, die auf die einfache Extrapolation von Zeitreihen mithilfe gleitender Durchschnitte zuruckgefuhrt werden konnen, und in Methoden, die sich der Regressionsanalyse bedienen. Eine zweite Systematisierung geht von den in den Prognosemodellen verarbeiteten Einflussgrolien aus. Hier wird danach differenziert, ob als unabhangige Variable nur die Zeit oder auch andere Faktoren, wie z. B. das Einkommenswachstum, verwendet werden. Naturlich uberschneiden sich die genannten Systematisierungen. Auderdem kann man neben den rein mathematisch-statistischen Techniken auch Methoden der Mustererkennung aus dem Bereich der Kl zur Prognoserechnung heranziehen: Kunstliche Neuronale Netze bilden Intelligenz biologischer Systeme nach und eriernen den funktionalen Zusammenhang des zugrunde liegenden Prozesses anhand der Daten selbststandig. Man hat herausgefunden, dass fur bestimmte Netztopologien Aquivalenzen zu mathematisch-statistischen Verfahren bestehen [2]. Je nach Aufbau sind also Neuronale Netze unterschiedlichen Verfahrensklassen (z. B. fur Zeitreihen- oder Ereignisprognosen) zuordenbar. Aus diesen Grunden sowie aufgrund der vielen verschiedenen Anwendungsfelder haben wir bei der Gliederung eine Zweiteilung vorgenommen. Der erste Teil, bestehend aus den Kapitein 1 bis 19, beschaftigt sich eher allgemein mit den methodischen Grundlagen der Prognoserechnung in ihren vielen Facetten, wahrend im zweiten Teil, Kapitel 20 bis 26, Prognosemethoden fur spezifische betriebs- und volkswirtschaftliche Anwendungsfelder diskutiert werden. Wir beginnen mit Verfahren, die die exponentielle Glattung als elementaren Baustein benutzen. Dazu gehort die Einfuhrung von Schroder \n die Behandlung von ZeitreihenModellen ohne Saisonschwankungen. In diesem Beitrag wird der Elementarbaustein „Exponentielles Glatten" relativ grundlich dargestellt, und es wird gezeigt, wie man die exponentielle Glattung als Weiterentwicklung der Verfahren der gleitenden Durchschnitte begreifen kann. Sc/?roc/er vergleicht ferner verschiedene Varianten des „Exponential Smoothing".
Prognoserechnung - Einfuhrung und Uberblick In den folgenden Beitragen werden Verfahren geschildert, die anzuwenden sind, wenn man nicht die Annahme einer mit konstantem oder mit linearem Anstieg behafteten Zeitreihe treffen darf. Schuhr beschreibt die beiden wichtigsten Ansatze zur Zeitreihenprognose bei Saisonschwankungen. Eine andere Besonderheit von Zeitreihen kann sein, dass die Ereignisse in unregelmaBiger Folge eintreffen. A/oi/i/ac/c zeigt Ansatze zur Losung der dabei anfallenden Probleme auf. Bei der Vorhersage von Absatzmengen begegnet man in Industrie und Handel haufig folgender Konstellation: Ein Teil der zu erwartenden Verkaufe ist durch Vorbestellungen bekannt (es handelt sich also um eine deterministische Vorhersage), ein anderer Teil muss geschatzt werden (stochastische Vorhersage). Ein hierfur geeignetes Modell tragt Trux vor. Ein Verfahren, das ursprunglich zur Prognose von Zahlungsstromen und der daraus resultierenden Liquiditatssituation entwickelt wurde, das aber auch Bedeutung fur andere Vorhersageobjekte, wie z. B. Auftragseingange und Ersatzteilbedarfe, hat, diskutieren Langen und Weinthaler in Kapitel 6. Die Folge der Beitrage uber Verfahren, die um die Regressionsanalyse herum gruppiert sind, wird mit einem Aufsatz von Sc/7neeit)erger eingeleitet, der Punkt- und Intervallprognose im klassischen linearen Normalverteilungsmodell und unter Verletzung der ubiichen Annahmen erklart. Rassler und Wolf stellen in ihrem Beitrag statistische Modelle fur die Analyse von Paneldaten vor, Daten also, die sowohl in der Zeit als auch im Querschnitt vorliegen und vielfache weitergehende Analysen eriauben. Die Moglichkeiten und Grenzen der Prognose werden hier kurz eriautert. Chen, Hardle und Schuiz verlassen die klassische parametrische Modellwelt und fuhren nichtparametrische Verfahren ein. Sie eriautern deren grundsatzliche Struktur und veranschaulichen an Beispielen, wie nichtparametrische Verfahren zu Prognosezwecken eingesetzt werden konnen. Matt beschreibt ein Verfahren, das den Gedanken der Regression mit dem einer unterschiedlichen Gewichtung von unterschiedlich alten Vergangenheitseinflussen kombiniert, sich adaptiv verhalt und daruber hinaus noch einige besondere Vorrichtungen zur Gewahrleistung der Rechenokonomie bietet. In dem Aufsatz von Mertens und Falk uber die mittel- und langfristige Absatzprognose auf der Basis von Sattigungsmodellen zeigt sich in besonderem Mafie, wie die Regressionsanalyse sowohl fur die Prognose reiner Zeitreihen als auch fur die Vorhersage von Prozessen, in die daruber hinaus weitere GroBen Eingang finden, benutzt werden kann. Besonders in Konzernen, in denen Beobachtungen der Nachfrage nach unterschiedlichen, aber in einem bestimmten okonomischen Zusammenhang stehenden Erzeugnissen, wie z. B. elektronischen Bauelementen und Fernsehgeraten, moglich sind, ist die Verwendung der Regressionsrechnung und einfacher Indikatormethoden zur Prognose zeitlich verschobener Entwicklungen aus fruher beobachteten Absatzprozessen erwagenswert. Damit beschaftigt sich Niederhubner in seinem Beitrag uber die mittelfristige Prognose mithilfe der Indikatormethode. Der folgende Beitrag von Hansen gibt einen umfangreichen Uberblick uber die Prognose mithilfe linearer Filter und integrierter autoregressiver Modelle. Das von Box und Jenkins entwickelte ARIMA-Verfahren wird vorgestellt, an verschiedenen Anwendungen ohne und mit Saisonschwankungen eriautert und auf Interventionsanalysen ausgedehnt. Der Beitrag von Deistler und Neusser uber die Prognose uni- und multivariater Zeitreihen erweitert die Darstellung von Hansen auf die Struktur- und Schatztheorie von mehrdimensionalen Systemen, wie vektorautoregressiven Modellen und ARMAX-
Mertens, Rassler Prozessen. Diese Verfahren setzen sich zunehmend bei der Analyse und Vorhersage multivariaterZeitreihen durch. Aus dem volkswirtschaftlichen Bereich kommend, beginnen sich Prognosen mithilfe von Input-Output-Tabellen auch in anderen Sektoren Beachtung zu verschaffen. Dem tragt ein Beitrag von Staglin Rechnung. Hansen gibt eine Einfuhrung in die Prognose mit Markovprozessen und stellt fur eine Auswahl ihrer moglichen Erscheinungsformen Beispiele fur Marktanteils- und Absatzprognosen vor. Der Aufsatz vermittelt die analytischen Grundlagen, die man benotigt, um Markovketten bei komplizierteren Bedingungen der Praxis geeignet zu simulieren. Aus dem Bereich der Kl sind mittlerweile verschiedene Experimente und Vorschlage bekannt, wie man Prognosesysteme Jntelligenter" machen kann. Es erscheint einerseits besonders wichtig, dem Benutzer die Auswahl und Parametrierung bei der Vielzahl von anspruchsvollen Prognosemethoden zu erieichtern. Hierfur bieten sich zusatzliche wissensbasierte Komponenten an. Andererseits kann man sich mit Kunstlichen Neuronalen Netzen den oft schwierigen Prozess der Modellbildung ersparen. Derartige Netze eriernen den funktionalen Zusammenhang selbststandig, wenn sie vorher mit genugend Beispieldaten trainiert worden sind. Janetzke und Falk geben einen Uberblick uber die derzeitigen Einsatzmoglichkeiten der Kunstlichen Intelligenz in der betrieblichen Prognose und vergleichen Kl-Methoden mit konventionellen (mathematisch-statistischen) Verfahren. Den Abschluss der Ausfuhrungen des ersten Teils bilden Beitrage von Kusters und Becker uber Moglichkeiten und Grenzen des Monitoring von Prognoseverfahren sowie Liber die Evaluation, Kombination und Auswahl von Prognoseverfahren. Das Vertrauen, das der Benutzer in ein Prognosesystem setzt, ist oft abhangig von den ersten Ergebnissen, und diese werden wiederum sehr stark bestimmt von der ersten Parameterwahl. Da man damit rechnen muss, dass - beispielsweise als Konsequenz einer Strukturveranderung des zu prognostizierenden Prozesses - die Prognosequalitat plotzlich nachlasst, muss in einem IV-System dafur Sorge getragen werden, dass der Mensch automatisch benachrichtigt wird, wenn die Vorhersage-lst-Abweichungen eine Toleranzschwelle uberschreiten. In bestimmten Situationen kann allerdings das System die eigenen Parameter oder gar das ganze Modell selbsttatig der Entwicklung anpassen. Kusters diskutiert im abschlieBenden Beitrag zunachst die Schwierigkeiten, die bei dem Versuch auftreten, uber Vergleiche zu einer Anwendungsempfehlung zu gelangen. Probleme ergeben sich schon aus dem Grunde, dass die Resultate einer quantitativen Gegenuberstellung vom verwendeten Fehlermali abhangig sind. Inhaltlich konzentriert sich dieser Beitrag vor allem auf die fur die Verfahrensauswahl wichtige statistische Evaluation der Prognosegenauigkeit, die Kombination von Prognosen und die Rolle von Prognosewettbewerben. Weiterhin werden auf der Grundlage einer kurzen Darstellung struktureller Merkmale und Anforderungskataloge einige subjektive Hinweise zur Auswahl von Prognoseverfahren gegeben. Der zweite Teil des Buches fokussiert auf Anwendungsfelder. Er beginnt mit dem Beitrag von Wildner, der zur Vorhersage von Marktanteilen auf Basis von Paneldaten einen speziellen Ansatz der nichtlinearen Regression entwickelt, bei dem man verschiedene Marketing-Mix-Variablen in wechselnder Kombination multiplikativ verknupft. Helm zeigt an einem anschaulichen Beispiel des Planungskettenkonzeptes, dass die
Prognoserechnung - Einfuhrung und Uberblick vergleichsweise aufwandigen, aber dafur wirksameren Methoden mittlerweile in der Praxis durchaus eine sinnvolle Verwendung finden konnen. Ziel des Beitrags von Albers und Greve ist es, einen praktikablen Ansatz zur Kundenwertprognose vorzustellen. Durch die Aufteilung der Kundenwertformel in die Elemente Deckungsbeitragssatz, Umsatzfunktion, Transaktionshaufigkeit und Referenzwert wird eine handhabbare Schatzung der einzeinen Elemente des Kundenwerts ermoglicht. Damit zeigen sie einen praktikablen Ansatz auf, der es Unternehmen ermoglicht, Kundenwerte auf der Basis von im Unternehmen vorhandenen Daten oder von relativ einfach zu beschaffenden Informationen zu berechnen. Die folgenden drei Beitrage konzentrieren sich weniger auf die Prognose eines bestimmten Marktanteils, einer Absatzmenge oder eines Kundenwertes, sondern handein trotz vollig unterschiedlicher Anwendungsfelder im Wesentlichen von Wahrscheinlichkeiten des Eintritts interessierender Ereignisse. Kramer resumiert uber Qualitatsvergleiche bei Kreditausfallvorhersagen und kommt zu dem Schluss, dass Wahrscheinlichkeitsprognosen in naher Zukunft zu den haufigsten Wirtschaftsprognosen uberhaupt gehoren werden, insbesondere im Lichte der von „Basel M" auf alle Geschaftsbanken zukommenden Verpflichtung zur Belegung aller vergebenen Kredite mit Ausfallwahrscheinlichkeiten. Die statistische Prognose von Wahrscheinlichkeiten fur den Erfolg von BeschaftigungsmaG»nahmen fur Arbeitslose diskutieren Frolich, Lechner und Steiger am Beispiel eines automatischen Vorschlagssystems, genannt SAPS, in der Schweiz. Grottke gibt schlieSlich einen umfangreichen Uberblick uber Modelle zur Prognose von Softwarezuverlassigkeit, Softwareversagensfallen und Softwarefehlern, wobei er Softwarezuverlassigkeit allgemein als die Wahrscheinlichkeit dafur, dass in einer definierten Umgebung eine Software innerhalb einer bestimmten Nutzungsperiode nicht versagt, begreift. Im Kernpunkt der Arbeit steht allerdings die Entwicklung der Anzahl von beobachteten Versagensfallen, wie sie im Laufe der Integrations- und Testphase einer Softwareentwicklung auftreten. Im letzten Kapitel dieses Buches versuchen Grolie-Wilde, Lejmi, Mertens und Zeller den Stand und die hartesten Herausforderungen beim „Collaborative Planning, Forecasting and Replenishment", kurz CPFR, zusammenzufassen. 1.3
Voraussetzungen beim Leser
Die Beschaftigung mit Verfahren der Prognoserechnung verlangt statistische Kenntnisse. Der Umfang dieses Buches hatte fast verdoppelt werden mussen, wenn man dieses Basiswissen von Grund auf hatte vermittein wollen. In dieser Lage ist folgender Kompromiss gewahit worden: Wir setzen statistisches Wissen in dem Malie voraus, wie es heute ubIichenA/eise im Rahmen des Grundstudiums fur Volkswirte, Betriebswirte, Sozialwissenschaftler, Informatiker, Ingenieure und Naturwissenschaftler vermittelt und gepruft wird. Daruber hinausfuhrende statistische Instrumente werden im Rahmen dieser Schrift naher eriautert. 1.4 [1]
Literatur Armstrong, J.8. (Hrsg.), Principles of Forecasting - A Handbook for Researchers and Practitioners, Dordrecht 2001.
Mertens, Rassler [2]
[3] [4] [5] [6] [7] [8] [9] [10]
Connor, J. und Atlas, L., Recurrent Neural Networks and Time Series Prediction, in: IEEE (Hrsg.), Proceedings of the International Joint Conference on Neural Networks, Vol. 1, Seattle 1991,3.301 ff. Granger, C.W., Forecasting in Business and Economics, 2. Aufl., Boston u.a. 1989. Harris, L., A Decision-Theoretic Approach on Deciding when a Sophisticated Forecasting Technique is Needed, Management Science 13 (1966), S. B-66 ff. Henschel, H., Wirtschaftsprognose, Munchen 1979. Makridakis, S., Wheelwright, S.C. und Hyndman, R.J., Forecasting, Methods and Applications, 3. Aufl., New York 1998. Mertens, P., Integrierte Informationsverarbeitung 1, 14. Aufl., Wiesbaden 2004. Rothschild, K.W., Wirtschaftsprognose - Methoden und Probleme, Berlin u.a. 1969. Theil, H., Economic Forecasts and Policy, 3. Aufl., Amsterdam 1970. Weber, K., Wirtschaftsprognostik, Munchen 1990.
2
Einfiihrung in die kurzfristige Zeitreihenprognose und Vergleich der einzelnen Verfahren
von Michael Schroder 2.1
Uberblick
Zunachst befasst sich Abschnitt 2.2 mit den grundlegenden Fragen, die bei der Konzeption eines Systems der kurzfristigen Zeitreihenprognose beantwortet werden mussen. Neben den Anforderungen werden verschiedene Aspekte behandelt, die bei der Beschaffung und Analyse des Datenmaterials zu beachten sind. Aus dieser Analyse leitet sich die Auswahl von Modellen ab (Abschnitt 2.3), durch die das Verhalten der Zeitreihe abgebildet werden kann. Auf die Schilderung der grundsatzlichen Moglichkeiten zur Modellbildung folgt in Abschnitt 2.4 die Darstellung mathematisch-statistischer Verfahren zur Abschatzung der Koeffizienten des ausgewahlten Modells. Wir beginnen mit einer Ubersicht (Abschnitt 2.4.1) und beschreiben dann in Abschnitt 2.4.2 Methoden, mit denen man den Koeffizienten eines konstanten Modells bestimmen kann. Dabei entwickein wir aus den Verfahren der gleitenden Durchschnitte heraus das Prinzip des exponentiellen Glattens. Im Anschluss daran werden der Einfluss des Glattungsfaktors und die Reaktion des Verfahrens auf Storungen in der Zeitreihe untersucht. Die Methoden, die zur Bestimmung der Modellkoeffizienten in linearen Modellen geeignet sind, werden in Abschnitt 2.4.3 erortert. Das exponentielle Glatten mit Trendkorrektur stellen wir verschiedenen Verfahren des exponentiellen Glattens nach Brown und Holt gegenuber, abschlieUend werden Verfahren beschrieben, die dadurch gekennzeichnet sind, dass sie mehr als einen Glattungsparameter verwenden. 2.2 2.2.1
Allgemeine Uberlegungen Anforderungen an Verfahren fiir kurzfristige Prognoserechnungssysteme
Genauigkeit der Vorhersage. Bei der Forderung nach einer moglichst hohen Genauigkeit der Vorhersage ist zu berucksichtigen, dass zusatzliche Genauigkeit in der Regel mit erhohtem Aufwand verbunden ist. Man hat daher stets diesen erhohten Aufwand mit den Ertragen aus der besseren Prognose zu vergleichen. Letztere konnen in Kostensenkungen bestehen. (Beispiel: Bei genauerer Prognose im Rahmen eines Lagerdispositionssystems konnen die Sicherheitsbestande niedriger gehalten werden.) Der Ertrag kann jedoch auch eine Risikominderung sein, etwa weil durch eine bessere Vorhersage im Rahmen eines Planungsmodells die Gefahr einer Fehlentscheidung geringer ist. Reagibilitat und Stabilitat der Verfahren. Eine vollkommene Ubereinstimmung zwischen Prognosewert und spater tatsachlich beobachtetem Wert kann nur zufalliger Natur sein, da die hier behandelten Vorhersageverfahren lediglich Schatzwerte fur die zu prognostizierende GroUe liefern konnen. In der Regel wird also der Beobachtungswert vom Prognosewert abweichen. Es stellt sich jeweils die Frage, ob diese Abweichung zufalliger Natur oder ob sie das erste Anzeichen dafur ist, dass sich die Zeitreihe in ihrem Verhalten grundlegend geandert hat (ob z. B. ein bisher steigender Trend in einen
8
Schroder
fallenden Trend ubergeht). Im ersten Fall sol! die Methode in der Lage sein, die Abweichung dadurch „herauszuglatten", dass es durch die Verwendung von vielen Vergangenheitsdaten bei der Durchschnittsbildung den Einfluss von zufalligen Abweichungen klein halt. Im zweiten Fall, wenn sich also tatsachlich eine neue Entwicklung der Zeitreihe anbahnt, sollte das Verfahren die alteren Daten moglichst gering gewichten und die Prognose aus den jungsten Daten ableiten, damit die Anpassung an die neue Entwicklung moglichst rasch erfolgt. Es gilt also, einen befriedigenden Kompromiss zwischen Stabilitat bei Zufallsabweichungen und Reagibilitat auf Anderungen im Verhalten der Zeitreihe zu finden. Eingriffsmoglichkeiten in das Verfahren. Es ist bei der Gestaltung eines Prognosesystems zu prufen, ob eine Verbesserung der Vorhersage dadurch erreicht werden kann, dass man den menschlichen Experten mit einbezieht. Diese Vorgehensweise kann aus folgenden Grunden vorteilhaft sein: Der Mensch hat nicht die Moglichkeit, alle Vergangenheitsinformationen zu verarbeiten. Er mag aber eine Reihe von - fur das Prognosesystem „externen" - Informationen besitzen, deren Berucksichtigung zu einer Verbesserung der Vorhersage fuhren kann. Daruber hinaus verfugt der Mensch uber groBe Fahigkeiten, irgendwelche RegelmaSigkeiten oder spezielle Abweichungen zu erkennen (Mustererkennung, pattern recognition). Es kann also die Prognose verbessert werden, wenn der Mensch dazu herangezogen wird, Besonderheiten in der Zeitreihenentwicklung zu interpretieren, und wenn er von sich aus seine speziellen Informationen dem Prognosesystem zur Verfugung stellt. Prognoserechnungssysteme auf der Basis von Vergangenheitsdaten haben eine wesentliche Beschrankung: Sie verzichten darauf, Kausalbeziehungen zu konstruieren, und gehen sozusagen mathematisch-statistisch „vorurteilsfrei" an das Problem heran. Diese Beschrankung kann unter Umstanden ohne Nachteile aufgehoben werden, wenn der Mensch als Informations- und Intelligenztrager eingeschaltet wird. Rechenzeit und Speicherplatzbedarf. Der fur die Anwendung eines Prognoserechnungssystems erforderliche Aufwand an Rechenzeit und Speicherkapazitat wird durch die Anzahl der Elemente, fur die man eine Vorhersage zu treffen hat, durch die Haufigkeit der Vorhersagen und die Methodenbewertung und -auswahl bestimmt. Kurzfristige Vorhersagen werden bei betriebswirtschaftlichen Anwendungen wie beispielsweise Lagerhaltungssystemen in kurzen Zeitabstanden und fur eine groRe Anzahl von Elementen durchgefuhrt. Unter diesen Voraussetzungen mussen selbst bei den heutigen Preis-Leistungs-Verhaltnissen von Rechnern und Datenspeichern entsprechende Anforderungen an die Verfahren gestellt werden. Beispielsweise werden Verfahren so konzipiert, dass sie entweder nicht alle vorhandenen Vergangenheitsinformationen benotigen oder dass sie in der Lage sind, diese in verdichteter Form zu erstellen bzw. zu verarbeiten. 2.2.2
Datenauswahl und -analyse
Bei der Konzeption eines Zeitreihen-Prognosemodells wird man sich zu Beginn der Uberlegungen mit der Frage beschaftigen, welche der verfugbaren Daten zur Bildung der Zeitreihen venA/endet werden sollen. Diese Entscheidung wird nicht nur von der Ak-
Einfuhrung in die kurzfristige Zeitreihenprognose tualitat, Qualitat und Form der verfugbaren Daten beeinflusst, sondern auch von den verschiedenen Geschaftszusammenhangen im Umfeid der Prognoseaufgabe (vgl. dazu[1], S219ff.). 2.2.2.1
Datenquellen
Die Probiematik der Entscheidung, an welcher Stelle des Datenfiusses die Daten zweckmaBig zu erfassen sind, soil am Beispiel der Umsatzprognose dargestellt werden: Wahit man die Zahlungseingange als Basis, so stutzt man sich auf die effektiv eingetroffenen Gegenieistungen, erhalt die Daten jedoch zu einem relativ spaten Zeitpunkt. Entscheidet man sicii fur die Rechnungsausgange, so hat man die Daten um das Zahlungsziel fruher, jedoch sind unter Umstanden Korrekturen fur Gutschriften und Retouren erforderlich. Nimmt man die eintreffenden Kundenauftrage (Bestellungen), so stehen die Daten noch fruher bereit, jedoch kann sich das Problem ergeben, dass ein Teil der Kundenauftrage storniert wird oder aus anderen Grunden nicht zur Auslieferung kommt. Dieses Problem kann noch weiter verfolgt werden: Angenommen, man ist Produzent eines Artikels, der zunachst an einen GroBhandler, von dort an einen Einzelhandler und von dort an den Endverbraucher geliefert wird. Wo setzt man fur welche Prognosezwecke an? Fur den eigenen unmittelbaren Absatz sind nur die Lieferungen an den GroBhandler interessant. Will man die Prognosedaten fur die Produktionsplanung verwenden, so wunscht man moglicherweise Kenntnisse uber die Verkaufe des GroBhandlers an die Einzelhandler oder gar der Einzelhandler an die Kunden. Letztere eilen den Bestellungen des GroShandlers mit einer gewissen Phasenverschiebung voraus; jedoch wird die Prognose schwieriger, weil man nicht weiB, welche Lagerhaltungspolitik die Groli- und Einzelhandler betreiben. Um die Kenntnis von den Verkaufen des Einzelhandels zu eriangen, gibt es verschiedene Hilfsmittel, z. B. Haushaltspanels, die Rucksendung von Garantiekartchen oder Verlosungen, an denen der Kaufer teilnimmt, wenn er Lose einsendet, die dem verkauften Artikel beigefugt waren. (In solchen Fallen stellt sich die Frage, ob diese Malinahmen nicht mehr kosten, als die Verbesserung der Prognose wert ist.) Dieses Beispiel zeigt, dass es sinnvoll und auch notwendig ist, dass sich der Konstrukteur eines Prognosesystems in einem ersten Schritt mit den Geschaftsfallen befasst, die sich im Umfeid der Prognoseaufgabe abspielen. Ahnliche Vorschlage und Beispiele finden sich bei Armstrong ([1], S 219 ff.). 2.2.2.2
Datenanalyse
In einem zweiten Schritt setzt man sich dann im Detail mit den Daten auseinander und wird fur eine groliere Zahl von Perioden die Daten graphisch in Diagrammen darstellen, um allmahlich ein Gefuhl fur deren Schwankungen, Periodizitaten usw. zu erhalten. Die in der Praxis des Wirtschaftslebens verfugbaren Zeitreihen sind oft mit Messfehlern behaftet oder unvollstandig, beides kann zu gravierenden Prognosefehlern fuhren und erfordert eine Bereinigung der Daten vor der Berechnung von Vorhersagewerten. Spezielle Anforderungen stellen auch Zeitreihen, die wiederholt bzw. sporadisch 0-
10
Schroder
Werte enthalten und ein sporadisches Nachfrageverhalten reprasentieren. Armstrong schlagt hier vor, die Messwerte zu verdichten (z. B. zeitlich oder raumlich) oder die 0Werte durch Mittelwerte aus fruheren und spateren Methoden zu ersetzen ([1], S 222 ff.). (In Kapitel 4 dieses Buches werden fur diesen Nachfragetyp geeignete Verfahren beschrieben.) Diese Voruntersuchung des Datenmaterials darf aber nicht dazu verleiten, bereits hier verallgemeinernde Aussagen uber die Zeitreihen abzugeben, da die Gefahr groB ist, dass atypische Datenkonstellationen als typisch angesehen und daraus falsche Schlusse fur die Verfahrensauswahl gezogen werden. Diese Untersuchung hat vielmehr den Zweck, die Auswahl von Verfahren fur eine mathematisch-statistische Datenanalyse zu erieichtern. Im Speziellen geht es darum, zufallige Schwankungen von systematischen zu unterscheiden und die Bildungsgesetze der systematischen Schwankungen festzustellen. 2.2.3
Prognoseintervall und Vorhersagezeitraum
Wir haben oben bereits festgehalten, dass wir uns mit Vorhersageverfahren befassen, die auf der Extrapolation von Zeitserien beruhen. Diese Zeitreihen bestehen aus Beobachtungswerten x^ (r=0,l,2,...,r), die jeweils in gleichen, diskreten Zeitabstanden ermittelt wurden. Es wird nun vorweggenommen, dass nach jeder neu eintreffenden Beobachtung die Vorhersage wiederholt werden soil. Daher ist das Prognoseintervall gleich dem Zeitabstand zwischen zwei Beobachtungen. Unter dem Vorhersagezeitraum wollen wir die Lange der Periode verstehen, fur die wir in die Zukunft vorhersagen. Diese Periode setzt sich aus einem oder mehreren Prognoseintervallen zusammen. Im Folgenden sind einige Faktoren angefuhrt, die bei der Wahl der GroBe von Prognoseintervall und Vorhersagezeitraum zu berucksichtigen sind. (In der Regel wird der Vorhersagezeitraum ein Vielfaches des Prognoseintervalls sein. Brown gibt als Faustregel an, dass das Prognoseintervall etwa 1/4 bis 1/10 des Vorhersagezeitraums sein soil (vgl. [4], S. 43). Fur die Grolie des Prognoseintervalls gilt: 1.
Eine untere Grenze ist dadurch gegeben, dass die Laufzeitpunkte der Prognoseprogramme nicht vor denen jener Programme liegen konnen, welche die Beobachtungswerte fur das Prognoseprogramm beistellen (z. B. liefern Lagerbestandsfuhrungsprogramme Informationen uber die Lagerabgange, die dann wieder die Grundlage fur die Bedarfsprognose sind).
2.
Kurze Prognoseintervalle bzw. haufige Prognosen erfordern einen hohen Datenverarbeitungsaufwand und konnen dazu fuhren, dass das Modell stark auf Zufallsschwankungen reagiert.
3.
Bei grollen Prognoseintervallen hingegen erhoht sich die Gefahr, dass Veranderungen im Verhalten der Zeitreihe nicht rechtzeitig erkannt werden. Dem steht allerdings der Vorteil gegenuber, dass bei einer geringeren Anzahl von Prognosen weniger Planrevisionen durchzufuhren sind.
Einfuhrung in die kurzfristige Zeitreihenprognose
11
Fur die GroBe des Vorhersagezeitraums gilt: 1.
Eine untere Grenze ist durch die Zeitspanne vorgegeben, die zwischen dem Veranlassen einer Aktion aufgrund der Prognose und dem Eintreten des durch sie beabsichtigten Effekts verstreicht. Beispieisweise muss der Vorhersagezeitraum in einem Lagerhaltungssystem zumindest so groS wie die Zeitspanne sein, die zwischen einer Neubestellung und dem Eintreffen des Gutes in dem Lager vergeht.
2.
Nach oben wird die Lange des Vorhersagezeitraums vor allem durch die geforderte Genauigkeit und Zuverlassigkeit des Verfahrens bestimmt, da sich mit zunehmenden Vorhersagezeitraum die Gefahr von Fehlprognosen - z. B. durch eine Trendanderung - erhoht.
2.3
Modelle zur Abbildung von Zeitreihen
Nachdem wir das Verhalten einer Zeitreihe analysiert haben, stehen wir vor der Aufgabe, ihre systematischen Veranderungen uber der Zeit durch ein Modell darzustellen. Gedanklich wollen wir so vorgehen, dass wir die beobachteten Werte als das Ergebnis eines „Prozesses" plus einer nicht vorhersagbaren Zufallsabweichung auffassen. Der Begriff „Prozess" kann hier durchaus in einem physikalischen Sinne verstanden werden; man denke etwa an einen radioaktiven Zerfall oder an die Schwingungen eines Pendels. Zu bestimmten diskreten Zeitabstanden fuhren wir nun eine Messung durch und halten die Werte x^ fest. Bei vielen physikalischen Prozessen ist die zugrunde liegende Gesetzmaliigkeit genau bekannt. Die Daten, mit denen wir zu tun haben, sind ebenfalls das Ergebnis eines Prozesses, den wir aber niemals genau erfassen konnen, da er durch zu viele Faktoren und Interaktionen determiniert ist. Wir sind daher gezwungen, diesen uns unbekannten Prozess durch ein deskriptives Modell darzustellen. Bezuglich der Zufallsabweichungen, die ebenfalls in die Beobachtungswerte eingehen, wird angenommen, dass 1. 2. 3.
der Erwartungswert Null, die Varianz konstant und die Verteilung annahernd normal ist.
Die unbekannten Prozesse werden als deterministische Funktionen der Zeit betrachtet. Die Modelle haben die Aufgabe, diese Prozesse moglichst genau zu beschreiben. Fur die Beobachtungswerte gilt: Xf =P^ +e^(P^ = Prozess, e^ = Zufallsabweichung) Im Folgenden werden nun eine Ubersicht uber die grundsatzlichen Moglichkeiten zur Modellbildung bei der kurzfristigen Zeitreihenprognose gegeben und die wichtigsten Modelle mathematisch dargestellt. 2.3.1
Graphische Ubersicht uber die Moglichkeiten zur Modellbildung
Die Modelle der Gruppe 1 (Abbildung 1) haben gemeinsam, dass sie keine periodische Veranderung uber der Zeit aufweisen.
12
Schroder
Modell
1-A
1-B
1-C
Abb. 1: Modelle fur Zeitreihen ohne Periodizitat ([14], S. 312) Im Modell A wird angenommen, dass der zugrundeliegende Prozess uber der Zeit konstant ist, in Modell B, dass der Prozess eine linear, im Modell C, dass er eine nicht-linear wachsende Funktion der Zeit ist. Dabei stellen die ausgezogenen Linien den Prozess dar, der durch das Modell beschrieben werden soil, wahrend die Abstande der Beobachtungswerte von diesen Linien das Ergebnis der nicht vorhersagbaren Zufallsabweichungen sind. Die Darstellungen in den Abbildungen 2 und 3 sind zwei weitere Modellgruppen, die dadurch entstanden, dass den Modellen der Gruppe 1 zyklische Schwankungen uberlagert wurden.
Modell
2-A
2-B
2-C
Abb. 2: Modelle fur Zeitreihen, bei denen periodische Schwankungen den Grundwert additiv uberlagern ([14], S. 313) In der Modellgruppe 2 sind diese Schwankungen additiv uberlagert, d. h., dass die GroQ>e ihrer Amplituden von der Hohe des Grundwertes unabhangig ist. In der Modellgruppe 3 hingegen sind die Schwankungen multiplikativ uberlagert, so dass die Amplituden zeitabhangig sind.
Modell
3-A
3-B
3-C
Abb. 3: Modell fur Zeitreihen, bei denen periodische Schwankungen den Grundwert multiplikativ uberlagern ([14], S. 314)
Einfuhrung in die kurzfristige Zeitreihenprognose 2.3.2
13
Mathematische Beschreibung derwichtigsten Modelle
Im folgenden werden die wichtigsten Modelle behandelt, die zur Beschreibung der datenerzeugenden Prozesse Verwendung finden (vgl. hierzu [4], S. 57 ff.]). 2.3.2.1
Konstantes Modell
Betrachtet man das Modell 1-A (Abbildung 1), so geht daraus die Annahme hervor, dass der zugrunde liegende Prozess uber der Zeit annahernd konstant ist. Wir verwenden daher zur Beschreibung des Verlaufs ein Modell von der Form P^ = a, wobei a der „wahre" Wert der Konstanten ist, den wir nicht kennen. (Die Gleichung der Geraden, die in Abbildung 1 durch die Punkte gelegt wurde, ist uns nicht bekannt.) Beziehen wir die Zufallsabweichungen {e^) in unsere Uberlegungen mit ein, so konnen wir sagen, dass die Beobachtungswerte x^ Stichproben aus einer bestimmten Verteilung mit dem Mittelwert a sind. Da dieser Mittelwert unbekannt ist, sind wir gezwungen, aus den vorliegenden Vergangenheitsdaten einen Schatzwert zu errechnen. Die Indizierung in diesem Beitrag erfolgt in Aniehnung an Brown [4]. Fur die Zeit als unabhangige Variable wird {t) verwendet (/= 0,1,2,...,r), wobei die Gegenwart den Index T erhalt. Beispielsweise ist Xj, der Beobachtungswert, der in der letzten Beobachtungsperiode eingetroffen ist. Ein Schatzwert, der nach dem Eintreffen von x^^ aus alien oder einer bestimmten Menge A^ Vergangenheitsdaten errechnet wurde, soil durch das Symbol ^ und durch den Index T gekennzeichnet werden. Beispiel: a^. st ein Schatzwert fur den Wert a in einem konstanten Modell (siehe oben), der nach dem Eintreffen von Xj berechnet wurde. Eine Vorhersage, die in der Periode T auf Basis der Schatzwerte a^, ^^,... und so fort abgegeben wird, erhalt ebenfalls das Symbol ^ und den Index T. Zur Kennzeichnung der Periode, fur die die Vorhersage gilt, wird {T + i) venA/endet. Ftihren wir nun eine Prognose fur die Periode (T + i) durch, so bedeutet das, dass wir den Mittelwert der Verteilung in der Periode (T + i) vorhersagen. Die Vorhersagegleichung lautet: Xj^^^ =aj^. Fur ihre Gultigkeit mussen folgende Annahmen zutreffen: 1.
Der den Daten zugrunde liegende Prozess kann durch eine Konstante dargestellt werden.
2.
Diese Konstante (der Koeffizient des Modells) kann man durch eine Mittelwertbildung uber Vergangenheitsdaten abschatzen.
3.
Der Mittelwert der Verteilung kann durch den Wert a^ mit hinreichender Genauigkeit dargestellt werden.
2.3.2.2
Lineares Modell
Gehen wir von dem zweiten Modell in Abbildung 1 aus, so sehen wir, dass die Bedarfsentwicklung einen Trend aufweist, der uber der Zeit konstant ist (gleiche Zuwachs-
14
Schroder
raten). In diesem Fall nehmen wir an, dass sich der zugrunde liegende Prozess durch ein Modell von der Form Pf=a + bt abbilden lasst. Dabei stellt a die durchschnittliche Nachfrage zu dem Zeitpunkt dar, in dem t als Null angenommen wird (relative Zeit). Der Trendwert b gibt die Anderungsrate des ordinalen Wertes innerhalb einer Periode an. Da wiederum die Werte von a und b unbekannt sind, ist eine Schatzung aus den Daten der Vergangenheit notwendig. Diese Schatzung soil nach Ablauf einer bestimmten Periode durch die Werte aj^ und bj^ dargestellt werden. Beachten wir, dass unsere Beobachtungswerte durch die Punktwoike in Abbildung 1 gegeben sind. Die Schatzwerte unterliegen zeitlichen Schwankungen. Die Vorhersagegleichung ist bei einem linearen Modell durch bj^ i gegeben. Dabei ist zu berucksichtigen, dass die Vorhersage nur von der relativen Zeit abhangt, und daher gilt, dass aj^ =aj^_i +^r-i • 2.3.2.3
Modelle hoherer Ordnung
Liegt der Fall vor, dass auch der Trendanstieg uber der Zeit (bzw. innerhalb unseres Beobachtungszeitraums) nicht mehr konstant ist (vgl. Modell 3 in Abbildung 1), so muss dieser Sachverhalt durch eine Erweiterung des Modells wiedergegeben werden, beispielsweise durch P^=a + bt + ct^. Wir sehen daraus, dass wir im Falle eines quadratischen Modells drei Koeffizienten abschatzen mussen. (Allgemein gilt, dass wir bei Verwendung eines Modells ^-ter Ordnung (^ + 1) Koeffizienten zu schatzen haben.) Haben wir z. B. das oben angegebene quadratische Modell zur Darstellung unseres Prozesses ausgewahit, so ist unsere Vorhersage gegeben durch die Gleichung X'T' , 1
Clrp
I O'T' I
\ G'T' I
Ein Verfahren zur Abschatzung der Koeffizienten von Modellen hoherer Ordnung wird z. B. von Box und Jenkins beschrieben ([3]). 2.3.2.4
Trigonometrische Modelle
Viele Zeitreihen in der Praxis weisen periodische Schwankungen auf (Abbildungen 2 und 3). Werden diese im Modell berucksichtigt, so vergroliert sich der erforderliche mathematisch-statistische Aufwand erheblich. Lassen sich die Schwankungen durch Verwendung von Winkelfunktionen darstellen, so gelangt man beispielsweise zu einem Modell von der Form P^ =acos(27rt/l2). Diese Verfahren werden hier nicht naher erortert, sie stehen im Mittelpunkt des in Kapitel 3 dieses Buches enthaltenen Beitrags. 2.4 2.4.1
Methoden zur Abschatzung der Modellkoeffizienten Ubersicht
Nach der Auswahl eines Modells, das in der Lage ist, das Verhalten einer Zeitserie zu beschreiben, benotigen wir Verfahren, um die uns unbekannten Modellkoeffizienten abzuschatzen.
Einfuhrung in die kurzfristige Zeitreihenprognose
15
Eine erste Einteilung dieser Verfahren richtet sich danach, auf welche Modelie sie anwendbarsind. Zur Abschatzung des Koeffizienten im konstanten Modeil kann entweder • •
ein Verfahren der gleitenden Durchschnitte oder Exponentielles Glatten erster Ordnung
verwendet werden (vgl. dazu den folgenden Abschnitt 2.4.2). Mussen wir zwei Koeffizienten in einem linearen Modeil bestimmen, so stehen uns folgende Verfahren zur Verfugung (vgl. dazu Abschnitt 2.4.3) 1. 2. 3. 4. 5.
Exponentielles Exponentielles Exponentielles Exponentielles Exponentielles
Glatten mit Trendkorrektur Glatten zweiter Ordnung nach Brown Glatten zweiter Ordnung nach Holt Glatten zweiter Ordnung mit gedampftem Trend Glatten mit Fehlerdifferenz nach Holt
Als Einleitungskriterium haben wir hier die Ordnung des Polynoms verwendet, mit dessen Hilfe wir den Prozess abbilden wollen. Eine andere Einteilungsmoglichkeit besteht darin, dass man unterscheidet, ob die Vergangenheitsdaten gleich gewichtet bei der Berechnung des Mittelwerts verwendet werden (Regression und einfache gleitende Durchschnitte) oder ob sie mit verschiedenen Gewichten zum Mittelwert beitragen (gewogene gleitende Durchschnitte, alle Verfahren des exponentiellen Glattens). Im letzten Fall berucksichtigt man, dass jungere Daten meist starker fur die zukunftige Entwicklung relevant sind, als dies fur altere Daten gilt. Bei den Verfahren der exponentiellen Glattung kann man schlielilich noch eine Unterscheidung nach der Zahl der verwendeten Glattungsfaktoren treffen. Das Schwergewicht unserer Darstellung werden wir auf Methoden legen, die mit einem Glattungsfaktor auskommen, well diese Verfahren vergleichsweise einfach sind und daher auch am haufigsten benutzt werden. Daneben sind aber auch Algorithmen bekannt, die zwei, drei oder noch mehr Glattungsfaktoren verwenden. In Tabelle 1 ist ein Uberblick uber die Verfahren nach den oben beschriebenen Einteilungskriterien gegeben. 2.4.2
Methoden fiir das konstante Modeil
In diesem Punkt wollen wir uns mit verschiedenen Methoden der Mittelwertbildung befassen, die es uns ermoglichen, sukzessive eine moglichst gute, mit jeder neuen Beobachtung wiederholte Schatzung der Modellkoeffizienten durchzufuhren. Wir gehen davon aus, dass der unseren Daten zugrunde liegende Prozess konstant ist (vgl. Abschnitt 2.3.2.1), also Pt=a, und die beobachteten Werte durch Xf=Pf+e( dargestellt werden konnen. Wir nehmen weiterhin an, dass die e^ Stichproben einer bestimmten Verteilung mit dem Mittelwert 0 und der Varianz c/ sind.
Schroder
16
Gewichtung
Anwendung auf Konstanter Prozess
Verfahren Gleitende Durchschnitte M.Ordnung
X
Exponentielles Glatten 1. Ordnung
X
Linearer Prozess
Polynome hoherer Ordnung
Gleich
Exponentiell
X
Zahl der Glattungsfaktoren 0
X
1
Exponentielles Glatten mit Trendkorrektur
X
X
1
Exponentielles Glatten 2. Ordnung (Brown)
X
X
1
Exponentielles Glatten 1 2. Ordnung (Holt)
X
X
2
Exponentielles Glatten mit gedampftem Trend
X
(X)
X
2
Exponentielles Glatten mit Fehlerdlfferenz (Holt)
X
(X)
X
3
Tab. 1: Ubersicht uber die Verfahren zur Abschatzung der Modellkoeffizienten Da der „wahre" Wert a uns nicht bekannt ist, mussen wir versuchen, aus den vorhandenen Daten x^ einen moglichst guten Schatzwert ctj^ zu berechnen, den wir dann als Prognosewert x^^^^ =aj, verwenden konnen. 2.4.2.1
Gleitende Durchschnitte erster Ordnung
Bei gleitenden Durchschnitten wird aus N Werten x^ ein Mittelwert dadurch gebildet, dass man jeweils die jungste Beobachtung anstatt der altesten in die Berechnung mit einbezieht. Dieser gleitende Durchschnitt kann fur beliebige Perioden t mit der Formel M
Ji^j^ \ J^f\
I •^/^o
•
+ x,t-N+\
N
(1)
berechnet werden. Streng genommen gilt der in T berechnete Mittelwert nur fur die Perioden T-[N-\)I2. Solange aber der Prozess konstant ist, machen wir keinen Fehler, wenn wir diesen Wert als Prognosewert fur die Periode {T + i) verwenden. (Weist die Zeitreihe einen Trend auf, so ist diese Vorgehensweise nicht mehr zulassig.) Hat man nach Eintreffen von x^ einen neuen Mittelwert Mj, aus den Daten x^ {t = T,...J-N + \) berechnet, so wird M^ fur den Schatzwert QJ^ verwendet. Eine Vorhersage fur die Periode {T + i) istdurch Xj^^^ ^a^ gegeben. Rechentechnisch ist es sehr umstandlich, wenn wir in jeder Periode summieren und durch N dividieren mussen. Es ist einfacher, die Berechnung nach der Formel M, =M,_i+(x,-x,_^)/A^
(2)
Einfuhrung in die kurzfristige Zeitreihenprognose
17
durchzufuhren. Wir berechnen also den neuen Mittelwert dadurch, dass wir zu dem der Vorperiode den A^-ten Teil der Differenz aus dem neuen Beobachtungswert x^ und dem Wert x^_^ addieren. Setzen wir (x^-jc^_^) = J^ und 1/A^ = A:, so erhalten wir M^=M^_^+k'd^
(3)
Zur Berechnung benotigen wir den Mittelwert der Vorperiode und die Beobachtungen Xf bis x^_^.
Vorteile dieser Methode: Sie erfullt das Optimalitatskriterium einer Minimierung der Abstandsquadrate zwischen Modell- und Beobachtungswerten (zum Beweis vgl. Abschnitt 2.4.3.1) und liefert unter den Annahmen (vgl. Abschnitt 2.3.2.1), dass 1.
der Prozess durch eine Konstante darstellbar ist,
2.
diese durch einen Mittelwert uber Vergangenheitsdaten abgeschatzt werden kann und
3.
der Mittelwert der Verteilung im Vorhersagezeitraum (/ Perioden) durch den Schatzwert aj^ mit hinreichender Genauigkeit reprasentiert wird,
gute Vorhersagen. Nachteile dieser Methode: 1.
Die obigen Annahmen sind fur viele Zeitserien in der Praxis nicht zutreffend.
2.
Der Aufwand fur die Speicherung und Verarbeitung der Vergangenheitsdaten nimmt mit steigender Zahl von Prognoseobjekten und grolieren N stark zu.
3.
Tritt der Fall ein, dass sich a (beispielsweise durch Anderung der Marktsituation) von a^ auf ^2 andert, dann dauert es genau A^ Perioden, bis die neuen Schatzwerte fur eine Vorhersage brauchbar sind. Das heilit aber, dass wir streng genommen diese A^ Perioden lang keine Vorhersage machen konnen.
4.
Wird aus diesem Grund A^ verkleinert, so besteht die Gefahr, dass Zufallsschwankungen zu stark in die Vorhersagen eingehen.
5.
Durch den konstanten Faktor l/N = k wird alien Daten das gleiche Gewicht zugeordnet. Hingegen ist die Annahme plausibel, dass die Daten der jungsten Vergangenheit die Entwicklung besser reprasentieren als die alteren Daten und daher eine unterschiedliche Gewichtung zur Verbesserung der Prognose beitragen kann.
Wir wollen diese Nachteile in Form von Anforderungen an ein besser geeignetes Verfahren zusammenfassen: 1.
Die Vergangenheitsentwicklung muss durch eine moglichst geringe Anzahl von Informationen dargestellt werden konnen.
2.
Es muss die Moglichkeit vorhanden sein, mit geringem Aufwand die Reaktionszeit (rate of response) des Systems zu andern.
18
Schroder
3.
Auch bei trendahnlichen Tendenzen soil das Verfahren in der Lage sein, sich diesen anzupassen.
4.
Die Vergangenheitsdaten sollen nicht gleich, sondern proportional zu ihrer Relevanz fur die zukunftige Entwicklung gewichtet werden.
2.4.2.2
Gewogene gleitende Durchschnitte
Ein erster Versuch, die Nachteile des Verfahrens der ungewogenen gleitenden Durchschnitte zu verringern, besteht darin, die N Werte x^, die jeweils zur Mittelwertbildung herangezogen werden, mit verschiedenen Koeffizienten zu gewichten. Die Auswahl der Koeffizienten wird in der Weise getroffen, dass die Daten proportional zu ihrer Relevanz fur die zukunftige Entwicklung in den Mittelwert eingehen. Damit aber durch die Gewichtung keine systematischen Komponenten eingefuhrt werden, muss fur die Gewichtungsfaktoren k gelten, dass
Wenn die Zeitreihe also stellenweise Trendanderungen oder andere Schwankungen aufweist, wird dieses Verfahren bessere Ergebnisse als ungewogene gleitende Durchschnitte liefern. Diese Tatsache ist aus der Abbildung 4 deutlich zu ersehen. Man kann die Daten auch von unerwunschten Saisoneinflussen bereinigen, wenn man die Durchschnittsbildung auf vollstandige Saisonzyklen bezieht (z. B. mit vier, acht oder zwolf Monatsperioden) [2], Der Nachteil der geringen Flexibilitat in Bezug auf die Reaktionszeit (rate of response) des Verfahrens der ungewogenen gleitenden Durchschnitte bleibt aber auch bei dieser Methode. Dazu kommt noch, dass die Bestimmung der Koeffizienten k^ aufwandig ist. 2.4.2.3
Exponentiell gewogene Durchschnitte (exponentielles Glatten erster Ordnung)
In diesem Abschnitt wollen wir uns ausfuhrlich mit dem Verfahren des exponentiellen Glattens (Exponential Smoothing) befassen. Ausfuhrlich deshalb, weil exponentielles Glatten weniger nur ein Verfahren als vielmehr ein Prinzip darstellt, welches fur viele spezielle Vorhersagemethoden von grundlegender Bedeutung ist. Dazu kommt noch, dass sich alle Autoren uber das Grundprinzip des exponentiellen Glattens einig sind, wenn wir auch uber die verschiedenen Erweiterungen, Verallgemeinerungen und speziellen Verfahren in der Literatur sehr verschiedene Ansichten finden. Daher besitzt das Prinzip des exponentiellen Glattens eine gewisse Allgemeingultigkeit, die - will man die darauf aufbauenden hoheren Verfahren verstehen - eine eingehende Erorterung rechtfertigt. 2.4.2.3.1
Ubergang von gleitenden Durchschnitten zum exponentiellen Glatten
Ein Nachteil der Methode der gleitenden Durchschnitte ist die Notwendigkeit, dass zur Berechnung alle N Daten x^ gespeichert sein mussen. Da wir unseren Betrachtungen
Einfuhrung in die kurzfristige Zeitreihenprognose
19
einen konstanten Prozess zugrunde legen, ist die Prognose fur die Periode {T-\-i) durch Xj^^^ =aj=Mj^ gegeben. Was uns fur die Zukunft recht ist, kann uns fur die Vergangenheit billig sein:
Gleitender Durchschnitt
/^Gewogener gleitender Durch sell nitt Istwerte
Abb. 4: Vorhersagen nach den Verfahren der gleitenden Durchschnitte und der gewogenen gleitenden Durchschnitte ([11], S. 239) Wenn wir den Mittelwert M^ =aj^ als Vorhersagewert fur die zukunftige Beobachtung Xf^i verwenden, dann durfen wir ihn doch auch als Schatzwert fur den Beobachtungswert Xj_^ nehmen, ohne einen Fehler zu begehen. Fuhren wir dies laufend durch, d. h., setzen wir jeweils anstatt des altesten Wertes Xj^_^ den uns zur Verfugung stehenden Wert Mj_^ ein, so konnen wir uns die Speicherung des Datensets der N Daten x^ ersparen. Wir wollen dieses Vorgehen an einem Beispiel darstellen: Wir ermittein einen Wert M^=M^+{x^-x2)l6 nach der Methode der gleitenden Durchschnitte. Wir sehen, dass wir dafur den Wert x^ benotigen, d. h., wir mussten bis zur Periode / = 8 alle Werte bis Xj (da wir ja auch in der nachsten Periode x^ benotigen) vorhalten. Das ist uns zuviel Aufwand; wir nehmen statt X2 den Wert M^ und erhalten Mg =M^ +(jc8 -X2)I6 zur naherungsweisen Berechnung des Mittelwerts (daher Mg). Wollen wir jetzt M^ berechnen, so mussen wir anstatt des Wertes x^, der uns ja nun ebenso wenig wie X2 zur Verfugung stehen soil, den Wert M^ verwenden. Wir erhalten M9 = Mg + (X9 - Mg) / 6 Oder allgemein (4) Setzen wir nun M^=Sj[x)
und 1/A^ = J , so erhalten wir
S,{x) = S,_,{x) + A(x,-S,_,{x))
(5)
20
Schroder
(Die Bezeichnung S^x) wird im Folgenden fur alle exponentiell gewogenen (geglatteten) Mittelwerte verwendet.) Damit haben wir durch einen Analogieschluss zur Gleichung (2) die Grundformel des exponentiellen Glattens hergeleitet. Durch Umrechnungen ergibt sich:
S,{x) = Ax,+{l-A)S,_,{x)
(6)
Dieses S^ix) ist unser exponentiell geglatteter Mittelwert, der zur Abschatzung von a^ verendet wird. A wollen wir als Glattungskonstante bezeichnen, die nur ahnlich, aber keineswegs gleich unserem Wert 1/A^ ist, wie sich aus einer mathematischen Betrachtung im nachsten Punkt ergeben wird. Ebenso wird dort begrundet, warum wir den Mittelwert als „exponentieH" geglattet bezeichnen. 2.4.2.3.2
Prinzip des exponentiellen Glattens
Wir wollen die Konsequenz unserer Vorgehensweise einer mathematischen Betrachtung unterziehen. Dazu gehen wir von der Formel S,{x) = Ax,+{\-A)S,_,{x)
(6)
aus und setzen S,_,{x) =
Ax,_,+{\-A)S,_,{x)
in Gleichung (6) ein. Wir erhalten
S,{x) =
Ax,+A{l-A)x,_^+{l-Afs,_2{x)
Berechnen wir den Wert fur *S'^_2(^) und setzen ihn wieder in die letzte Gleichung ein, ergibt sich
S,{x) = Ax, + A{\- A)x,_^+ A{l- Af x,_2+{l- Af S,_^{x) und durch weiteres Einsetzen
S,[x) = Ax, +A{\-A)xf_^ +...-\-A(\-Ayx,_i bzw. S,{x) = At{l-Ayx,_,
(7)
Man erkennt daraus, dass jeder Wert x^_^ (/ = 0,1,2,...) mit dem Koeffizienten gewichtet wird.
A{l-Ay
Die Summe dieser Koeffizienten ist 1, wie leicht gezeigt werden kann: Setzt man A = p und [l-A)
= q, so ergibt der Ausdruck S ^ ( l - ^ y eine geometrische Reihe von der z=0
Form pq^ + pq^ + pq^ +... +pq'+... fur p wieder A und fur q {\-A)
mit der Summe pl{\-q).
Dieser Wert ist 1, wenn
eingesetzt wird. Hiermit ist sichergestellt, dass durch
die Gewichtung kein systematischer Fehler in die Berechnungen eingebracht wurde.
Einfuhrung in die kurzfristige Zeitreihenprognose
21
Wir wollen wiederholen, welche Folgen die Substitution von x^_^ durch den Wert M^_^ (vgl. dazu Gieichungen (2) und (4)) hat. Wie Abbildung 5 zeigt, wurden beim Verfahren der gleitenden Durchschnitte jeweils N Daten x^ mit dem gleichen Gewicht zur Berechnung des Durchschnitts benutzt.
0,50,4JO.
1
0,3-
O 0,2-
Gleiche Gewichte N=Q
\
\
rv
i
^
ExDonentielle Gewichte A =0,3
0,10
1
^
4 6 Alter der Daten
I 8
^
T 10
Abb. 5: Gewichtung der Vergangenheitsdaten beim Verfahren der gleitenden Durchschnitte und beim exponentiellen Glatten ([4], S. 102) Durch die Substitution x^_^ = ^ r - i ^^"^^ folgende Anderungen eingetreten: 1.
Es werden a//e Daten der Vergangenheit zur Berechnung des Durchschnitts herangezogen.
2.
Die Gewichtung der Daten erfolgt exponentiell fallend mit
A{\-A^.
Praktisch allerdings werden die alteren Daten - je nach GroSe des A - ihren Einfluss auf den Durchschnitt nach wenigen Perioden verlieren. Diese Aussagen gelten aber nur fur den Fall, dass 0< J < 1 ist. Wird A gleich Null gewahlt, so folgt aus (6), dass der neue Glattungswert jeweils gleich dem vorhergegangenen ist und daher uberhaupt nicht auf Veranderung des numerischen Werts von x^ reagiert. Ist ^ = 1, so ist der neue Glattungs-jeweils gleich dem neuen Beobachtungswert. 2.4.2.3.3
Bestimmung des Glattungsfaktors
Aus den bisherigen Ausfuhrungen geht hervor, dass die Grolie des Wertes A entscheidend fur die Reagibilitat (bzw. Stabilitat) des Verfahrens in Bezug auf Zufallsschwankungen ist. Durch die Wahl von A wird bestimmt, mit welchem Gewicht die Vergangenheitsdaten in den Glattungswert eingehen. Bei dem Verfahren der gleitenden Durchschnitte hat man die Reagibilitat des Systems direkt durch die Anzahl der Beobachtungen (N) festgelegt, die zur Berechnung des Mittelwerts herangezogen wurden, ohne eine unterschiedliche Gewichtung vorzuneh-
22
Schroder
men. Beim exponentiellen Glatten bestimmen wir indirekt uber die Gewichte die Zahl der Werte, die in unserem Mittelwert hauptsachlich berucksichtigt werden sollen. Zur Verdeutlichung dienen die Abbildungen 6 und 7. A 0,10-i
0,08-
0,06-
87,84 % des neuen Durchschnitts bestehen aus Daten mit einem Alter von 19 Perioden oderweniger
Die restlichen 12,16 % des neuen Durchschnitts stammen von Daten, die alter als 19 Perioden sind
0,04-
0,02 H
^ c CD D) (D
1 2
3 4
5 6 7 8
9 10 11 12 13 14 15 16 17 18 19
Alter der Daten
O
Abb. 6: Gewichtung der Vergangenheitsdaten mit ^ = 0,1 ([15], S. 10) Wenn die Grolie A fur die Brauchbarkeit des Verfahrens entscheidend ist, dann muss nach Methoden gesucht werden, mit denen man ein geeignetes A bestimmen kann. Re/f ([15], S. 9) gibt als Erfahrungsregel an, dass A zwischen 0,1 und 0,3 zu wahlen ist. Eine andere Moglichkeit ist, A so zu wahlen, dass etwa so viele Werte x^ wie bei dem Verfahren der gleitenden Durchschnitte zur Berechnung herangezogen werden. Hat man dort beispielsweise mit A^ = 50 befriedigende Ergebnisse erzielt, so kann man ein A berechnen, bei dessen Verwendung ebenfalls annahernd die letzten 50 Werte in die Rechnung eingehen. Zu diesem Zweck wollen wir ein durchschnittliches Alter 7_unserer Daten berechnen. Im Falle der gleitenden Durchschnitte ist dieses Alter durch / = (O +1 + 2 +...+ A^ - l)/N zu ermitteln. (Die jungste Beobachtung ist 0 Perioden alt, die vorhergegangene 1 Periode usf.) Es ist die Summe uber 0,1,2,...,TV-1 gleich (A^-1) A^/2, so dass sich das mittlere Alter der Beobachtungen beim Verfahren der gleitenden Durchschnitte zu J = (N-l)/2 ergibt. Das durchschnittliche Alter wurde bestimmt durch die Summe der Produkte aus 1. 2.
dem Alter der Daten und dem Gewicht, das ihnen das Verfahren verleiht.
Einfuhrung in die kurzfristige Zeitreihenprognose
23
0,5 98,44 % des neuen Durchschnitts bestehen aus Daten, die 5 oderweniger Perioden alt sind
0,4.
0,3-^ o
CD
Die restlichen 1,56% des neuen Durchschnitts enthalten Daten, die alter als 5 Perioden sind
0,2
0,1
f-
Vz/y^y/^y^^^
sc
0) D)
1 2
3 4
5
Alter der Daten
Q)
(3
Abb. 7: Gewichtung der Vergangenheitsdaten mit^i = 0,5 ([15], S. 10) Beim Verfahren der gleitenden Durchschnitte wird alien Daten das gleiche Gewicht 1/A^ zugeordnet. Hingegen mussen wir beim exponentiellen Glatten das Alter der Daten mit dem entsprechenden Gewicht A i\- Af multiplizieren, urn das mittlere Alter der Daten zu erhalten. Setzen wir (1 - ^ ) = 5 , so ist
I^^A^\AB-rlAB^-v...^AY.iB'
. /=0
Dafur 0^=l/6 und /l4=l/3 brauchbar annähern (siehe Abbildung 2). Die zugehörigen Fourier-Polynom-Koeffizienten und Amplituden lauten 6>o=l-0, ö^ =-0.1295, i9i =-0,0501, 6^1=0,1389, ^2 =-0,0142, 6^2=0,0823, ^2 =0,0835 und Ö4 =0,0275, »94=0,0245, ^4 =0,0369. Die harmonischen Schwingungen mit den Frequenzen yl^ = l/4, Ä^=5l\2 und /l6=l/2 werden vernachlässigt, da sie wegen ihrer kleinen Amplituden ^3 =0,0075 , a^ =0,0064 und a^ =0,0033 keinen wesentlichen Beitrag zur Darstellung der Saisonfaktoren liefern. 3.3.2.2 Rekursive Berechnung geglätteter Saisonfaktoren Die grobe SEATREND-Methode nutzt den skizzierten Fourier-Ansatz zur Glättung von Saisonfaktoren, die Winters' Rekursionsgleichung (8) genügen:
Einführung in die Prognose saisonaler Zeitreihen
53
Überlagerung
4. Harmonische
2. Harmonische
1. Harmonische
-i—
—1—
0
10
— I —
12
Abb. 2: Approximation von Saisonfaktoren (Punkte) durch die Überlagerung dreier harmonischer Wellen (Kurven) c , = C . ^ + (l-C).c,_,=c,_,+C a,
•-C,
t-L
K^t
Die zu einem Zeitpunkt / aktuell verfügbaren „rohen" Faktoren c^_^+i,c^_^+2 '•••' ^t werden in „geglättete" Saisonfaktoren V L + 1 ' V L + 2 '•••' ^t transformiert gemäß VL+/ =4,0 + Z [^t^k •cos2;r|/ + 4,;t •sin2;rA/j
(/ = 1,2,..,Z)
(24)
sig k
mit dem vorgegebenen Absolutglied 4,o =1 und den Polynom-Koeffizienten 2 ^ ^a=TZ^^-L+/-c^s2;rA/
4,)^=-Z^^-L+/-sin2;rA/,
und
falls
(25)
0
f= 10 Tage
Abb. 3: Prognose der Zahlungseingänge aus den Umsätzen Es ist einsichtig, dass die Übergänge zwischen Produktionsbeginn und der Vielzahl der dadurch ausgelösten Materialeinsatzereignisse bzw. Güterentstehungsereignisse nur durch komplexe Verweilzeitverteilungen abgebildet werden können, da in diesem Bereich gerade die individuellen Strukturen der zukünftigen Einsatz- bzw. Entstehungszeitreihen interessieren. Zum Teil werden diese Informationen für die Planung des Fertigungsgeschehens selbst benötigt, insbesondere bilden sie aber die Grundlage für die weiterführende Prognose der Lager- und Beschaffungsereignisse bis letztlich hin zur Vorhersage der zu erwartenden Ausgaben einerseits und der Umsatzereignisse bis hin zu den daraus resultierenden Einnahmen andererseits. Inhaltlich wird durch die anzuwendende Verweilzeitverteilung der quantitativ-zeitliche Zusammenhang zwischen einzelnen Fertigungsbeginnereignissen und den zugehörigen Input- bzw. Outputereignissen ausgedrückt. Welche Arten von Einsatzgütern oder entstehenden Gütern in die Verweilzeitverteilung aufgenommen und dadurch der Prognose zugänglich gemacht werden sollen, ist in Abhängigkeit von ihrer Bedeutung und dem Informationsbedürfnis der Unternehmensführung zu entscheiden. Die Prognose der Verbrauchsereignisse kann mit einer komplexen Verweilzeitverteilung vorgenommen werden, die sich wie folgt aufbaut:
86
Langen, Weinthaler
141,6 Kumulierte Zahlungseingänge 134,2 - in 10 Tsd. Euro 126,7119,3 111,8 104,3 96,9 89,4 82,0 74,5 // 67,1 r^ 59,6 52,1 / 44,7 37,2 29,8 22,3 14,9 7,4i
1
\
\
10
15
20
-^>^
J
—
1
25
/ /-^'^'"'"^
\
30
^
35
^
>
40 f= 10 Tage
Abb. 4:Kumulierte Prognoseergebnisse der Einnahmenprognose aus Abbildung 3 Durch l^fj mit (/ = !,...,/), (7 = l,...,r), (/ = !,...,^) werden die Mengen der Einsatzgüterarten j bezeichnet, die in der jeweils t -ten Periode eines Produktionszyklus zur Produktion einer Einheit des betreffenden Gutes / benötigt werden. Durch n wird die längste vorkommende Produktionsdauer ausgedrückt. Diese Einsatzkoeffizienten werden zu n Einsatzmatrizen S^ zusammengefasst, die in den Zeilen nach den Enderzeugnissen und in den Spalten nach Aufwandsarten gegliedert sind. f M
Jr\
s^ Diese n Einsatzmatrizen lassen sich zu einem Einsatzvektor S'=^(SQ S^ -"S^) zusammenfassen. Dieser Vektor stellt die zur Prognose verwendbare Verweilzeitverteilung dar. Dass es sich hierbei um eine komplexe Verteilung handelt, zeigt sich darin, dass ihre einzelnen Komponenten Matrizen darstellen, die die Verteilung einzelner Inputarten auf ihre zugehörigen Outputarten beinhalten. Die Matrizen ermittelt man, indem man die Arbeits- und Produktionsunterlagen für mehrere Perioden statistisch auswertet. Da jedoch gerade im Produktionsbereich die Verfolgung der einzelnen Fertigungsaufträge bei ihrem Durchlauf durch die Produktion
Prognose mithilfe von Verweilzeitverteilungen
87
erhebliche Erfassungsschwierigkeiten bereiten kann, können die Komponenten auch durch Schätzverfahren ermittelt werden. Bei der Methode der kleinsten Quadrate bzw. bei der Schätzung mit der Maximum-Likelihood-Funktion werden Übergangsfunktionen gesucht, die eine lineare Verknüpfung der Zeitreihen derart erlauben, dass die Abweichungen der empirischen Outputzeitreihen minimiert werden. Allerdings ist es dann nicht mehr in jedem Fall möglich, die berechneten Komponenten auch ökonomisch zu interpretieren. Es bleibt abzuwarten, welche Möglichkeiten sich für die Schätzung der VenA/eilzeitverteilung aus der Weiterentwicklung der Spektralanalyse ergeben. Gute Hilfestellung leisten auch terminierte Stücklisten, aus denen die benötigten Verweilzeitverteilungen teils direkt entnommen, teils durch Summation, Faltung und Ähnlichem errechnet werden können. Allerdings haben die hierin enthaltenen Zeit- und Mengengrößen eine Tendenz zu technischen Sollgrößen und führen in der Prognose zu verzerrten Ergebnissen. Sie sind daher durch Erfahrungswerte und statistisch ermittelte Werte zu korrigieren. Neben den VenA/eilzeitverteilungen werden zur Prognose Informationen über die begonnenen und zu beginnenden Fertigungsprozesse der Produktionsmengen p der Produkte / in den Perioden t benötigt. Diese Größen [p^^ mit (/ = !,...,/) und (^ = ^o_„,...,^o+m) können einerseits selbst wiederum das Ergebnis einer vorgelagerten Prognose (z. B. aus Auftragsbeständen) sein, andererseits können diese Daten auch aus Vergangenheitswerten des Fertigungsbereichs selbst unter Berücksichtigung von Zukunftserwartungen mithilfe von Durchschnittswerten, gleitenden Mittelwerten, Exponential Smoothing, Trendwerten oder saisonalen Schwankungswerten ermittelt werden. In diesem Zusammenhang ist insbesondere auf ein mit VenA/eilzeiten arbeitendes Verfahren hinzuweisen, mit dessen Hilfe aus den Daten des Absatzplans gewissermaßen rückwärts die Struktur der Fertigungsbeginne ermittelt werden kann, unter Berücksichtigung verschiedener Zielsetzungen, wie z. B. optimaler Kapazitätsauslastung [8]. Die Fertigungsmengen p\ in den Perioden t werden zu Produktionsvektoren
Pt={p]pl"P\) zusammengefasst, aus denen sich ihrerseits die Produktionsmatrix P ergibt: 'P.
...
P. ^
P= P
... P
Die Prognose der Gütereinsatzmengen der einzelnen Güterarten j in den Perioden t^ bis ^o+m vollzieht sich durch Multiplikation der Produktionsmatrix P mit der Verweilzeitverteilung 5", d. h. P'S' = A. Die Matrix A enthält dann die nach Perioden und Güterarten gegliederten Bedarfsmittel a{ für die in die Prognose einbezogenen Einzelteile, Materialien, Arbeitszeiten, Maschinenkapazitäten und Ähnliches.
88 6.3.2.2
Langen, Weinthaler Im Investitionsbereich
Ein weiterer Anwendungsbereich von komplexen VenA/eilzeitverteilungen liegt in der Prognose der in der Zukunft notwendig werdenden EnA/eiterungs- und Ersatzinvestitionen. Die Vorhersage der zukünftigen Erweiterungsinvestitionen vollzieht sich im Rahmen der oben dargestellten Inputprognose. Ausgehend von der quantitativ-zeitlichen Struktur des Produktionsbeginns wird dessen Konsequenz für die kapazitative Beanspruchung einzelner Werkstätten, Maschinengruppen oder Maschinen ermittelt. Zeigt das Prognoseergebnis eine Kapazitätsbeanspruchung, die nicht nur kurzfristig über die tatsächlich vorhandenen Kapazitäten hinausgeht, so müssen diese Kapazitäten durch EnA/eiterungsinvestitionen aufgestockt werden. Der umgekehrte Fall weist auf Desinvestitionsmöglichkeiten hin. Ein anderer Prognoseweg führt zum Erkennen der zu erwartenden Ersatzinvestitionen. Als Prognosegrundlage dient hierbei die in der Vergangenheit bis zur Prognoseperiode realisierte Zeitreihe der in den einzelnen Perioden getätigten Gesamtinvestitionen (Ersatzinvestitionen, Rationalisierungsinvestitionen, EnA/eiterungsinvestitionen). Verlängert wird diese Zeitreihe durch die für die kommenden Perioden fest eingeplanten Erweiterungsinvestitionen. Aus diesen Ausgangsinformationen wird die Investitionsmatrix K gebildet, deren Struktur der obigen Produktionsmatrix entspricht. Ihre Elemente sind Periodenvektoren K^=(k]k^...kl), deren Komponenten die in einer Periode t angeschaffte bzw. anzuschaffende Anzahl der Investitionsgüterart j beinhalten. Die zur Prognose verwendete komplexe Verweilzeitverteilung beinhaltet die aus den Betriebsunterlagen ermittelten Gesetzmäßigkeiten über die Verweilzeit dieser Investitionsgüter im Betrieb bis zum Ersatzereignis (Lebensdauer). Mit s{ wird die Anzahl der Investitionsgüter j bezeichnet, die nach genau t Perioden ersetzt werden müssen. Diese Ersatzkoeffizienten werden zu einzelnen Periodenvektoren S^={s]s^...s\) geordnet, die dann den Gesamtvektor 5"ergeben: S' = {8^ S^ ...S^). Die Prognose vollzieht sich dann wiederum als Matrizenmultiplikation K-S' = E. Die Matrix E enthält die Größen e^ als in den Perioden t zu ersetzende Anzahl von Einheiten der Investitionsgüter/ Allerdings ist diese Lösung deshalb noch fehlerhaft, weil in der als Prognosegrundlage verwendeten Matrix K für die zukünftigen Perioden ^Q+I bis ^o+m ^^^ EnA/eiterungsinvestitionen berücksichtigt sind und damit die Tatsache, dass die für diese Perioden prognostizierten Ersatzinvestitionen ihrerseits selbst Einfluss auf Art und Umfang der in nachfolgenden Perioden notwendig werdenden Ersatzinvestitionen haben, unberücksichtigt bleibt. Das hat zur Folge, dass nur der für die Prognoseperiode selbst ermittelte Ersatzvektor ohne diesen Fehlereinfluss ist, während der für die Folgeperioden ermittelte Ersatzbedarf zu gering angenommen wird. Um diesen Fehler zu eliminieren, empfiehlt es sich, die Basisperioden so klein zu wählen, dass die Notwendigkeit eines Ersatzes bereits in der Investitionsperiode ausgeschlossen wird. Dadurch wird die erste Komponente der VenA/eilzeitverteilung gleich Null, und der in der Prognoseperiode t prognostizierte Ersatzbedarf / + 1 bleibt fehlerfrei. Dieses Ergebnis kann nun in die ^-Matrix aufgenommen werden (Addition zu den
Prognose mithilfe von Verweilzeitverteilungen
89
für Periode / + 1 geplanten Erweiterungsinvestitionen). Dadurch wird die Ausgangsbasis für die in einem neuen Rechenschritt durchzuführende, fehlerfreie Prognose des Ersatzbedarfs in Periode t + 2 gewonnen. Die Prognose der zukünftigen Ersatzinvestitionen vollzieht sich also durch eine Abfolge von Rechenschritten, wobei jeweils der fehlerfreie Ergebnisvektor in die Prognosebasis für die nächste Periode aufgenommen wird. 6.4
Schlussbetrachtung
Mithilfe des Konzepts der Auflösung des Betriebsgeschehens in eine kausal verknüpfte Folge von Ereignisarten und der Ermittlung der zwischen ihnen vorliegenden Übergangsgesetzmäßigkeiten auf statistischer Grundlage ist es möglich, zukünftige Entwicklungen, deren Wurzeln in sachlich und zeitlich vorgelagerten Ereignissen ruhen, vorherzusagen. Prognosen mit dem hier nur für eine beschränkte Auswahl aus der Vielzahl der sich bietenden Anwendungsbereiche dargestellten Instrumentarium ergänzen und verbessern, wie die bisher durchgeführten empirischen Untersuchungen ergaben, ganz wesentlich die Planungsergebnisse eines Unternehmens. Dies ist vornehmlich darauf zurückzuführen, dass bei dieser Konzeption den tatsächlich vorliegenden Ursache-Wirkungs-Beziehungen im Ablaufgeschehen des Betriebs Rechnung getragen wird, im Gegensatz zu einer Reihe von Instrumenten, die eine Prognose der Mengen- und Wertgrößen aus eigenen Vergangenheitswerten der Ereignisse - wie z. B. in dem Verfahren des Exponential Smoothing oder der Trendberechnung - vornehmen und dadurch die eigentlichen verursachenden Faktoren unberücksichtigt lassen. Selbstverständlich kann das vorgetragene Prognoseverfahren bei dem gegenwärtigen Stand der Forschung auf diesem Gebiet keinen Anspruch auf Vollständigkeit erheben. Sowohl hinsichtlich der praktischen Anwendungsmöglichkeit auf die vielschichtigen Einzelprobleme der Praxis als auch hinsichtlich des theoretischen Ansatzes bedarf das Verfahren ständiger Überprüfung und Weiterentwicklung. 6.5 [1] [2] [3] [4] [5] [6]
[7]
Literatur Brand, 8., Statistische Methoden der Datenanalyse, Mannheim 1968. Edin, R., Wirkungsweise und Voraussetzungen der Prognose mittels Verweilzeitverteilungen, Zeitschrift für Betriebswirtschaft 38 (1968), S. 743 ff. Edin, R. und Schmitt, H.J., Verweilzeitverteilungen und Prognosen: Einige empirische Ergebnisse, Zeitschrift für betriebswirtschaftliche Forschung 21 (1969), S. 484 ff. Gahse, S., Liquiditätsprognose auf der Grundlage von Phasenfolgen mit Hilfe von EDVA, Dissertation, Mannheim 1967. Gahse, S., Dynamische Liquiditätsplanung DYPOL auf IBM-System 360, IBM Form 8064200, o.J. Hasenauer, R. und Magloth, U., Ein Time-Sharing Dialogmodell für die Planung dynamischer Betriebsprozesse mittels einfachen Verweilzeitverteilungen, in: Hasenauer, R. (Hrsg.), Modell der computergestützten Marketingplanung, Meisenheim 1977, S. 261 ff. Honig, G., Existenz und Eignung der Kostenfunktion für betriebliche Dispositionen, Dissertation, Mannheim 1965.
90 [8] [9] [10] [11]
[12] [13]
[14] [15] [16]
[17] [18]
[19] [20] [21]
[22] [23] [24] [25]
Langen, Weinthaler Kockelkorn, G., Verweilzeitverteilungen und Prognosen im betrieblichen Produktionsbereich, Zeitschrift für betriebswirtschaftliche Forschung 23 (1971), S. 83 ff. Kossbiel, H., Das Tagesumsatzliquiditätsspektrum - ein Instrument zur Prognose der kurzfristigen Finanzplanung, Dissertation, Mannheim 1965. Kossbiel, H., Die Umsatzeinnahmen als Gegenstand der unternehmerischen Liquiditätsplanung und Liquiditätspolitik, Berlin 1968. Langen, H., Die Prognose von Zahlungseingängen: Die Abhängigkeit der Bareinnahmen von Umsätzen in dynamischer Sicht, Zeitschrift für Betriebswirtschaft 34 (1964), S. 289 ff. Langen, H., Betriebliche Zahlungsströme und ihre Planung in dynamischer Sicht, Zeitschrift für Betriebswirtschaft 35 (1965), S. 261 ff. Langen, H., Gedanken zu einer betriebswirtschaftlichen Dispositionsrechnung, Mitteilungen der Gesellschaft der Freunde der Wirtschaftshochschule Mannheim e.V. 14 (1965) 2, S. 27 ff. Langen, H., Grundzüge einer betriebswirtschaftlichen Dispositionsrechnung, Zeitschrift für Betriebswirtschaft 36 (1966), Ergänzungsheft 1, S. 71 ff. Langen, H., Dynamische Preisuntergrenze, Zeitschrift für betriebswirtschaftliche Forschung 18 (1966), S. 649 ff. Langen, H., Preis- und konditionspolitische Maßnahmen in der Rezession, in: Jacob, H. (Hrsg.), Schriften zur Unternehmensführung, Band 1: Unternehmenspolitik bei schwankender Konjunktur, Wiesbaden 1967, S. 43 ff. Langen, H., Einige Werkzeuge betrieblicher Konjunkturtheorie, Zeitschrift für Betriebswirtschaft 37 (1967), S. 553 ff. Langen, H., Die betriebswirtschaftliche Disposition im Dienste der Unternehmensführung, in: Stöhr, W. (Hrsg.), Unternehmensführung auf neuen Wegen, Wiesbaden 1968, S. 231 ff. Langen, H., Der Betriebsprozeß in dynamischer Darstellung, Zeitschrift für Betriebswirtschaft 38 (1968), S. 867 ff. Langen, H., Edin, R., Kockelkorn, G., Schmitt, H. und Weinthaler, F., Unternehmungsplanung mit Verweilzeitverteilungen: Eine Anleitung für Praktiker, Berlin 1971. Langen, H., Evolutorisches Verhalten von Debitoren bei Geldknappheit, in: Wild, J. (Hrsg.), Unternehmensführung, Festschrift für Erich Kosiol zu seinem 75. Geburtstag, Berlin1974, S. 525ff. Neumeyer, L., Zum Problem der Ermittlung von Liquidationsspektren und ihrer Stabilität im Zeitablauf, Dissertation, Mannheim 1966. Niebling, H., Kurzfristige Finanzrechnung auf der Grundlage von Kosten- und Erlösmodellen, Wiesbaden 1973. Pönninghaus, S., Betriebswirtschaftliche Multiplikatoren, Zeitschrift für betriebswirtschaftliche Forschung 19 (1967), S. 659 ff. Schmitt, H.J., Die Planrevision in dynamischen Abgangsfolgemodellen, Betriebswirtschaftliche Forschung und Praxis 20 (1968), S. 24 ff.
7
Punkt-, Intervallprognose und Test auf Strukturbruch mithilfe der Regressionsanalyse
von Hans Schneeberger 7.1
Einleitung
In der Theorie der linearen Regression ist es möglich, unter bestimmten Voraussetzungen bei vorgegebenen n Punkten {x{,y^), (x2;j^2)'-' (^«'J^«) einen erwartungstreuen Schätzwert für den Wert der Regressionsgeraden an einer weiteren Stelle x^^^ zu berechnen und ein Vertrauensintervall für diesen Schätzwert anzugeben. Im ersten Fall spricht man von Punktprognose, im zweiten von Intervallprognose. Weiterhin kann eine Vorhersage über die Verteilung der Ordinate y^^^ eines {n+\)-iex\ Messpunkts (^«+1 '3^«+i) geniacht werden; hier ist eine Intervallprognose möglich. In der Praxis könnten z. B. x das private Einkommen, ;; der private Verbrauch, der Index z der Zeitpunkt / sein [5]. Diese Aussage für den Fall der einfachen linearen Regression lässt sich auf die multiple (^-dimensionale) lineare Regression verallgemeinern. Bei gegebenen n>k Punkten {x^^,...,Xky,y,) (/=!,...,«) kann man an einer (^+l)-ten Stelle ( X I „ ^ I , ^ 2 , « + I - " . ^ M + I ) den Wert der Regressionsfunktion schätzen und ein zugehöriges Vertrauensintervall berechnen. Für einen weiteren Messpunkt (^i,^+i,-,^^,„+i;3^„+i) geben wir ein Vertrauensintervall für die Ordinate y^^^ an. Im Fall k = 2 könnten z. B. y der private Verbrauch, x^ das Lohneinkommen, x^ das Gewinneinkommen, der Index / wieder der Zeitpunkt (Jahr) sein [2]. Die Testaussage wird in jedem Fall lauten: Die Hypothese, dass auch der (w + l)-te Punkt den Annahmen der linearen Regression genügt, wird verworfen, falls dieser Punkt außerhalb des Vertrauensintervalls liegt, anderenfalls wird sie angenommen. Eine weitere Verallgemeinerung ergibt sich, wenn sich die Prognose nicht auf einen einzigen, sondern auf mehrere weitere Beobachtungspunkte bezieht. Dieser Anwendungsfall wird vorliegen, wenn ein Strukturbruch in den Regressionsparametern, also etwa eine andere Neigung der Regressionsgeraden in einem zweiten [5] oder auch mehreren folgenden Zeitintervallen ([3] und [4]), vermutet wird. 7.2 7.2.1
Prognose im Fall einfacher linearer Regression Punkt- und Intervallprognose
Wir nehmen an, x sei eine nichtzufällige Größe, y eine Zufallsgröße, und es mögen n Messpunkte {xx\y\\{x2 \y2\"->{^n'^yn) vorliegen. Über die Verteilung von y machen wir zunächst nur folgende Annahmen: Über die bedingten Erwartungswerte: (A1)
£'(j^|x) = ri[x) = a+ß{x-x)
Über die Varianzen:
(Linearitätshypothese);
92
Schneeberger (A2)
V(y\x) = E [(y-7jf\x]
= a^
(Homoskedastizität);
Über die Unabhängigkeit: (A3)
yj unabhängig von yj für i^j
Die Annahme (A2), dass die Streuung konstant, also unabhängig von x ist, lässt sich in einfacher Weise auf den Fall der Heteroskedastizität verallgemeinern (vgl. z. B. [1] und [5]). Da die Überlegungen und Ergebnisse ganz analog sind, beschränken wir uns der Einfachheit halber auf den Fall (A2). Häufig wird die Störvariable u^ (i = \,2,...,n) eingeführt: y^ = a+ß{xi-x)
+ Ui = 7](xi) + u^ = rji + i/^-
M\
Dann schreiben sich unsere Annahmen: (A1) E{u\x) = Q (A2) E{u^\x) = c7^ (A3) Ui unabhängig von uj für / ^j Für die Parameter a und ß erhält man nun Schätzwerte a und ß nach der Methode der kleinsten Quadrate. Die notwendigen Bedingungen für ein Extremum von Q = t\yi-cc-ß{x,-x)\
(2)
ergeben sich als Lösung der Normalgleichungen
% = -2Y.\y,-ä-ß{x,-x) 1 = 0 /=i
da
(3) •^---Tny^-an
ß{x^-x)\{x^-x)
=
_
und wegen 2;(x, -x) = 0 zu i=\
ä=-Yyi=y;ß=^„
(4) /=1
Unter der trivialen Annahme, dass nicht alle Xf identisch sind, liefert also (4) ein (eindeutiges) Minimum von (2). Man sieht sofort, dass ä und ß lineare Funktionen der yi sind und dass aufgrund der Voraussetzung (A1)
E{ä) = a',E[ß) = ß
(5)
Punkt-, Intervallprognose und Test auf Strukturbruch
93
also ä und ß erwartungstreue Schätzwerte von a und ß sind. Insbesondere ist dann die empirische Regressionsgerade
y{x)^ä^ß{x-x)
(6)
erwartungstreuer Schätzwert der theoretischen Regressionsgeraden //(x). Für die Varianzen ergibt sich wegen der Annahmen (A2) und (A3)
V{a) = ^;V[ßy
„ ^'
(7)
i=\
Ohne weitere Prämissen lassen sich über die Verteilung von ä,ß,y auch keine weiteren Aussagen machen. Wir nehmen daher zusätzlich zu (A1) bis (A3) an, dass die Zufallsgröße y, also auch die Störvariable u, normalverteilt sind (Annahme A4). Diese Annahme ist bei vielen Anwendungen erfüllt, eventuell nach einer geeigneten Variablentransformation. In jedem Fall kann diese Hypothese getestet werden. Die Maximum-Likelihood-Methode liefert als Schätzwert für a und ß die bereits nach der Methode der kleinsten Quadrate gefundenen Schätzungen ä und ß. Als Schätzung für (? ergibt sich der (nicht erwartungstreue) Schätzwert
^' --t{y, -K^;)f --t^y, -hf =-tüf n 7=1
n i=\
(8)
n i=\
mit den empirischen Störgrößen ü^=y^-y^\s^ ^{nln-2)6-^ Schätzung von c?.
ist eine erwartungstreue
Nach dem Additionstheorem der Normalverteilung für unabhängige Zufallsgrößen sind ä und ß normalverteilt mit den jeweiligen Erwartungswerten (5) und (7), also ist y=ä^ß[x-x)
normalverteilt mit dem Erwartungswert
ri = a + ß[x-lc) Mithilfe des Satzes von Cochran zeigt man weiter (z. B. in [1]), dass ä, ß und s'^ stochastisch unabhängig sind
(9)
und dass Y—j^-verteilt
2
ist mit {n-2) Freiheitsgraden.
Mit diesen Ergebnissen können die bekannten Vertrauensgrenzen für ä, ß und y{x) angegeben werden. Uns interessiert hier: a) Punkt- und Intervallschätzung für den Erwartungswert 77 an einer weiteren Stelle ^^+1- Es gilt: Der Schätzwert
94
Schneeberger (10)
ist erwartungstreu, d. h. E(yn+11 ^«+1) = « + ßi^n^i - ^ ) = n(x„^i) = %+i
(11)
wegen (5). Die Annahme (A4) wurde hierfür nicht benutzt; diese Aussage ist also von der Verteilung von y unabhängig, wenn nur die Annahmen (Al) bis (A3) erfüllt sind. Die Varianz von y„^i ist wegen (7) und der Unabhängigkeit von a und ß: 1 , (^»+1-^)^ = <j2^2 d^
v{y„.x) = 'W-K/2M2
>x Abb. 1: Intervallgrenzen Im Durchschnitt liegen - w e n n man sich die Messreihen beliebig oft wiederholt denkt 100 (l-^)-Prozent der geschätzten Regressionsgeraden innerhalb der Grenzen (14). Bisher wurde für eine einzige weitere Messstelle x^^^ in (10) eine Punktprognose für den theoretischen Regressionswert //„^j, in (14) die zugehörige Intervallprognose gefunden. (18) lieferte die Intervallprognose für einen weiteren Messwert y^_^^ an der Stelle X,,,. Wenn also bei einer zugrunde gelegten Sicherheit von 100 (l-^)-Prozent ein weiterer (w + l)-ter Messpunkt (x^+iiy^+i) außerhalb der Grenzen (18) fällt, dann ist unsere bisherige Prognose abzulehnen, dass auch dieser Punkt den Regressionsannahmen (Al) bis (A4) genügt, d. h., es kann entweder die Annahme (Al), dass sich der lineare Trend über den Punkt (x^ ;y^) hinaus fortsetzt, oder die Annahme (A2), dass die Streuung von y konstant bleibt, falsch sein. Besonders wichtig für die Prognose ist der Fall, dass die Annahme (Al) abzulehnen ist, also eine Parallelverschiebung oder Richtungsänderung der Regressionsgeraden oder beides gleichzeitig vorliegt: ein Strukturbruch.
96
Schneeberger
Dafür aber ist die Aussage anhand eines einzigen Messpunktes (x^+i;yn+\) armselig, mit anderen Worten: das Vertrauensintervall (18) für den einzigen Messwert ist sehr weit. Besser ist es dann in jedem Fall, anhand mehrerer Punkte die Prognose zu stellen. 7.2.2
Strukturbruch der Regressionsgeraden
Der Einfachheit halber beschränken wir uns zunächst auf zwei Messreihen(x^;;;!),..., (x ;v ) und (x ;v ),..., (x ;v ), wie in Abbildung 2 grafisch dargeStellt.
^«,+1
Abb. 2: Strukturbruch der Regressionsgeraden Wir nehmen an, dass für beide die Voraussetzungen (A1), (A2), (A3) und (A4) gelten, und zusätzlich zu (A3) setzen wir die Unabhängigkeit der ;; zwischen den Messreihen voraus. Die Frage ist dann: Ist die Linearität, die für die beiden einzelnen Messreihen als gegeben angenommen wird, auch für alle ni+n2 Messpunkte erfüllt, mit anderen Worten: liegt ein Strukturbruch vor? Die F-verteilte Testgröße, die diese Hypothese zu prüfen gestattet, kann hier nur zitiert und veranschaulicht werden. Einzelheiten finden sich in [3] und [4]. Wir berechnen nach Abschnitt 7.2.1 die beiden Regressionsgeraden y^(x) = ä^+ß^(x-x^)
(19)
unter Zugrundelegung der ersten w^ Messwerte und entsprechend 3)2 (x) = (22+>Ö2(x-X2)
(20)
unter Zugrundelegung der zweiten «2 Messwerte. Die Streuungen um diese Regressionsgeraden
Punkt-, Intervallprognose und Test auf Strukturbruch
sf =-^l(yi-yi(Xi)f
97
(21)
und 1
n^ +«2
^2 =—-
S (yi-y2(^i)f
(22)
sind dann erwartungstreue Schätzwerte von o^. Weiter berechnen wir die Regressionsgerade nach 7.2.1 unter Zugrundelegung aller ni+n2 Messwerte
z{x)=ä-\-ß{x-x)
(23)
und bilden die Varianz 1 f"l
9
"1"^"2
9I
^ ' = - Z[i>,(x,)-i(x,)f + I [y,(x,)-z(x,)f\
(24)
Die einzelnen Summanden sind die Quadrate der Abweichungen in sämtlichen («1+^2) Punkten zwischen der Gesamtregressions- und den Teilregressionsgeraden. Ist 5^ =0, so fallen diese drei Geraden zusammen, ist s^ groß, so weichen die Teilgeraden von der Gesamtgeraden wesentlich ab. Eine Testgröße zur Prüfung der Hypothese der Linearität für alle («1+^2) Punkte oder zur Prüfung der Hypothese, dass kein Strukturbruch vorliegt, wird demnach wesentlich s^ enthalten. Man kann zeigen (vgl. [3]), dass die Prüfgröße
F ~
(25)
Fisher-verteilt mit (2;ni-\-n2-4) Freiheitsgraden ist. Hierbei ist 1
S3 = 1
=
-\(ni -2)s^ +(^2 -2)^21 = r^i
T T[y>-yM)]
9
"i'^"2
+ S [y.-M^^)]
9
(26)
und stellt die Varianz aller («1+^2) Messwerte y^ um die einzelnen Regressionsgeraden dar. Die Testaussage lautet dann: Ist bei einer zugrunde gelegten Sicherheitswahrscheinlichkeit von P % die Prüfgröße
F > ivo/,
(27)
wobei Fpo/^ die P%-Fraktile der Fisher-Verteilung mit (2;ni+n2-4) Freiheitsgraden ist, so ist die Hypothese der Linearität für alle («1+^2) Messpunkte abzulehnen; falls F Fpo/^, ist die Abweichung zwischen den Teilregressionsgeraden und der Gesamtregressionsgeraden signifikant - es liegt ein Strukturbruch vor.
98
Schneeberger
Es wurde hier nur der Fall behandelt, aufgrund einer zweiten Messreihe vom Umfang n2 festzustellen oder die Prognose zu stellen, ob dieselbe lineare Abhängigkeit, der die ersten wj Messpunkte genügen, auch für diese gilt. Es wurde hierbei stillschweigend angenommen, dass die zwei Klassen von ni bzw. n2 Messpunkten wirklich die Berechnung einer Regressionsgeraden nach Abschnitt 7.2.1 zulassen. Dazu ist nach (4) vorauszusetzen, dass in jeder Klasse nicht alle Abszissenwerte xi zusammenfallen. Diese Aussagen lassen sich verallgemeinern: 1. 2.
Die Anzahl der Klassen kann größer als zwei sein. In einzelnen Klassen dürfen alle Abszissenwerte x^ zusammenfallen.
Wie in diesem verallgemeinerten Fall die Fisher-verteilte Prüfgröße F zum Testen der Linearitätshypothese bzw. zum Feststellen eines Strukturbruches aussieht, kann in [3] nachgelesen werden. 7.3 7.3.1
Prognose im Fall multipler (k-dimensionaler) linearer Regression Punkt- und Intervallprognose
Die Problemstellung und auch die Antworten sind hier ganz entsprechend wie im Fall einfacher linearer Regression: jci,jc2,...,Xy^ seien nichtzufällige, y sei die einzige zufällige Variable, über deren Verteilung wir zunächst folgende Voraussetzungen machen:
(V1) E{y\xx,..,,xj,) = 77(xi,...,x^) = a+ßx{xx-xx) + ...+ßj,{xj,-xj,) (Linearitätshypothese) (V2) V{y\xx,...,xk) = (?
(Homoskedastizität)
(V3) yi ist unabhängig von yj für /Vy Anhand von n>k+\ Messpunkten {xii,...,xj^i\yi) {i = \,...,n) können wir wieder nach der Methode der kleinsten Quadrate Schätzwerte a und ßj^ {K = \,...,k) für die hypothetischen a und ßj^ berechnen. Die notwendigen Bedingungen für ein Minimum von
ß = E[>^.-^-Ä(^h-^i)--.-Ä(%-^jJ
(28)
ergeben
oc = y =-ty,
(29)
n f=i
und das System der Normalgleichungen zur Berechnung der ßi,...,ßi^ /y
n
ÄIK-^i)
^
^
+
/vrt
ßlJl(X2i-X2)(Xu-Xi)+
i=\
n
/vrt
...
(=1
Ä S (%-^t)(^u-^i) +
n
••• + Ä S ( ^ i , - ^ i ) ( % - % ) +ÄS(.^2/-^2)(-^W--^t) (=1
•••
+ Ä I (Xki-Xkf (=1
=Z(^i/-^i)3^/ n
= I (^2; "-^2) J'/ 1=1
= I (=1
(%-Xk)y,
(30)
Punkt-, Intervallprognose und Test auf Strukturbruch
99
Das in den ß^ lineare Gleichungssystem (30) ist eindeutig auflösbar genau dann, wenn die n Punkte {x^-,x^^,,..,Xj^^) (i = l,2,...,n) den Ä:-dimensionalen Raum (xi,x2,...,x^) wirklich aufspannen, also nicht in einem Unterraum von der Dimension k+l ist. Ein sinnvolles kdimensionales Regressionsproblem wird diese Bedingung stets erfüllen, da wir es sonst mit einem Regressionsproblem von geringerer Dimension zu tun hätten.
y(x^,...,Xj^) = ä+ß^(x^-x^) + ,..+ßj^(xj^-x,^)
(31)
ist dann die geschätzte Regressionshyperebene. Mithilfe von (30) und unter Verwendung der Voraussetzung (V1) kann man zeigen, dass die geschätzten Regressionsparameter ä und ß^ (A:=1,...,Ä:) erwartungstreue Schätzwerte von a und yff^ [K: = \,...,k) sind.
E{ä)=a;
E[ß^) = ß^
{K = h...,k)
(32)
Die Koeffizientenmatrix von (30) ist (bis auf die Faktoren l/n-l effizienten) die Kovarianzmatrix.
bei den einzelnen Ko-
In der Hauptdiagonale stehen (im Wesentlichen) die Varianzen, die anderen Koeffizienten sind (im Wesentlichen) die Kovarianzen. Wir führen zur Abkürzung ein:
V,, = i:(x,,-x^)(x^^-xj
(33)
also (v^s) für die Koeffizientenmatrix von (30). Ist dann (w^^) die Inverse von (v^^), die nach unserer Annahme, dass die n Punkte (jci^,jc2/,...,xy^/) den Ä:-dimensionalen Raum aufspannen, existiert, so ergibt sich für die Varianz von a und die Varianzen und Kovarianzen der ß^ (K = \,...,k) (vgl. z. B. [1]):
V{a) = ^;V(l) w
v(ßJ,) = E
V
= E\(l-ßf] /
L^
[(A-Ä)
= cr'w^ / J
(ß,-ß,)] = cr'w^
(34)
{^^^)
Um weitere Aussagen, insbesondere Vertrauensintervalle zu erhalten, machen wir wieder die zusätzliche Voraussetzung, (V4)
die Zufallsgröße y ist normalverteilt mit Erwartungswert und Streuung gemäß (V1) und (V2).
Dann ergibt die Maximum-Likelihood-Schätzung für die Parameter a und y?^ (A:=1,...,Ä:) dieselben erwartungstreuen Schätzwerte d und ß^ wie die Methode der kleinsten Quadrate. Zusätzlich aber liefert jetzt unsere weitere Annahme (V4) Aussagen über die Verteilung dieser Zufallsgrößen ä undyö^. Nach dem Additionstheorem der Normalverteilung sind zunächst ä und ß^ normalverteilt mit den Erwartungswerten (32) und den Varianzen und Kovarianzen (34); dann ist y normalverteilt mit dem Erwartungswert r/. Weiterhin ist nach dem Satz von Cochran (vgl. z. B. [1])
100
Schneeberger i n
^i =
ry
—rY.{yi-yi) er i=\
(35)
^-verteilt mit ( ^ - ^ - 1 ) Freiheitsgraden; hierbei wurde abkürzend (36) gesetzt. Die Summanden in (35) sind die Quadrate der Abstände der Messwerte ;; von den entsprechenden j)-Werten auf der berechneten Regressionshyperebene; die Summe ist also im Wesentlichen die Varianz (Abbildung 3).
Abb. 3: Zweidimensionale lineare Regression Weiter ist nach dem Satz von Cochran
^2
a-a GJ^n
=
(37)
;tr^-verteilt mit einem Freiheitsgrad und
?3=Z /=1
Z(Ä-Ä)k,-^.) K=\
;tf^-verteilt mit k Freiheitsgraden, und q^^q^Az sind voneinander stochastisch unabhängigDie erste Frage, die wir jetzt analog Abschnitt 7.2 beantworten können, lautet:
Punkt-, Intervallprognose und Test auf Strukturbruch
101
a) Gegeben sind die Abszissen (xi,...,x^) eines weiteren (« + l)-ten Punktes (den Index n + l lassen wir der Kürze halber weg). Man gebe eine Punkt- und Intervallprognose für 7] (xi,...,xi,) an. Zunächst die Punktprognose: y(x^,...,x,^) = ä+ß^ (Xi -Xi) + ... + A (Xk -Xk)
(39)
ist wegen (32) erwartungstreuer Schätzwert von j] (xi,...,x^): (40)
E{y(x^,...,x,^))^7j(x^,...,x,^)
Für die Streuung ergibt sich
(41) da mit qj und q^ auch ä und iß^,...,ß,^) voneinander stochastisch unabhängig sind. Wegen (37) ist:
V{ä)=— n
und wegen (34):
i:(Ä-Ä)(x,-xj
V
:i(X,-jjV(^j+ i K=\
i{x,-\){x,-X,)v{ßM=
K=\
k
Ä=\
k
\
k
k
n
K=\
Ä=\
_
_
= a'Dl
V(y) = CT'
(42)
j)(xi,...,Xjt) ist folglich normalverteilt mit dem Erwartungswert ri{x^,...,xj^) und der Varianz (42); somit ist u=
y-ri
W)
y-ri
(43)
ö-ß
normalverteilt mit dem Erwartungswert 0 und der Streuung 1 ((0;1)-normalverteilt). Da wegen (35), (37) und (38) die erwartungstreue Stichprobenschätzung für cP'
1
.2 =
n-k-l
7
^l
1
"
. 7
(44)
n-k-\i=\
unabhängig von u ist, ist y-7] t =sD,
(45)
102
Schneeberger
Student-verteilt mit (n-k-l) Freiheitsgraden, und wir haben folgende Inten/allprognose für den EnA/artungswert TJ an der weiteren Stelle (xi,x2,...,xj^): Bei einer vorgegebenen Sicherheitswahrscheinlichkeit von 100(l-^)-Prozent liegt der wahre Wert in 100(l-^)-Prozent der Fälle im Vertrauensintervall y-\t^/^\sD,V /=1
J
i=l
wobei
y^ =iyn'--->y.Ty
und ^ = ( X , , Z , ) gilt mit 'Ki
''Kn ^1/2
^2/2
""KU
V^l/T
^2/r
^KiT J
X.=
^Ki
und Z, = K^u
'KiJ
Allerdings ist auch dieser nicht varianzminimal, da die besondere Struktur der VarianzKovarianz-Matrix Q.der zusammengesetzten Störgröße (vgl. (4)) unbeachtet bleibt. BLUE ist in diesem Fall ein verallgemeinerter KQ-Schätzer (kurz VKQ), der diese berücksichtigt: ( ^VKQ
~
r)
N
Y,W\QM V/=i
Tw^y,
(6)
/=i
Da die Varianzkomponenten cr^ und a] gewöhnlich unbekannt sind und dieser Schätzer somit nicht praktikabel ist, kann man ein zweistufiges Verfahren durchführen. Im
110
RässlerWolf
ersten Schritt müssen aufbauend auf konsistente Schätzer für ö = {ß,yy die unbekannten Varianzkomponenten geschätzt werden. Hierfür kommen grundsätzlich mehrere Möglichkeiten in Betracht, die sich hinsichtlich ihrer Eigenschaften bei der Schätzung der Regressionskoeffizienten nicht unterscheiden (vgl. [9]). In den meisten Statistik-Programmpaketen (z. B. STATA) werden die Varianzkomponenten mithilfe der LSDV-Residuen s^^ wie folgt geschätzt: 2
^i^j^u^
und ai=^^^
N{T-\)
""
CT.,
N
Für den Fall einer negativ geschätzten Varianz a^.2 wird diese gleich Null gesetzt^ Die so geschätzten Varianzkomponenten werden im zweiten Schritt verwendet, um Q zu bilden und dann die Koeffizienten ß und y gemäß Gleichung (6) zu schätzen. Die auf diese Art und Weise geschätzten Koeffizienten sind bei Annahme eines Random-Effects-Modells unverzerrt und asymptotisch effizient. Welche Eigenschaften weist dieser FGLS-Schätzer aber auf, wenn die Random-Effects-Annahme £(//^ |x^,z^) = 0 nicht gilt? Zunächst lässt sich relativ einfach zeigen, dass der Schätzer die Eigenschaft der Unverzerrtheit verliert. Hinsichtlich der Konsistenzeigenschaft ist zu unterscheiden, ob N,T->cc (asymptotisch) oder lediglich N ->co bei festem T (semiasymptotisch) betrachtet wird. Während im ersten Fall der Schätzer für ß und y weiterhin konsistent bleibt, führt dies im zweiten Fall, der bei praktischen Problemen meist der relevantere ist, zu inkonsistent geschätzten Koeffizienten^. Aufgrund dieser Inkonsistenz bei Verletzung der Random-Effects-Annahme kommt der Überprüfung dieser Annahme große Bedeutung zu. Ein Testverfahren, um diese zumindest indirekt zu überprüfen, wurde von Hausman [4] entwickelt. Ergibt der Test eine Ablehnung der Random-Effects-Annahme, dann ermöglicht die bereits erläuterte LSDV-Schätzung eine unverzerrte Schätzung der ß Koeffizienten. Es besteht in diesem Fall aber keine Möglichkeit an unverzerrte Schätzer für y zu gelangen. Mithilfe der von Hausman und Taylor [5] 1981 vorgeschlagenen Instrumentvariablenschätzung gelingt es aber auch für den semiasymptotischen Fall zumindest konsistente Schätzer für y zu ermitteln. Problematisch hierbei ist, dass hinsichtlich der Eigenschaften dieser Schätzer in endlichen Stichproben analytisch kaum Informationen vorliegen. Monte-Carlo-Simulationen haben in diesem Zusammenhang allerdings gezeigt, dass vor allem bei Verwendung von „schwachen" Instrumenten das Ausmaß der Verzerrung sehr groß sein kann. Dies ist mit zum Teil extrem negativen Auswirkungen auf die im Anschluss einer Schätzung durchzuführenden Hypothesentests verbunden^. 8.4
Möglichkeiten zur Prognose
Liegt das eigentliche Ziel bei der Schätzung eines Panelmodells nicht in der Quantifizierung eines vermuteten kausalen Zusammenhangs, sondern in der Prognose der abhängigen Variablen, so können Schätzverfahren, obwohl verzerrt, zu guten VorhersaGewöhnlich zeichnet sich ein Paneldatensatz durch geringes T , d. h. nur wenige Zeitpunkte und großes A^, d. h. viele Querschnittsbeobachtungen, aus. Vgl. hierzu z.B. [11].
Prognose mit Paneldaten
111
gewerten führen. Die im Bereich von Panelmodellen möglichen Schätzverfahren werden in diesem Zusammenhang in drei Gruppen eingeteilt - homogene, Shrinkage- und heterogene Verfahren. Homogene Schätzverfahren basieren auf der Annahme eines für alle Querschnittseinheiten gemeinsamen Koeffizienten einer erklärenden Variablen. Hierzu gehören z. B. die in Abschnitt 8.3 vorgestellten Random- und Fixed-EffectsSchätzer. Heterogene Schätzverfahren gehen dagegen von einem systematisch unterschiedlichen Effekt einer erklärenden Variablen zwischen den Querschnittseinheiten aus. Hierzu zählt der individuenspezifische KQ-Schätzer, d. h. für jede Querschnittseinheit i {i = l,..,,N) werden lediglich die T Beobachtungen zur Schätzung der unbekannten Koeffizienten herangezogen. Shrinkage-Schätzer schließlich stellen einen Mittelwert zwischen homogenen und heterogenen Schätzern dar. Individuenspezifische Koeffizienten sind zwar der Ausgangspunkt, diese werden aber mit unterschiedlichen Gewichten zu einem gemeinsamen Schätzer gemittelt. Ein Beispiel hierfür sind iterative Bayes-Schätzer oder auch der zweistufige Random-Coefficients-Schätzer von Swamy. Die zugrunde liegende Idee ist, dass der Effizienzgewinn durch die Vervielfachung der Beobachtungen die damit einhergehende Fehlspezifikation ausgleicht bzw. übenA/iegt. Trotz der systematisch zwischen den Querschnittseinheiten variierenden Koeffizienten wird von einer gewissen Ähnlichkeit ausgegangen, die für eine Prognose gewinnbringend genutzt werden kann. Eine ausführliche Übersicht hierzu findet sich unter anderem bei Maddala u.a. [7] oder auch bei Baltagi u.a. [3]. Abschließend ist noch auf eine Einschränkung der Prognose mit Paneldaten für den Fall individuenspezifischer Achsenabschnitte (Fixed-Effects-Modell) bzw. individuenspezifischer Steigungskoeffizienten einzugehen. In diesen Fällen ist lediglich eine Prognose in der Zeit, nicht aber für unbeobachtete Querschnittseinheiten möglich^. Zur Lösung dieses Problems könnte man anstelle von individuellen Koeffizienten für jede Querschnittseinheit gruppenspezifische Koeffizienten verwenden. Beispielsweise ließen sich bei Befragungsdaten alle Personen einer Region oder einer Altersgruppe einem spezifischen Koeffizienten zuordnen, womit über die geschätzten Koeffizienten wiederum eine Prognose möglich wird. 8.5
Abschließende Bemerkungen
Wie gezeigt wurde, erlaubt die Verbindung von Quer- und Längsschnittdimension bei Paneldaten die Spezifikation einer Vielzahl unterschiedlicher Modelle, die sich vor allem hinsichtlich der Annahmen bezüglich der Koeffizienten unterscheiden. Für den Anwender besteht das große Problem darin, das für die jeweilige Fragestellung geeignete Modell auszuwählen. Bei den Kriterien zur Beurteilung der Eignung eines Modells muss beachtet werden, ob ein kausaler Zusammenhang identifiziert werden soll oder auf eine Prognose abgezielt wird. Gerade für letzteres Anliegen bieten Paneldaten neue Möglichkeiten. Vor allem wenn die Zeitreihe, die für jede Querschnittseinheit zur Analyse zur Verfügung steht, relativ kurz ist, kann durch das Poolen der Daten für unterschiedliche Querschnittseinheiten die Prognosequalität erheblich verbessert werden (vgl. [3], S. 123).
Analoges gilt für Modelle mit zeitspezifischen Koeffizienten. Hier ist nur eine Prognose für unbeobachtete Querschnittseinheiten möglich, nicht aber für zukünftige Zeitpunkte.
112
8.6 [I] [2] [3]
[4] [5] [6] [7]
[8]
[9] [10] [II]
Rässler.Wolf
Literatur Arellano, M., Panel Data Econometrics, Oxford 2003. Baltagi, B.H., Econometric Analysis of Panel Data, New York 2001. Baltagi, B.H., Griffin, J.M. und Xiong, W., To Pool or Not to Pool: Homogenous Versus Heterogeneous Estimators Applied to Cigarette Demand, The Review of Economics and Statistics 82 (2000), S. 117 ff. Hausman, J.A., Specification Tests in Econometrics, Econometria 46 (1978), S. 1251 ff. Hausman, J.A. und Taylor, W.E., Panel Data and Unobservable Individual Effects, Econometria 49 (1981), S. 1377 ff. Hsiao, C, Analysis of Panel Data, Cambridge 2003. Maddala, G.S., Trost, R.P., Li, H. und Joutz, F., Estimation of Short-Run and Long-Run Elasticities of Energy Demand from Panel Data Using Shrinkage Estimators, Journal of Business & Economic Statistics 15 (1997), S. 90 ff. Pesaran, M.H., Shin, Y. und Smith, R.P., Pooled Mean Group Estimation of Dynamic Heterogenous Panels, Journal of the American Statistical Association 9 (1999) 4, S. 621 ff. Taylor, W.E., Small Sample Consideration in Estimation from Panel Data, Journal of Econometrics, 13 (1980), S. 203 ff. Verbeek, M., A Guide to Modern Econometrics, New York 2000. Wolf, K., Vergleich von Schätz- und Testverfahren unter alternativen Spezifikationen linearer Panelmodelle, Dissertation, Nürnberg 2004.
9
Prognose mit nichtparametrischen Verfahren
von Ying Chen, Wolfgang Härdle und Rainer Schulz 9.1
Einleitung
Statistische Prognosen basieren auf der Annahme, dass ein funktionaler Zusammenhang zwischen der zu prognostizierenden Variable y und anderen J-dimensionalen beobachtbaren Variablen x = {x^,...,Xjf efl'^ besteht. Kann der funktionale Zusammenhang geschätzt werden, so kann im Prinzip für jedes x der zugehörige y Wert prognostiziert werden. Bei den meisten Anwendungen wird angenommen, dass der funktionale Zusammenhang einem niedrigdimensionalen parametrischen Modell entspricht oder durch dieses zumindest gut wiedergegeben wird. Ein Beispiel im bivariaten Fall ist das lineare Modell y = ßQ+ß^x. Sind die beiden unbekannten Parameter ß^ und ß^ mithilfe historischer Daten geschätzt, so lässt sich für jedes gegebene x sofort der zugehörige y Wert prognostizieren. Allerdings besteht hierbei die Gefahr, dass der wirkliche funktionale Zusammenhang nicht dem gewählten Modell entspricht. Dies kann infolge zu schlechten Prognosen führen. Nichtparametrische Verfahren gehen ebenfalls von einem funktionalen Zusammenhang aus, geben aber kein festes parametrisches Modell vor. Sie sind deshalb hervorragend geeignet, 1) um Daten explorativ darzustellen, 2) um parametrische Modelle zu überprüfen und 3) um selbst als Schätzer für den funktionalen Zusammenhang zu dienen (Cleveland [2], Cleveland und Devlin [3]). Nichtparametrische Verfahren können daher problemlos auch zur Prognose eingesetzt werden. Abschnitt 9.2 stellt nichtparametrische Verfahren vor und erläutert deren grundsätzliche Struktur. Der Schwerpunkt liegt auf bivariaten Modellen und auf der Motivation der verwendeten Verfahren. Abschnitt 9.3 präsentiert eine Anwendung für eine Zeitreihe von Wechselkursvolatilitäten. Es werden Prognosen mit nichtparametrischen Verfahren berechnet und deren Güte mit den Prognosen eines AR(1)-Zeitreihenmodells verglichen, vgl. auch Kapitel 14 dieses Buches. Für die gewählten Daten zeigt sich, dass diese durch das parametrische Modell sehr gut erfasst werden und das nichtparametrische Modell keine bessere Prognosegüte liefert. Zugleich veranschaulichen die praktischen Beispiele, wie nichtparametrische Verfahren für Prognosen eingesetzt werden können. Alle Beispiele, welche mit dem Symbol Q versehen sind, lassen sich interaktiv über www.xplore-stat.de ausführen. 9.2 9.2.1
Nichtparametrische Verfahren Einführung
Ein nichtparametrisches Modell geht von dem allgemeinen funktionalen Zusammenhang aus y = m(x),
(1)
114
Chen, Härdle, Schulz
wobei m(-) eine glatte Funktion in den erklärenden Variablen x ist. Selbstverständlich lässt sich auch das lineare Regressionsmodell mit m(x) = x^ß in obiger Form darstellen. Nichtparametrische Verfahren lassen jedoch die glatte Funktion w(-) für die Schätzung unspezifiziert. Mit dem Störterm e wird (1) in das statistische Modell y - m(x) + £
(2)
Überführt. Der bedingte Erwartungswert des Störterms in (2) ist Null und es folgt E{y I x) - m{x). Es ist das Ziel nichtparametrischer Verfahren, die bedingte Erwartungswertfunktion m{x) TLW schätzen. Dies geschieht durch lokale Mittelwertbildung über die i = \,..,,n Beobachtungen y^ mit
m(x) = YG,(x)y^.
(3)
Der Wert des Gewichtes G^(x) hängt davon ab, wie nahe die zu y^ gehörenden Ausprägungen der exogenen Variablen x^ an x liegen. Der k-nearest neighbor (kNN) Schätzer mit gleichen Gewichten ist ein anschauliches Beispiel für (3). Hierbei werden die k nächsten Nachbarn zur Berechnung des Durchschnitts mit einbezogen, wobei n>k>l. In diesem Fall gilt für die Gewichte in (3)
^W =
I{ieM(xM :
.
k wobei M(x,Ä:) = {/:xJst eine der k nächsten Nachbarn Beobachtungen von jc} die Menge der k Beobachtungen ist, die am nächsten an x liegen. Die Nähe kann etwa mit der euklidischen Distanz ^(x^. -xfix^ -x) bestimmt werden; /(Oist die Indikatorfunktion. Wird etwa Ä: = 12 gewählt, so ist mW=-r7 I
12/eA/(jc,12)
y'
(4)
und für jedes x wird das arithmetische Mittel aus 12 Beobachtungen berechnet. Es ist offensichtlich, dass m(x) dem arithmetischen Mittel aller Beobachtungen entspricht, wenn k = n gewählt wird. Abbildung 1 zeigt die geschätzte Funktion für den bivariaten
Fall:
(x,y)em\
Man erkennt, dass m(x) eine Treppenfunktion ist, die für alle x konstant ist, welche über die gleiche Indexmenge verfügen. Der frei zu wählende Parameter k bestimmt die Glattheit der geschätzten Kurve. Variiert man k, so entsteht eine Familie von Regressionskurven, die alle durch lokale Mittelung entstanden sind.
Prognose mit nichtparametrischen Verfahren
115
Abb. 1: Nichtparametrische Regression mit kNN Schätzer mit k = 12, uniformer Gewichtung und Mittelwertbildung für alle einbezogenen Beobachtungen. Quadrate geben die Beobachtungen an. Es handelt sich um den Motorcycle Datensatz mit n = 133 Beobachtungen aus Table 2, Appendix 2 in Härdle [6]. • Statt das arithmetische Mittel aller Beobachtungen der Indexmenge M{x,k) zu nehmen, kann auch eine lokale lineare Regression für die Beobachtungen in M(x,k) angepasst werden, sodass gilt m(x) = J3Q (X) + yöj (x)x . Abbildung 2 zeigt die geschätzte Funktion, die offensichtlich aufgrund der uniformen Gewichtung (4) unstetig ist.
Abb. 2: Nichtparametrische Regression mit kNN Schätzer mit /c = 12, uniformer Gewichtung und linearer Regression für alle einbezogenen Beobachtungen. Quadrate geben die Beobachtungen an. O
116
Chen, Härdle, Schulz
9.2.2
Lokal gewichtete lineare Regression
Um eine glatte Funktion m(x) zu erhalten, dürfen nicht alle Beobachtungen für die Schätzung gleich gewichtet werden, sondern Beobachtungen nahe x müssen stark und entfernte Beobachtungen schwach gewichtet werden. Eine stetige Gewichtungsfunktion reduziert den anfänglichen Einfluss von Beobachtungen, die neu in die Indexmenge kommen oder diese verlassen. Zwei stetige Gewichtungsfunktionen werden im Folgenden genauer vorgestellt. Zugleich wird mit der lokal gewichteten Regression (LWR) ein genereller Ansatz für die nichtparametrische Regression vorgestellt, der die Beispiele aus der Einleitung als Sonderfälle umfasst. Da die Gewichte bei der lokal gewichteten Regression nicht direkt auf die Beobachtungen y^ angewendet werden - wie in (3) - , sondern auf die quadrierten Abweichungen y^ -m(x^), werden die Gewichtungsfunktionen mit K() bezeichnet. Man findet sie in der Literatur unter dem Namen Kernfunktionen. Hastie, Tibshirani und Friedman [12] geben einen guten und knappen Überblick. Das effektive Datengewicht der lokalen Regression hat wieder die Form (3), sodass m(x) auch hier ein gewichteter Durchschnitt der Beobachtungen y^ ist. Die Gewichte G() sind dabei im Allgemeinen komplizierte Ausdrücke der Differenzen x^-x für i = l,...,n und den Kernfunktionen K(). Die Tricube-Funktion
K(u,)~(l-\u^\yi(\u^\0 die Bandweite angibt. Alle Beobachtungen, die im Intervall (x-h,x-\-h) liegen, erhalten mit (5) und (6) strikt positive Gewichte, während Beobachtungen außerhalb des Intervalls ein Gewicht von 0 erhalten. Mit festen Bandweiten kann die Anzahl der Beobachtungen mit positiven Gewichten mit x variieren. Bei der lokal gewichteten linearen Regression wird im bivariaten Fall für jedes x (beziehungsweise für ein hinreichend feines Gitter von x Werten) folgendes lokales Minimierungsproblem gelöst (8) Als Schätzer für yÖ = (/?o,A)^ ^''hält man (9) wobei die erste Spalte der (nx2) MatrixXaus Einsen besteht und die zweite Spalte die Beobachtungen x^ enthält. Die (nxn) Diagonalmatrix W enthält die Gewichte K(u.) und die (nx\) Matrix 7die Beobachtungen;;.. Der Schätzer ß(x) ähnelt dem gewichteten Kleinstquadrate-Schätzer in [14]. Der große Unterschied besteht jedoch darin, dass (8) nur lokal für den Punkt x minimiert wird. Bezogen auf das Ausgangsmodell (1) mit der glatten Funktion m(x) wird diese für jede Beobachtung durch eine Taylor-Entwicklung erster Ordnung m(Xj ) = m(x)-\-m \x)(x^ - x)
(10)
118
Chen, Härdle, Schulz
approximiert. Definiert man ßQ=m(x) und ß^=m\x), so entspricht der Term geschweiften Klammer in (8) approximativ y--m(xi). Bei der Schätzung der kannten Parameter ß werden Beobachtungen nahe an x stärker gewichtet als achtungen, die fern von x liegen. Es folgt aus (10), dass der Schätzer für m(x) den Schätzer für ß^ gegeben ist, sodass mit e^ =(1,0,...,0)^ gilt:
in der unbeBeobdurch
m(x) = e^iX'^WXy^X'^WY. Wie die rechte Seite zeigt, wird der (^xl) Vektor 7 mit einem (Ix^?) Vektor multipliziert, der nicht von den endogenen Variablen y^ abhängt. Dies lässt sich auch in der Form (3) schreiben. Damit ist m{x) der gewichtete Mittelwert der y Beobachtungen, wobei die Gewichte G,(x) von den exogenen Variablen x^-x, i = \,...,n und der Kernfunktion /< abhängen. Abbildung 4 zeigt die lokale lineare Regression für A: = 12, wobei der Tricube-Kernel (5) und (7) venA/endet wurde.
Abb. 4: Lokale lineare Regression mit k = l2 und Tricube-Gewichtung für alle einbezogenen Beobachtungen. Quadrate geben die Beobachtungen an. Q Falls statt der linearen Regressionsfunktion in (8) lediglich die lokale Konstante ß^ angesetzt wird, erhält man für (9) den Nadaraya-Watson-Schätzer (11)
m(x) =
Auch dieser ist ein gewichteter Durchschnitt der 7, Beobachtungen. Für die uniforme Kernfunl 1 garantiert, d. h., mit tjj^ =1, 4^^. =0,99 erhält man mit der schrittweisen Regression auch „the best model overall" (S. 282, siehe auch [99], S. 260). Nimmt man statt der 11 „seasonal dummy variables" bei der „stepwise regression" 12 saisonale Einflussgrößen auf (siehe (13) und (15)), dann erhält man das maximale R^ bei 13 Einflussgrößen mit i?i^3 =0,896 und Rf^ = 0,861, da die Konstante D^,D^ und Dg aufnimmt. Bei tjj^ > 1 können nie alle 12 Saisonglieder und die Konstante in die Regressonsgleichung aufgenommen werden, die Furcht vor der „multicollinearity" ([97], S. 282) ist deshalb unbegründet. Die feste Zuordnung der Konstanten mit (Feb-Jan) ist wahrscheinlich der Grund, dass Rf^ nicht erreicht wurde bei tjj^ =2,7 . Die erweiterte schrittweise Regression löst auch das „serious collinearity problem" bei ([97], S. 294 f.) „TABLE 6-11 AN ANOMALOUS DATA SET FOR REGRESSION ANALYSIS" durch simultane Aufnahme von X^ und X2 mit der Standardabweichung a = 0,1274. Außerdem wird eine Lösung auch durch die kombinierte Variable X3 = Xi - 2X2 gefunden: 7 = 99,877 + 18,9987^3 =99,877+ 18,9987Xi-37,9974 mit er = 0,1299, die restlichen Variablen haben /^-Werte
Abb. 2: Halbjahresnachfragen (x) eines Artikels mit Strukturänderung Durchgezogene Kurve: AEK-Prognose mit A=0,2 (er =0,61), untere, groß gestrichelte Kurve: Prognose nach Winters (A=B=C=0,2] er =1,54), groß/klein gestrichelte Kurve: Prognose nach Winters (A=B=C=0,5\ 0^=1,01), klein gestrichelte Kurve: Prognose nach HÖREST (A=B=0,2] CT =3,48), obere, groß gestrichelte Kurve: Prognose nach HÖREST (A=B=0,5\ er =2,2), 0-1^^1=4,28, cr^^. =1,79
140
Matt
3.
Nichtbeachtung der Korrelation zwischen den Einflussgrößen Das Winterssche Modell beachtet den Zusammenhang der Einflussgrößen nicht richtig. Die Abweichung zwischen Prognose und Nachfrage wird entsprechend den Ausgleichskonstanten A, B und C gleichmäßig auf die Einflussgrößen verteilt. Das führt besonders beim Trend-Saisonmodell zu so großen Prognosefehlern, dass einige DV-Hersteller die Anwendung dieses Verfahrens nicht empfehlen. Dieser Fehler wirkt sich sowohl bei Strukturänderungen als auch bei großen Zufallsschwankungen aus. Abbildung 3 zeigt Halbjahresnachfragen (x) mit Zufallsschwankungen. Über die ersten vier Perioden (zwei Jahre) wurden die Nachfragen gesammelt und die Anfangsprognosegleichungen ermittelt, danach wurden nach jeder Periode die neuen Prognosen berechnet. Die durchgezogene Kurve entspricht Vorhersagen mittels AEK-Methode; es ergibt sich a = \,3. Die groß gestrichelte Kurve zeigt die Prognosen nach Winters mit A = B = C = 0,5 und Ö- = 4,8, während die groß/klein gestrichelte die mit A = B = C = 0,2 und er = 2,6 darstellt.
4.
Keine Prüfung der statistischen Sicherheit der Einflussgrößen Bei Exponential Smoothing und dem Verfahren von Winters kommen alle Einflussgrößen in die Prognosegleichung, auch wenn sie nicht statistisch gesichert sind. Dadurch können die Modelle Zufallsschwankungen und echte Einflüsse nicht richtig bewerten, was zu großen Extrapolationsfehlern führen kann. Abbildung 4 zeigt ein Beispiel aus einer UNIVAC-Veröffentlichung [168]. Das Programm arbeitet mit der Wintersschen Optimierung der Glättungsparameter A, B, C. Die „optimalen Glättungsparameter" waren A = B=0, C = \. Für die Anfangsprognose (nach zwei Jahren) ergab sich der Mittelwert zu 105,28 und der Trend zu 0,78. Diese Werte werden nicht weiter korrigiert, da ^ = 0 und 5 = 0, während die Saisonindizes durch C = \ die Zufallsschwankungen voll übernehmen und außerdem noch mit einem unkorrigierbaren Jahrestrend von 9,4 überlagert werden. Das führt deutlich die Fragwürdigkeit einer Optimierung von Glättungsparametern vor Augen. In Abbildung 4 sind die Nachfragen (x) über drei Jahre, die laufenden Prognosen nach Winters (gestrichelte Kurve; a-=32,3) und nach der Methode der adaptiven Einflussgrößenkombination (durchgezogene Kurve; cr= 22,4) gezeigt. Bei der AEK-Methode wurden A = 0,\ und ein Prognoseansatz mit Mittelwert, linearem Trend und Saisonkoeffizienten verwendet, um gleiche Voraussetzungen wie bei Winters zu haben. Es zeigt sich, dass weder Trend noch Saisonkoeffizienten genügend statistische Sicherheit besaßen, um in die Prognosegleichung zu kommen.
5.
Multiplikativer Ansatz Der Winterssche Prognoseansatz {a + bi)s^ ist eine multiplikative Verknüpfung zwischen einem Trendmodell (a + bi) und den Saisonindizes s^. Dadurch werden die Fehler, die bei den Koeffizientenschätzungen entstehen, multiplikativ fortgesetzt, was zu einer Erhöhung des Gesamtfehlers führt, der mit der Größe der Zufallsschwankungen überproportional ansteigt. Nehmen wir an, dass sowohl die Schätzung des Mittelwerts a' = l,2a als auch die Schätzung der Saisonindizes s' = l,2 s um 20 % zu hoch liegen, dann ergibt sich für die Vorhersage VS = a''s'= 1,2 a'\,2s
= \,44a'S
Adaptive Einflussgrößenkombination
141
Nachfrage 15
10
X
1
2
3
4
5
6 Zeit (Jahre)
Abb. 3: Halbjahresnachfragen (x) eines Artikels mit Zufallsschwankungen Durchgezogene Kurve: AEK-Prognose mit A = 0,2 (er =1,3), groß gestrichelte Kurve: Prognose nach Winters (A=B=C=0,5; er =4,8), groß/klein gestrichelte Kurve: Prognose nach Winters (>:\=ß=C=0,2; a'=2,6), c r ^ i = 8 , 1 , c r ^ 2 = ^ ' 4 1 . Prognose nach HÖREST (yA=ß=0,2;1;12;1,4; 16,1;2,2;17,7; er =4,08); (/\=ß=0,5;1;15;1,8;19,2;3;12,6;ö-=4,41) A Nachfrage
150 X
XX
[ 100
50
1964
1965
1966
Zeit (Monate)
Abb. 4: Monatsnachfragen (x) mit starken Zufallsschwankungen Durchgezogene Kurve: AEK-Prognose mityA=0,1 (er =22,4), gestrichelte Kurve: Prognose nach Winters mit Optimierung der Glättungsparameter A, B, C (er =32,3) [168], c r ^ i = 2 8 ,
d. h., die Abweichung vom echten Wert beträgt 44 %. Unternehmen wir den gleichen Versuch bei einem additiven Ansatz a + s und nehmen wir eine gleiche Fehlerkonstellation an a' = l,2a, s' = l,2s , dann ergibt sich: VS = a'+ s'= 12 a +1,2 s = 1,2 (a + s) d. h., die Abweichung vom echten Wert beträgt nur 20 %. Auch bei im Vorzeichen unterschiedlichen Abweichungen der prognostizierten Faktoren ergeben sich er-
142
Matt hebliche Fehlermöglichkeiten (besonders wenn die Schätzung eines Faktors nahe bei Null liegt, da dann die Schätzung des anderen Faktors erheblich über dem echten Wert liegen muss, um den Fehler auszugleichen). Abbildung 5 zeigt einen solchen Fall. Die Prognose wurde nach 24 Monats-Nachfragewerten (x) gestartet. Die gestrichelte Kurve ist die Prognose nach Winters mit A = 0, B = C = 0,2 und cr=6893, die durchgezogene Kurve zeigt die Prognose des AEK-Modells ohne Trend bzw. bei einer geforderten statistischen Sicherheit von über 95 % (t>2,5) für den Trend (^ = 0,2; cr= 2073). Die strichpunktierte Kurve stellt die Prognose des AEK-Modells mit Trend und fortgeschriebener Fehlerprognose dar, wie sie auch in DIS 1 [19] verwendet wird {A = 0,2; cr=2780). Die schlechte Prognose nach Winters hängt mit dem starken negativen Trend des zweiten Jahres, der sich im dritten Jahr nicht fortsetzt, und mit dem multiplikativen Ansatz zusammen. Der Trend bleibt im dritten Jahr noch negativ, erst Ende des Jahres geht er auf Null zurück. Die Saisonindizes steigen zwar stark, können aber den niedrigeren Mittelwert nicht ausgleichen.
Bei einem Versuch wurden die monatlichen Umsatzzahlen eines Dreijahreszeitraums für mehr als 100 Artikel eines Unternehmens der Chemieindustrie mit einem Standardprogramm, das auf dem Verfahren von Winters basiert, von den Mitarbeitern des DVHerstellers zu Prognosezwecken getestet. In über 80 % der Fälle schrieb das Programm „ZU GROSSE IRREGULÄRE IN PROGR. NR.", d. h., der Variationskoeffizient (Standardabweichung durch Mittelwert der Nachfrage) beträgt über 50 %, der Artikel ist nicht zu prognostizieren. Bei einem weiteren Versuch mit AEK und 25 Artikeln ergab sich, dass nur acht Artikel von beiden Verfahren bearbeitet wurden. Es ergaben sich folgende in Tabelle 1 dargestellte Vergleichswerte für die letzten 12 Monate (Winters mit A = 0,B = C = 0,2] AEK mit Saisonfaktoren und Trend sowie J = 0,02). Abbildung 6 zeigt einen Artikel aus dem Versuch. Die gestrichelte Kurve ist die Prognose nach Winters mit er = 7750, während die durchgezogene Kurve die AEK-Prognose verdeutlicht a = All5 . Bei Winters liegen bei fünf Produkten und beim Gesamtvergleich die Variationskoeffizienten (a/NF) weit über 50 % und bei den restlichen drei Produkten nur knapp unter 50 %, während bei AEK alle Variationskoeffizienten unter 50 % bleiben. Die Standardabweichungen a reduzieren sich bei AEK im Schnitt um 60 % gegenüber Winters. ArtikelNr. 24 26 29 30 33 40 44 45
Mittelwert der Nachfrage (NF) 12335 3717 53487 4920 4640 2692 10477 19599 111867
Winters (T/NF(%)
72,3 48,4 74,5 68,9 65,1 47,5 74,1 44,6 65,8
AEK (T/NFiVo) 31,6 34,4 15,2 47,3 27,5 36,3 45,7 33,2 26,0
NP1 er/ NF (%) 54,9 56,9 33,4 55,8 57,9 79,5 71,8 57,8 47,5
Tab. 1: Prognosevergleich (Chemieprodukte)
NP2 (T/NF{%)
66 67,3 37,8 121,8 52,7 63,8 66,8 45,4 50,9
Adaptive Einflussgrößenkombination
143
Ein Vergleich der notwendigen Lagerbestände bei gleicher Lieferbereitschaft (Beschaffungszeit = ein Monat, durchschnittliche Bestellmenge = Monatsnachfrage, laufende Lagerüberprüfung, Formeln siehe [103]) ergibt Tabelle 2: Lieferbereitschaft 80 % 90 % 95 % 98 %
1
99 %
Winters 71100 104700 133100 165200 186700
Durchschnittlicher Lagerbestand AEK 38600 57100 71500 86800 96800
NP2 56600 84700 107900 134000 150600
1
Tab. 2: Vergleich der Lagerbestände Die Lagerkosten und der Kapitaleinsatz lassen sich bei gleicher Lieferbereitschaft und Bestellhäufigkeit um 45 bis 48 % reduzieren (AEK gegenüber Winters). Dazu die Aussage von Woitschach ([182], S. 13) zur Bestellpunktberechnung: „Doch wiederum spielen die zwangsläufigen Abweichungen zwischen Prognose und tatsächlichem Bedarf innerhalb bestimmter Grenzen nur eine untergeordnete Rolle." Abschließend sollen noch Vorteile des Wintersschen Verfahrens erwähnt werden: 1.
Geringer Speicheraufwand für die Prognosefortschreibung Wenn man von dem Speicher- und Rechenaufwand zur Bestimmung der Anfangsprognosewerte und der Optimierung der Glättungsparameter absieht, ist der Speicheraufwand für die Prognoserechnung unter Beibehaltung der Glättungsparameter gering. Für jeden Saisonindex, den Trend und den Mittelwert muss nur jeweils ein Fortschreibungsfeld gespeichert werden, während bei der normalen AEK-Methode außerdem noch die Korrelationswerte zu halten sind (bei einem Trend-Saisonmodell sind das zwei Werte pro Saisonkoeffizient, da die Saisonkoeffizienten gegeneinander unkorreliert sind). Inzwischen wurde ein Trend-Saisonmodell entwickelt (S. 12, Punkt 2.), das den Speicheraufwand erheblich reduziert, da die Korrelationswerte normiert und deshalb nicht mehr pro Saisonkoeffizient zu speichern sind. Damit ist der Speicheraufwand gegenüber Winters nur unerheblich größer. Die Prognosen in den Abbildungen 2 und 5 wurden nach diesem Modell berechnet.
2.
Geringer Rechenaufwand für die Prognosefortschreibung Da bei der Prognosefortschreibung weder Korrelation noch statistische Sicherheit der Koeffizienten berücksichtigt werden, ist der Rechenaufwand gering. Allerdings erkauft man sich diesen Vorteil mit einer unstabilen, verzerrten Prognose ohne statistische Sicherheit. Außerdem ist die Neuberechnung der Anfangswerte und Glättungsparameter wesentlich aufwendiger als bei der AEK-Methode (ca. 8-fach), und bei einer instabilen Prognose ist die Neuberechnung häufig notwendig.
Im Rahmen von Konzeptionen für Absatzplanungen wurden AEK-Prognosen mit Disponentenprognosen (DP) in zwei Betrieben verglichen ([20], [110]). Zur Objektivierung wurden auch die naiven Prognosen NP1 und NP2 gegenübergestellt. Die Mitarbeiter der beiden Unternehmen haben die Artikel als repräsentativ für das Sortiment ausgewählt. Auf der Basis von zwei Jahren wurden die nächsten 12 Monate prognostiziert (Tabellen 3 und 4).
144
Matt A
Nachfrage
15000
X
10000
5000
1968
X X
1969 Zeit (Monate)
Abb. 5: Monatsnachfragen (x) mit Trend, Saison- und Zufallsschwankungen. Durchgezogene Kurve: AEK-Prognose (ohne Trend) A=0,2 (er =2073), strichpunktierte Kurve: AEK-Prognose (mit Trend) A=0,2 (er =2780), gestrichelte Kurve: Prognose nach Winters (>A=0, ß=C=0,2; a =6893), a^p^ =2695, cr^p2 =3736, Kombinierte Prognosen (KP) mit auf 20 % gedämpftem Trend 4460;4740;10780;4830;10880;8135;6830;6990;7065;7265;7265;8430; a^ ^KP' 2019
Nachfrage
20000
10000 X
X X
1968
^1969
1970
Zeit (Monate) Abb. 6: Monatsnachfragen (x) mit Trend-, Saison- und Zufallsschwankungen. Durchgezogene Kurve: AEK-Prognosen (er =4775), gestrichelte Kurve: Prognose nach Winters ((7=7750), ö-^pi=7520, aJ^p2=700^
Adaptive Einflussgrößenkombination
145
i _ ^ . ^ _ i _ ^ . ^ — i ^ — i -
Art-Nr. 25 37 61 62 63 79 84
NF NP2 NP1 DP (Monat) alW (%) CT INF (%) Gl NF (%) 3434 10,7 19,8 11,4 4282 15,6 20,1 16,5 7910 25,0 23,0 20,9 3708 22,5 47,6 17,6 3435 27,9 30,0 29,4 5620 24,4 11,8 24,5 1178 22,3 94,5 106,4 29567 21,8 26,8 23,9 Tab. 3: Prognosevergleich (Backwaren) [20]
AEK alNF (%) 9,9 13,9 12,9 16,3 14,5 10,5 27,6 13,5
• " • — • ~ ^ — " ^ " " " " ^ — " — " — "
Art-Nr. 60 71 82 93 74 75 96 67 78 49
NF NP2 NP1 DP (TI NF (%) (TI NF (%) (Monat) ö-/ Ä ^ (%) 100 75,9 55,4 47,6 248 48,8 36,9 52,8 2397 23,7 23,5 21,4 1117 16,9 15,5 15,2 710 22,4 37,4 29,9 103 138,1 164,4 210,5 135 90,4 51,7 81,1 2661 23,1 19,4 23,3 1478 27,0 26,4 35,7 148 59,7 74,6 36,5 9097 26,9 26,5 28,9 Tab. 4: Prognosevergleich (Papiersorten) [110]
AEK (TINF
(%)
39,9 33,9 17,1 12,4 16,8 128,3 61,0 15,3 20,6 36,5 19,5
10.3.2 Vergleiche mit weiteren Prognoseverfahren In den Tabellen 6 bis 9 und in Abbildung 7 werden die Ergebnisse verschiedener Prognosevergleiche gezeigt. Dabei gelten folgende Abkürzungserklärungen: 1. Allgemein: A B DAFf = DQ = DT DU = EP FC G GW = AfAPF = MAPK =
Ausgleichsparameter (sonst meist a genannt) Betriebswirtschaftliche Zeitreihen (meist Nachfragen) Durchschnittlicher Absoluter Fehler von t^+X bis t Datenquelle, S. = Anfangsseite Datentyp „Dynamisierter" Theilscher Ungleichheitskoeffizient ([6], S. 421 f.) Empfohlene Parameter Forecasting Coefficient von Theil [164] FC^ ^aja^p^. Neuerdings auch als TU^ Theilscher Ungleichheitskoeffizient bezeichnet ([154], S. A5) Gemischte Zeitreihen (B und V) bzw. Gesamt Gewicht, unter anderem nach PM-Rangfolge vergeben Mittlerer Absoluter Prozentualer Fehler = MAPE ([96], S. 143) 100 |:^v ->'v,/|/3^v durch die Division durch die Zufallsvariable y^ ist bei Monats-Wochen- und Tagesprognosen mit Verzerrungen zu rechnen. Armstrong/Grohman haben das Fehlermaß 1972 bei Jahresprognosen eingeführt Obere Mertensschwelle [120] (PV ist 10 % weniger wirksam als NP2) Untere Mertensschwelle (PV ist 10 % wirksamer als NP2)
146
Matt Optimale Parameter Prozentualer Absoluter Fehler = DAFIy in % Prognostizierte Monate Prognoseverfahren Prognosevergleiche Rangfolge Relative Rechenzeit von [40], [83], [140] und [22] übernommen Sicherheitsbestand ([103], S. 82) Statistische Sicherheit für den Trendkoeffizienten b Berechnete Standardabweichung der Prognosen von PV^ Studentscher t-Wert für die Aufnahme von Einflussgrößen Studentscher t-Wert für die Elimination von Einflussgrößen Volkswirtschaftliche Zeitreihen (Grund)-Vergleichsmaß des Vergleichs Wirksamkeitsmaß WM, ^GJGNPl • DAF^ IDAFj^p^ « MAPF^ I MAPF^p^ (beispielsweise bei saisonbeeinflussten Zeitreihen) WM^ :0 = optimaler Prognose WM^ =\ = (j.= or^p^ Zeitreihe
OP PAF PM PV PVG RF RRZ SB SSb
t, 'IN OUT
V VM WM
ZR
2. Prognoseverfahren: AD AEK AEKCH AEKLM AEKTL AEKTM AEKVD AEP AF AS ASM BF BJE B/J CBA Chow DP ES/ ESMS Holt HRS HR1 H/W KZZ KA/V LWD
= = = = = = = = = = = = = = = = = = = = = = = = = =
ADAPT modifiziertes AS von Siemens [154, Weckerle] Adaptive Einflussgrößen-Kombination allgemein AEK kombiniert mit dem Verfahren von Chow ([40], S. 51) AEK mit linearem Trendmodell f^ = ^o + h^ [22] AEK kombiniert mit T/L [22] AEK-Testmodell f^ = ^o + ht + b2t^ AEK kombiniert mit VDB [22] Automatisches rekursives Filterverfahren [96] Adaptives Filtern von Widrow ([94], [173]) Adaptive Smoothing von Brown/Meyer (additives PV) ([14], [154], S. 33) AS von Groff mit Binärvariablen für den Saisoneinfluss ([112], S. 2) Bayesian Forecast von Harrison/Stevens (Kaiman Filter) [96] Box-Jenkins Einfache Modelle (z. B. Groff und Emde) [28] Box-Jenkins (ARIMA)-Verfahren ([10], [96] und Kapitel 13, 14) Combining A. Kombinierte Prognose, Mittelwert von 6 einfachen PV [96] Adaptives ES nach Chow ([18], [40] und [140]) Menschliche Prognosen von Disponenten oder Planern Exponential Smoothing /-ter Ordnung nach Brown ([14], Kapitel 2) ES mit multiplikativer Saison von Siemens ([155], [156]) ES-Verfahren mit 2 Glättungsparametern ohne Saison ([52], Kapitel 2) Multiplikatives PV von Harrison ([45] und Kapitel 3) HÖREST 1 PV mit multiplikativer Saison von Siemens [155] PV von Holt/Winters mit drei Glättungsparametern ([179] und Kapitel 3) Klassische Zeitreihen-Zerlegung [95] Filterverfahren nach Kolmogoroff/Wiener ([28] und Kapitel 13) FORSYS- bzw. OPS-System von Lewandowski ([83], [96])
Adaptive Einflussgrößenkombination
147
Neuronale Netze Prognose (Kapitel 17) Naive Prognose 1 (no change) A^Pl^+i =yt (entspricht ESI mit^=1) Naive Prognose 2 NPl^ =yt-s («^ = Saisonlänge) PV von T/L mit „Pattern Search" gekoppelt nach Bednar [6] PV von Parzen modifiziert die ARIMA-Methodologie [96] PV von Quelle mit additiver oder multiplikativer Saison [133] PV mit Rekursiven Funktionen von Förster [154] Regression allgemein ([38] und Kapitel 7) RG mit externen Einflussgrößen [24] RG mit konstanter Gewichtung [184] RG mit Zeitfunktionen (vgl. 10.4) Schrittweise Autoregression von Newbold/Granger [125] Korrelationen missachtendes 3-Stufenmodell [154, Kampf] Adaptives ES von Trigg und Leach ([166], [40]) Adaptives ES nach van Dobben de Bruyn ([169], [40]) WINAS „4-Parameter-Modell" von Hüttner/Götte [154] ES-Verfahren von Wiese mit Logarithmen ([154, Roloff] und [176]) PV von Miebach (Kombination Winters/Lewandowski) [154]
NN NP1 NP2 PS PZ QL RF RG RGE RGK RGZ SAR SM T/L VDB WN WS W/L
Beim nächsten Vergleich werden die Ergebnisse verschiedener Autoren bei PVG mit der Zeitreihe von Tabelle 5 aufgezeigt. Die Zeitreihe simuliert die Wochennachfragen eines Produkts, das durch intensiven Werbeeinsatz in den Wochen 21 bis 53 von einem Niveau von 100 auf das von 200 gebracht wurde, mit entsprechenden Zufallsschwankungen. Da bis auf Rosentreter [140], der a als Vergleichsmaßstab verwendet, alle anderen DAF verwenden, wurde DAF^^ als VM gewählt. Um den starken Einfluss der Startwerte auf die Anfangsprognosen zu vermeiden, wurden wie bei [140] die Vergleiche erst ab Periode 13 vorgenommen. 90
DAF,,= Periode Istwert Periode Istwert Periode Istwert Periode Istwert Periode Istwert Periode Istwert Periode Istwert
1 97 14 102 27 119 40 159 53 197 66 197 79 201
2 98 15 100 28 121 41 161 54 202 67 196 80 191
^\Y,-y, 3 102 16 94 29 125 42 166 55 200 68 202 81 197
78 4 108 17 107 30 129 43 172 56 208 69 197 82 202
5 99 18 102 31 133 44 172 57 207 70 197 83 192
6 92 19 101 32 138 45 173 58 200 71 196 84 196
7 103 20 101 33 140 46 179 59 201 72 197 85 196
8 94 21 99 34 140 47 180 60 199 73 204 86 194
9 97 22 106 35 143 48 181 61 199 74 197 87 200
10 101 23 109 36 156 49 185 62 194 75 194 88 205
11 99 24 110 37 153 50 194 63 202 76 200 89 203
12 103 25 115 38 151 51 190 64 197 77 201 90 202
13 1 105 26 118 39 159 52 199 65 202 78 201
Tab. 5: Wochennachfragen eines werbebeeinflussten Produkts Da bei Dirr [22] über 50 % der Rechenzeit für die (unnötige) Umrechnung der vorgegebenen statistischen Sicherheit auf tg^j^ benötigt wird, wurde RRZ entsprechend reduziert.
148 IPV ES1
Matt DQ
S.
A
/2 ''OUT
11
0,05 0,15 0,25
99 99 99
1 0,1 0,3 0,5 0
999 499 99 0 EP OP
Neu [104]
Neu Neu ES2
ES3
[140] [140] [140]
Neu Neu [104]
11
Neu AEKLM AEKTM
[22]
44
Neu Neu [104]
0,05 0,15 0,25 0,28
0 11
Neu
0,05 0,15 0,25 0,15
0,2 Neu iHolt Chow VDB T/L LWD AEKCH AEKVD AEKTL
[140] [140] [140] [140] [140] [140] [140] [140] [83] [40] [22] [22]
0,25
226 226 226 226 226 226 226 226 165 56 44 44
0,2-0,6
0 0 0 0 1,9 3,9 3,9 3,9 3,9 1,9 1.9 1,9 OP EP OP EP OP EP OP EP 2 OP OP
99 % 1996 veröffentlichte Steurer (Prognose von 15 Zeitreihen der DGOR mit Neuronalen Netzen, OR Spektrum 18 (1996) S. 117 ff.), dabei lieferte er Prognosen zum „Prognosetyp I (Prognosehorizont = 12 Monate)" und „Prognosetyp II (Prognosehorizont = 12x1 Monat)" [154], die Wirksamkeit der Prognosen ermittelte er mitFC^. über die 15
Adaptive Einflussgrößenkombination
151
Zeitreihen sowohl für Prognosetyp I FCNNJ = 1,04 = 15,6/15 als auch für Prognosetyp WFCNNJJ =
0,867 = 13/15. Da NP1 für saisonale Monatsprognosen denkbar ungeeignet ist (Theil hat sie für Jahresprognosen eingeführt, siehe auch Tabelle 8), wurde WMNN pro Zeitreihe j bestimmt durch ^ M ^ ^ =FC^j^^ IFC^^p . Über alle ZR gemittelt ergibt sich WMNNJ = 1,175 und WMNN, =1,369 und WMG(NN) =1,272, d. h., NN überschreitet in Abbildung 7 die obere Mertensschwelle beträchtlich und liegt auch weit über der Wirksamkeitsgeraden. Steurer (S. 124) „Falls also Regelmäßigkeiten in Form einer starken Saisonkomponente vorhanden sind, empfiehlt es sich, kein Neuronales Netz zu verwenden. Eher sollte dieses a priori Wissen durch ein konventionales Verfahren modelliert werden." 10.4 Beispiele für den praktischen Einsatz des Verfahrens der adaptiven Einflussgrößenkombination Mit dem nachfolgend beschriebenen Konsumgüter-Prognosemodell (siehe auch [70], [98], [105], [107], [27] und [68], S. 1316) wurden oder werden über 50 Lager aus verschiedenen Branchen disponiert (DIS 1 und DIS 1/L). Tabelle 10 zeigt die eingesparten Kosten. Branche
Lagerkosten in TDM bisher mit AEK
1 Fleischwarenindustrie Getränl<eindustrie Elektroindustrie Plastilt = alb
(14)
Charakteristisch für die logistische Kurve ist auch, dass ihre relative Wachstumsrate NJN^ eine lineare Funktion der verbleibenden relativen Marktaufnahmefähigkeit darstellt, wie durch die folgende Ableitung gezeigt werden kann: Aus Gleichung (1) folgt mit Gleichung (4) unmittelbar: 'N*-N^ N' V
(15) N
-N Der Klammerausdruck ^ ist aber die zum Zeitpunkt t verbleibende Marktkapazität, bezogen auf die Sättigungsmenge. Durch Logarithmierung von Gleichung (9) stoßen wir auf die letzte hier zu besprechende Charakteristik der logistischen Funktion: In^a-bt
In
IL - 1
(16)
also a-bt = In
(17)
Mittel- und langfristige Absatzprognose auf Basis von Sättigungsmodellen
Die Funktion In
175
ist auch unter dem Namen LogWs bekannt. Sie hilft in der Pra-
xis, die Koeffizienten a und h durch eine grafische Methode zu schätzen. Man geht dazu von einem Schätzwert für A^* aus und trägt auf halblogarithmischem Papier auf. Erhält man eine Punktfolge, die sich gut durch eine Gerade annähern lässt, so war der Schätzwert für A^* gut. Ist die Kurve nach unten gebogen, so wurde A^* zu klein gewählt, verläuft sie überproportional, so muss TV* verringert werden. So gelangt man nach einer bestimmten Zahl von Schritten zu einem geeigneten A^*. Dann kann man aus der Geraden die Koeffizienten a und h als Abschnitt auf der Ordinate und als Steigung ablesen. Um die Regressionskoeffizienten auf analytischem Weg zu bestimmen, wenn nur A^^Werte vorhanden sind, empfiehlt sich folgende Vorgehensweise: Wir führen zwei neue Größen X und Y ein, sodass
X = — = - ^ ( l + e"-'0
(18)
Durch Umformung von Gleichung (18) folgt
und zusammen mit Gleichung (19) N ' \-e
b
-t
-^e-'X
(20)
N Setzt man aus Gründen der Übersichtlichkeit (21) und Q-e-'
(22)
so erhält man die lineare Funktion Y = P + QX
(23)
176
Mertens, Falk
sodass man nun die Koeffizienten P und Q mithilfe der gewöhnlichen linearen Regressionsrechnung (Methode der kleinsten Quadrate) bestimmen kann, wenn einige Werte für A^^ (und damit gemäß Gleichungen (18) und (19) Werte für X und Y) vorliegen. Anschließend benutzt man den Ausdruck (22), um b aus Q zu finden: 6 = - I n ß .
*
Aus Gleichung (21) erhält man N =
\-e~
\-0 P
^
AT \ -N,
f N AT*
a resultiert schließlich aus Gleichung (3): a = m\
No
j
11.3.2.3 Zur Kritik des logistischen Ansatzes Die Kritik des logistischen Ansatzes kann an zwei seiner Prämissen orientiert werden: 1.
Die Ausbreitung der Nachfrage ist abhängig von der Zahl der bereits abgesetzten Produkte N^.
2.
Die Ausbreitung der Nachfrage ist proportional der restlichen Marktpotenz
Zu 1. Diese Komponente des logistischen Ansatzes wird auch als „Kontaktkomponente" bezeichnet. Hierin kommt zum Ausdruck, dass das logistische Modell zuweilen in der Medizin bzw. Biologie und in der Physik eingesetzt und erforscht worden ist. In der Biologie bzw. Medizin kann man es z. B. verwenden, um die Ausbreitung von Epidemien zu erklären, wobei die Ausbreitung durch Kontakt der noch gesunden mit den bereits erkrankten Personen zustande kommt. Ähnlich verläuft der Prozess bei kernphysikalischen Kettenreaktionen. In der Wirtschaftswissenschaft wird nicht angenommen, dass der erste Kontakt mit dem Produkt zum Kauf führt, wie es analog bei einer physikalischen Kettenreaktion der Fall ist. Vielmehr kann man einen Lernprozess zugrunde legen, der durch Kontakte ausgelöst und vorangetrieben wird ([8], S. 19 ff.): Jeder zusätzliche Kontakt mit dem neuen Gut intensiviert die Kenntnis des Produkts. Der Kauf kommt erst nach einer bestimmten Zahl von Kontakten zustande, die Nachfrage ist mithin eine Funktion der Zahl der Kontakte. Diese Kontakte sind zwar um so wahrscheinlicher, je verbreiteter das Gut ist, jedoch nicht rein proportional ISI^. Denn die Zahl der Kontakte hängt nicht allein davon ab, wie viel Produkte zum Zeitpunkt / bereits im Gebrauch sind, sondern wegen der zeitlichen Ausdehnung des Lernprozesses auch davon, wie viel in früheren Perioden verkauft worden waren. Streng angenommen wäre der logistische Ansatz nur zulässig, wenn der Lernprozess allein durch die in der letzten Periode neu hinzugekommenen Produkte bedingt würde. Damit wäre ein komplizierteres Modell als das logistische erforderlich. Jedoch hat Bonus am (nicht untypischen) Beispiel des Fernsehens in einer detaillierten Analyse ([8], S. 62 ff.) gezeigt, dass im praktischen Fall der vereinfachende logistische Ansatz trotzdem geeignet ist. Dies gilt besonders dann, wenn aus verhaltenstheoretischer Sicht der Imitatoren-Anteil im Markt überwiegt: Käufer vom Typ „Imitatoren" erwerben vor allem deswegen, weil sie den Kauf anderer beobachten [48]. Durch einen großen Teil der Bevölkerung, der das Gut bereits besitzt, wird ein „sozialer Druck" aus-
Mittel- und langfristige Absatzprognose auf Basis von Sättigungsmodellen
177
geübt, der um so größer ausfällt, je stärker das Produkt schon verbreitet ist, und der schließlich zum Kaufentscheid führt. Zu 2. Im logistischen Modell wird angenommen, dass die restliche Marktpotenz homogen strukturiert ist. Man kann diese Aussage dahin differenzieren, dass sowohl die räumliche als auch die gesellschaftliche Ausbreitung gleichmäßig erfolgen müssen. Wo diese Prämisse nicht erfüllt ist, muss man Verfeinerungen einführen, wie sie beispielhaft in Abschnitt 11.5.3 demonstriert werden. Über diese beiden Ansatzpunkte einer Kritik hinaus wird gegen das logistische Modell auch eingewandt, dass der in ihm zum Ausdruck kommende symmetrische Verlauf der Wachstumskurve mit zahlreichen empirischen Beobachtungen nicht übereinstimme ([8], S. 65 ff.). Für solche Fälle stehen die in diesem Beitrag ebenfalls beschriebenen Modelle mit asymmetrischem und flexiblem Kurvenverlauf zur Verfügung (vgl. Abschnitte 11.3.5 und 11.4). Auch die Prämisse eines konstanten Sättigungsniveaus ist oft bedenklich und führt immer wieder zu dessen Unterschätzung ([31], S. 274). Das logistische Modell hat jedoch trotz der genannten Schwächen verschiedentlich praktischen Einsatz gefunden (vgl. [30] und [53]). Vor allem aber ist es - wie das nachfolgende exponentielle Modell - ein häufig benutzter Baustein komplizierterer Prognoseverfahren. 11.3.3 Das exponentielle Modell Das exponentielle Modell ist eine Vereinfachung des logistischen Modells. Es wird von der Hypothese ausgegangen, dass die Wachstumsrate proportional zur Aufnahmekapazität des Marktes verläuft, jedoch nicht - wie bei der logistischen Funktion - vom Bekanntheitsgrad abhängt. Daher gilt für den Nachfragezuwachs die Differenzialgleichung
Nl=ß(N'^-N,)
(24)
Die zugehörige Lösung lautet
N,=N"{l-e''-^') mit a = \n 1
(25)
o_\ für
No>0
N
Der Leser kann sich durch folgende Ableitung der Gleichung (25) vom Zusammenhang der Gleichungen (24) und (25) überzeugen: N^=N''
ße^~^^
= ßN' -ßN^
^ßN^' -ßN^' +ßN' e^~f^^ ^ ßN^ =ß{N' -N,)
ßN^ix-e^'1^^
q.e.d.
Das exponentielle Modell ist geeignet, wenn es gilt, die Ausbreitung eines bereits bekannten Produkts zu prognostizieren, und wenn die Information des Konsumenten über das Produkt z. B. durch intensive Werbung erreicht wurde. Auch lassen sich die Wachstumsvorgänge zu Beginn der Lebensdauer eines Produkts oft recht gut durch
178
Mertens, Falk
dieses Modell wiedergeben. Das wird verhaltenstheoretisch damit erklärt, dass diese Phase voHA/iegend durch Innovatoren geprägt ist. Die Käufer vom Typ „Innovatoren" richten sich nicht an der Verbreitung des Gutes aus, sondern erwerben es, weil sie ein besonderes Interesse an Neuheiten haben [48]. 11.3.4 Das Bass-Modell Das Modell von Bass ergibt sich aus der Kombination eines exponentiellen und eines logistischen Absatzverlaufs und wird deswegen in der deutschsprachigen Literatur oft als semilogistisch bezeichnet. Seine Veröffentlichung 1969 verlieh der Diffusionsforschung des Marketing neue Triebkraft. Das Modell setzt voraus, dass die Übernahme einer Innovation von einem Kommunikationsprozess abhängt: Ein neues Produkt wird zuerst von einigen Innovatoren erworben, die die Übernahme der Neuheit durch persönliche (Mund-zu-Mund-) Kommunikation an Imitatoren propagieren und somit deren Kaufentscheide beeinflussen. Darauf aufbauend formuliert Bass einen stochastischen Ansatz, der auf folgender Hypothese beruht: Die Wahrscheinlichkeit P(t), dass eine Person zum Zeitpunkt t das Gut kaufen wird, wenn sie es bis zum Zeitpunkt t noch nicht gekauft hat, hängt linear davon ab, wie viel Personen das Gut schon besitzen. Dabei wird angenommen, dass jede Person nur ein Produkt kauft. Bass geht von der Funktion P(t) = -J^^ l-F(t)
= p + ^N(t) N
(26)
für die bedingte Wahrscheinlichkeit aus. Hierin sind: f{t)
die Wahrscheinlichkeit eines Kaufes zum Zeitpunkt /
F{t)
die akkumulierte Wahrscheinlichkeit eines Kaufes zum Zeitpunkt r. F{t) = \f{T)dT
(27)
0
A^*
das Sättigungsniveau oder die Zahl der im Betrachtungszeitraum überhaupt absetzbaren Produkte
N{t)
die bis zum Zeitpunkt t abgesetzten Produkte sowie
p,q
Proportionalitätsfaktoren, wobei p den Anteil der Innovatoren und q den der Imitatoren widerspiegelt. (Da A^(0) = 0, muss gemäß Gleichung (26) p die Wahrscheinlichkeit eines Kaufes zum Zeitpunkt 0 sein, also die Bedeutung der Innovatoren in dem Markt widerspiegeln.)
Nun ergibt sich N{t) durch Multiplikation der gesamten potenziellen Käufe N* mit der Wahrscheinlichkeit F{t), dass der einzelne bis zum Zeitpunkt t bereits gekauft hat: N{t) = N*F{t) -> F{t) = ^ N
(28)
Man erhält den Nachfragezuwachs, indem man diese Gleichung ableitet und Gleichung (26) sowie anschließend Gleichung (28) einsetzt:
Mittel- und langfristige Absatzprognose auf Basis von Sättigungsmodellen
\
N
N:=i^p+q^yN*-N(t))
179
J (29)
Als Lösung dieser Differenzialgleichung erster Ordnung ergibt sich für die akkumulierte Nachfrage der Ausdruck: N(t) = N -^-^ l + ^e-^'^'^' P
(30)
Die Analyse der Funktion erbringt für die Parameterkonstellationen der Praxis oft einen Kurvenverlauf, der dem der logistischen Funktion ähnelt. Die Ähnlichkeit ist dann besonders groß, wenn die Zahl der Imitatoren die der Innovatoren stark übertrifft, wenn mithin q beträchtlich größer als p ist. In diesem Fall liegt der maximale Periodenabsatz und damit der Wendepunkt der Funktion N{t) etwa bei halber Marktsättigung, wie bei der logistischen Kurve auch. Grundsätzlich kann der Wendepunkt je nach Wahl von p und q zwischen 0 und 50 % Marktsättigung variieren [33]. Das Modell von Bass unterscheidet sich von anderen weniger durch den Verlauf der Funktion als vielmehr dadurch, dass die verhaltenswissenschaftlichen Annahmen explizit zum Ausdruck gebracht und folglich auch zum Gegenstand von Parametermodifikationen gemacht werden können. Bass hat sein Modell an elf Haushaltsgütern ausgetestet, darunter Kühlschränken, Klimaanlagen und Kaffeemaschinen [2]. Von einer hohen Akzeptanz in der US-amerikanischen Industrie berichten Mahajan u.a. [33]. Gierl zeigt anhand eines neueren Rechenbeispiels, dass bei der Prognose des Zuwachses von Scannerkassen-Installationen in der Bundesrepublik mithilfe des Bass-Modells die reproduzierten mit den tatsächlich eingetretenen Werten im großen und ganzen übereinstimmen [21]. 11.3.5 Das Gompertz-Modell Die Gompertz-Kurve ist die wohl bekannteste asymmetrische Wachstumsfunktion. Grundlage ist eine Beziehung vom Typ N^=N'L'^'
(31)
wobei also die Zeit im Exponenten des Exponenten erscheint (Z und k sind Konstanten). Diese Grundfunktion kann auf verschiedene Weise variiert werden. Wir wollen hier mit einem Modell arbeiten, das Lewandowski ([31], S. 287 ff.) angegeben hat. Danach werden die Parameter so definiert, dass die folgende Funktion resultiert: N,=N\-^''
wobei b und c Konstanten sind.
(32)
180
Mertens, Falk
Zur Analyse der Funktion sollen zunächst die Koordinaten des Wendepunkts bestimmt werden: Die erste Ableitung der Gleichung (32) lässt sich mithilfe der Kettenregel errechnen: ^
= N]=N* e-'^' (-bc' Inc) = -N* bInc (e"^^' c^)
(33)
Nun bilden wir die zweite Ableitung, indem wir auf den Klammerausdruck die Produktregel anwenden:
K = -N*b\nci-be''"'
c'Xncd'+(i,s>0
sind.
Arbeitet man mit dieser Annahme und setzt man vereinfachend K, (*) = 1, so erhält man für den Verlauf des Marktanteils die Funktion
'
100 U + ^ ^
^
^
^
indem E^ und W^{s) aus den Gleichungen (71) und (72) in Gleichung (70) eingesetzt werden. Diese Funktion zeigt etwa den in Abbildung 9 dargestellten Verlauf. Das Modell von Eskin [16] stellt einerseits eine Weiterentwicklung des Verfahrens nach Parfitt und Collins dar, andererseits wollte Eskin eine Vereinfachung des unten angedeuteten Verfahrens von Massy bieten, sodass man Eskins Methode als Mittelweg zwischen den Modellen von Parfitt und Collins und von Massy werten kann. Auch Eskin geht davon aus, dass die einzelnen Konsumenten aus verschiedenen Gründen (z. B. Haushaltsgröße, psychologische Merkmale usw.) ein unterschiedliches Kaufverhalten zeigen, sodass sich die Prognose zunächst auf einzelne Komponenten
198
Mertens, Falk
des Markts in Form von Käuferklassen erstrecken muss. Um die Käufer zu klassifizieren, werden sie daraufhin beobachtet, wie oft sie das neue Produkt wieder erworben haben und zu welchen Zeitpunkten bzw. nach welchen Zeitintervallen dies geschah. Die Wiederholkaufakte werden also aufgespalten nach solchen aus erster Wiederholung, zweiter Wiederholung usw. und dann in die Anzahl der Kaufakte in Abhängigkeit von der Frist, die seit dem Erstkauf vergangen ist.
Abb. 9: Verlauf des Marktanteils für K^ {s) = l Das Verfahren von Eskin hat den in der Marketingpraxis willkommenen Nebeneffekt, dass eine Reihe von mengen- und käuferbezogenen Kennzahlen anfällt, die die intensive Marktbeobachtung in der kritischen Phase der Einführung eines neuen Produkts erleichtern. Das Verfahren von Massy [37], das unter dem Namen STEAM bekannt wurde, betrachtet die Folge der Kaufentscheidungen von individuellen Haushalten in den einzelnen Phasen der Marktdurchdringung als stochastischen Prozess. Dabei werden als Einflussgrößen unter anderem der durchschnittliche Verbrauch des Gutes, der Zeitpunkt des letzten Kaufs und die Zeitspanne seit dem letzten Kauf berücksichtigt. Das Modell stellt hohe Anforderungen an Quantität und Qualität der verfügbaren Daten und an die Einstellung der zahlreichen Parameter. Eine wesentlich detailliertere Darstellung von Eigenschaften, Vor- und Nachteilen sowie Einsatzmöglichkeiten der in diesem Abschnitt skizzierten Methodengruppe findet sich bei Meffert und Steffenhagen [39]. 11.7 Entscheidungsunterstützung über Testmärkte Ein interessantes Feld der Vorhersagetheorie bei Produktinnovationen ist die Auswertung von Testmärkten. Einen Überblick zu acht Modellen und Parameter-Schätzverfahren findet man bei Hardie u.a. [23]. Messungen des Käuferverhaltens in Testmärkten und die zugehörigen statistischen Auswertungen entscheiden mit darüber, ob die in diesem Kapitel beschriebenen Diffusionsprozesse vom Management überhaupt in Gang gesetzt werden.
Mittel- und langfristige Absatzprognose auf Basis von Sättigungsmodellen
199
Gerade wenn wenig Erfahrung zu einem innovativen Gut vorliegt, verlassen sich viele Verantwortliche in der Unternehmensleitung auf solche Resultate. Andererseits existiert bei derartigen Produkten ein erheblicher Druck, die Zeit von der Entwicklung bis zur Markteinführung („time to market") zu verkürzen; mit anderen Worten: Die Test-Periode soll so kurz wie möglich sein. Eine große Zahl der einschlägigen Modelle hat man in den sechziger und siebziger Jahren entwickelt, als man noch auf Marktforschungsdaten (z. B. aus Panels) angewiesen war, die im wöchentlichen Rhythmus gewonnen wurden. Die Herausforderung besteht nun darin, in der Modellentwicklung die technischen Möglichkeiten bei der Verkaufsdatenerfassung (Point-of-sale-recording, Radio Frequency Identification (RFID)) zu nutzen, um jeweils die neuesten, in kurzen Abständen eintreffenden Verkaufsinformationen zu verwenden und festzustellen, ob die Prognose hinreichend konvergiert. Dabei kann die bei derartigen Modellen übliche Trennung in Erstkauf, erster, zweiter, ... Wiederholungskauf beibehalten werden (vgl. Abschnitt 11.6). Fader u.a. [17] überprüfen, welche Wirkung zusätzliche Einflussgrößen aus dem Marketing nicht nur auf die Güte der Prognose haben, sondern es erlauben, die Zeit zu verkürzen, die benötigt wird, um die Vorhersagemodelle zu kalibrieren. Bei den Modellvarianten werden drei Aspekte unterschieden: 1.
Ist bei der Definition der Sättigungslinie eine Gruppe von Käufern bzw. Haushalten in Rechnung zu stellen, die das neue Produkt, z. B. aus fundamentaler Überzeugung bezüglich ökologischer Verträglichkeit, nie ausprobieren („never triers")?
2.
Wird die Heterogenität der Verbraucher (vgl. Abschnitt 11.3.3) explizit modelliert?
3.
Werden die Einflüsse von Marketing-Entscheidungen in das Modell aufgenommen?
In Experimenten mit Daten des BehaviorScan der Firma Information Resources, Inc. (IRI) aus verschiedenen regionalen Märkten in den USA testeten Fader u.a. Erzeugnisse wie Fruchtsäfte, Kekse, Salzgebäck und Salat-Dressings. IRI berichtete, in welchen Wochen wie viel Teilnehmer eines Haushaltspanels das neue Produkt erwarben. Dazu wurden Informationen über Marketing-Aktivitäten für das neue Erzeugnis in den einzelnen Wochen (promotional activity), z. B. gemessen in der Zahl der aufgestellten Displays oder der ausgeteilten Coupons, herangezogen. Die meisten Modelle erreichten nach 20 Wochen einen Mean Absolute Percentage Error (MAPE), auf den die weiteren Trennentscheidungen zur Vermarktung gestützt werden konnten. Mit anderen Worten: Die Ausdehnung der Versuchszeit über jene 20 Wochen hinaus brachte keine so hohen Genauigkeitssteigerungen, dass sie zu rechtfertigen gewesen wäre. In Einzelfällen erreichte man auch Genauigkeiten im 10 %-Bereich nach nur zwölf Wochen. Fader u.a [17] ziehen aus ihren Arbeiten den Schluss, dass es wichtig ist, die Heterogenität der Kundschaft zu modellieren, da Einflussgrößen wie Werbemaßnahmen, Coupons oder Aktionen in den Läden vor allem dann zu Genauigkeitssteigerung beitragen, wenn die Versuchsperiode sehr kurz ist.
200
Mertens, Falk
Als Forschungsaufgabe für die Zukunft nennen sie, dass im gegebenen Zusammenhang Bayes-Methoden verstärkt in Betracht zu ziehen seien. 11.8 Verwendungsbreite und Vergleich Die Theorie der Diffusions- bzw. Sättigungsmodelle ist verhältnismäßig weit entwickelt. So verwundert es nicht, dass sie über die ursprüngliche Absicht, sie zur mittelfristigen Vorhersage der Marktdurchdringung von neuen Erzeugnissen heranzuziehen, auch andere Verwendung gefunden hat. Hierzu zählen, das Sättigungsniveau abzuschätzen oder einzelne Phasen zu prognostizieren, etwa jene, in der sich das neue Erzeugnis am schnellsten ausbreitet. Die Ausbreitung der Produkte, die mit den Modellen beschrieben worden ist, betrifft Fahrzeuge, Chemieprodukte, Computer, langlebige Konsumgüter, Roboter, Solarenergieanlagen, Telefone, Fernseher und landwirtschaftliche Geräte. Es gibt eine Reihe von Literaturübersichten und -vergleichen ([33], [34], [35], [38][36]). Die Vielfalt der Studien zur Leistungsfähigkeit der Methoden im Vergleich, die ihrerseits wieder bei Meade und Islam zusammengefasst sind [38], erbringt, dass die komplizierteren „Derivate" der Grundmodelle den Aufwand zur Beherrschung der größeren Komplexität (z. B. den Umgang mit einer größeren Zahl von Parametern) nicht rechtfertigen; vielmehr schneiden einfachere Verfahren, darunter vor allem die logistische Funktion und die Modelle von Gompertz und Bass, in den Gegenüberstellungen recht gut ab. Methoden, die von einem variablen Sättigungsniveau ausgehen, haben sich in der Regel nicht als wesentlich leistungsfähiger erwiesen als solche, die ein konstantes Sättigungsniveau unterstellen. Bei vielen Erzeugnissen wurde in der Prognoseforschung das Sättigungsniveau unterschätzt. So hat 1973 Dodds geschätzt, dass die Sättigungslinie für das Kabelfernsehen bei 10 % der Haushalte in den Vereinigten Staaten liegen würde, 1978 waren bereits 17 % damit ausgestattet. Bei Vorhersagen über eine längere Zeitstrecke enA/iesen sich Verfahren vom ARIMATyp (vgl. Kapitel 13) als überlegen. Diffusionsprozesse für das gleiche Produkt verlaufen oft in verschiedenen geografischen Bereichen unterschiedlich, was je nach Erzeugnis nicht nur mit volkswirtschaftlichen Rahmenbedingungen, wie etwa der Kaufkraft in der Bevölkerung, zu tun hat, sondern auch mit kulturellen Einflüssen. So haben Meade und Islam 1995 die Vorhersagegüte von 17 Modellen für Diffusionsprozesse im Telekommunikationsmarkt in 15 Ländern studiert. Unterschiedliche Verfahren lagen in den einzelnen Ländern an der Spitze, wobei eine Variante des logistischen Modells („Local Logistic") am besten abschnitt, jedoch in den paarweisen Vergleichen nicht signifikant besser als das einfache logistische Modell und das Gompertz-Verfahren. 11.9 Schlussbemerkung und Ausblick Man sollte sich darüber klar sein, dass die behandelten Methoden möglicherweise nur ein Hilfsmittel sind, den Absatzerfolg eines Produkts während seiner Lebenszeit zu prognostizieren, das mit anderen kombiniert werden muss. Der Leser sei vor allem auf
Mittel- und langfristige Absatzprognose auf Basis von Sättigungsmodellen
201
die Arbeit von Chambers u.a. [9] verwiesen, in der am Beispiel von Fernsehgeräten und Haushaltsartikeln gezeigt wird, wie in den einzelnen Phasen der Lebenszyklen andere Verfahren mit den hier skizzierten in Verbindung treten können. Die Aufgabe der Zukunft besteht weiter darin, die Integration der Verhaltenswissenschaften und der statistischen Prognosetheorie fortzusetzen, um Kurvenverläufe erklärbarer zu machen. Das Modell von Bass und seine bereits zahlreichen Erweiterungen sind Schritte in diese Richtung (vgl. [33] und [49]). Insbesondere interessiert, wie sich Änderungen von Marketing-Einflussgrößen auf die Kurvenverläufe auswirken. Bei schwer quantifizierbaren Faktoren wie Werbemaßnahmen, Messen, Händlerschulung, Außendiensteinsatz usw. sind allgemeine Empfehlungen für die Art der funktionalen Beziehung kaum möglich. Wenn sich bedingte Übernahmewahrscheinlichkeiten errechnen lassen, dann kann man die Käuferzuwächse unter Umständen mithilfe von Markovprozessen vorhersagen (vgl. Kapitel 16 dieses Buches). Eine Methode von Easingwood [15], die Ähnlichkeiten in den Diffusionsverläufen bestimmter Produkte ausnutzt, geht von keinerlei bekannten funktionalen Beziehungen aus und könnte daher zukunftsweisend sein: Zunächst werden aus den realen Absatzzahlen von Gebrauchsgütern, die ein ähnliches Profil der Marketing-Einflussgrößen aufweisen, durchschnittliche Parameterwerte für das NSRL-Modell (oder ein anderes flexibles Modell) errechnet und gespeichert (vgl. Abschnitt 11.4.4). Wird nun das Einflussgrößen-Profil eines neuen Produkts erkannt, so kann man mit den vorliegenden Parameterwerten sehr gut auf die neuen Absatzzahlen schließen, was Easingwood anhand von bestimmten Gebrauchsgütern zeigte. Es bietet sich hier an, mit Methoden der Mustererkennung zu experimentieren: Dabei trainiert man ein Künstliches Neuronales Netz mit Einflussgrößen-Profilen und zugehörigen Werten von Parametern flexibler Modelle (vgl. hierzu auch Kapitel 17 in diesem Buch). 11.10 Literatur [I] [2] [3] [4] [5] [6] [7]
[8] [9] [10] [II]
Ahl, D.H., New Product Forecasting Using Consumer Panels, Journal of Marketing Research 7 (1970), S. 160 ff. Bass, F.M., A New Product Growth Model for Consumer Durables, Management Science 15(1969), S. 215 ff. Bayus, B.L., The Consumer Durable Replacement Buyer, Journal of Marketing 55 (1991) 1,S. 42ff. Bertalanffy, L. von. Modern Theories of Development, New York 1934. Bewiey, R. und Fiebig, D.G., A Flexible Logistic Growth Model with Applications in Telecommunications. International Journal of Forecasting 4 (1988), S. 177 ff. Böhm, E., Modelle für Entwicklungsprognosen im Fernsprechwesen, Dissertation, Stuttgart 1969/70. Böhm, E. und Wacker, W., Wachstumsfunktionen mit Sättigungsverhalten und ihre Anwendung in ökonometrischen Prognosemodellen für den Fernsprechdienst, Archiv für das Post- und Fernmeldewesen 31 (1979), S. 305 ff. Bonus, H., Die Ausbreitung des Fernsehens, Meisenheim 1968. Chambers, J.C., Mullick, S.K. und Smith, D.D., How to Choose the Right Forecasting Technique, Harvard Business Review 49 (1971) 4, S. 45 ff. Chow, G.C., Technological Change and the Demand for Computers, The American Economic Review 57 (1967), S. 1116 ff. De Kluyver, CA., A Comparative Analysis of the Bass and Weibull New Product Growth Models for Consumer Durables, New Zealand Operational Research 10 (1982), S. 99 ff.
202
[12
[13:
[14
[15: [16
[17:
[18: [19: [2o: [21 [22 [23 [24
[25: [26:
[27: [28:
[29:
[3o: [31 [32 [33 [34 [35
Mertens, Falk Dichtl, E., Die Beurteilung der Erfolgsträchtigkeit eines Produktes als Grundlage der Gestaltung des Produktionsprogramms, Berlin 1970. Easingwood, CJ., Mahajan, V. und Muller, E., A Nonsymmetric Responding Logistic Model for Forecasting Technological Substitutions, Technological Forecasting and Social Change20(1981), S. 199 ff. Easingwood, C.J., Mahajan, V. und Muller, E., A Nonuniform Influenae Innovation Diffusion Model of New Product Acceptance, Marketing Science 2 (1983), S. 273 ff. Easingwood, C.J., An Analogical Approach to the Long Term Forecasting of Major New Product Sales, International Journal of Forecasting 5 (1989), S. 69 ff. Eskin, G.J., Dynamic Forecasts of New Product Demand Using a Depth of Repeat Model, Journal of Marketing Research 10 (1973), S. 115 ff. Fader, P.S., Forecasting New Product Trial in a Controlled Test Market Environment, Journal of Forecasting 22 (2003), S. 391 ff.; vgl. auch Fader, P.S. und Hardie, B.G.S., Forecasting Trial Sales of new Consumer Packaged Goods, in: Armstrong, J.S. (Hrsg.), Principles of Forecasting, Boston u.a. 2001, S. 613 ff. Fiedler, J., Prognosemethoden für die Bestands- und Absatzentwicklung neuer Produkte, Forschen-Planen-Entscheiden 3 (1967) 1, S. 13 ff. Fourt, L.A. und Woodlock, J.W., Early Prediction of Market Success for New Grocery Products, Journal of Marketing 25 (1960) 2, S. 31 ff. Gahse, S., Methode der langfristigen Bedarfsvorhersage bei vorhandener Sättigungsgrenze, Neue Betriebswirtschaft 12 (1964), S. 147 ff. Gierl, H., Diffusionsmodelle, Techniken zur Absatzprognose und Gestaltung der Absatzpolitik, Wirtschaftswissenschaftliches Studium 21 (1992), S. 382 ff. Greene, D.L. und Chen, C.K.E., Scrappage and Survival Rates of Passenger Cars and Light Trucks in the U.S. 1966-77, Transportation Research 15 (1981) 5, S. 383 ff. Hardie, B.G.S., Fader, P.S. und Wisniewski, M., An Empirical Comparison of new Product Trial Forecasting Models, Journal of Forecasting 17 (1998), S. 209 ff. Hesse, H.W., Kommunikation und Diffusion von Produktinnovationen im Konsumgüterbereich, Berlin 1987. Hoffer, G. und Reilly, R., Automobile Styling as a Shift Variable: An Investigation by Firm and by Industry, Applied Economics 16 (1984), S. 291 ff. Kamakura, W.A. und Balasubramanian, S.A., Long-term Forecasting with Innovation Diffusion Models: The Impact of Replacement Purchases, Journal of Forecasting 6 (1987), S. 1 ff. Kasper, E.F., Verschleißgrad und Austauschrate als Hilfe bei Absatzprognosen, Zeitschriftfür betriebswirtschaftliche Forschung 24 (1972), S. 281 ff. Kroeber-Riel, W. und Roloff, S., Zur Problematik von Wendepunkten in Trendfunktionen, dargestellt an einem Modell zur Prognose von Marktanteilen, Zeitschrift für betriebswirtschaftliche Forschung 24 (1972), S. 294 ff. Lawrence, K.D. und Lawton, W.H., Applications of Diffusion Models: Some Empirical Results, in: Wind, Y., Mahajan, V. und Cardozo, R.N. (Hrsg.), New Product Forecasting, Lexington 1981, S. 529 ff. Lewandowski, R., Systematik der langfristigen Prognose, Monographien zu den modernen Methoden des Managements, Nr. 1, Dortmund 1970. Lewandowski, R., Prognose- und Informationssysteme und ihre Anwendungen, BerlinNew York 1974. Lund, R., Making Products live longer, Technology Review 79 (1977), S. 49 ff. Mahajan, V., Muller, E. und Bass, F.M., New Product Diffusion Models in Marketing: A Review and Directions for Research, Journal of Marketing 54 (1990) 1, S. 1 ff. Mahajan, V. und Petersen, R.A., Innovation Diffusion in a Dynamic Potential Adopter Population, Management Science 24 (1978), S. 1589 ff. Mahajan, V. und Petersen, R.A., Models for Innovation Diffusion, Beverly Hills u.a. 1985.
Mittel- und langfristige Absatzprognose auf Basis von Sättigungsmodellen [36] [37] [38]
[39] [40]
[41] [42] [43] [44] [45]
[46] [47]
[48] [49]
[50] [51] [52] [53]
203
Martine, J.P., Technological Forecasting for Decision Making, 2. Aufl., New York u.a. 1983. Massy, W.F., Montgomery, D.B. und Morrison, D.G., Stochastic Models of Buying Behavior, Cambridge 1970. Meade, N. und Islam, T., Forecasting the Diffusion of Innovations: Implications for TimeSeries Extrapolation, in: Armstrong, J. S. (Hrsg.): Principles of Forecasting: A handbook for Researchers and Practitioners, Kluwer, Boston u.a. 2001. Meffert, H. und Steffenhagen, H., Marketing-Prognosemodelle, Stuttgart 1977. Mertens, P. und Rackelmann, G., Konzept eines Frühwarnsystems auf der Basis von Produktlebenszyklen, in: Albach, H., Hahn, D. und Mertens, P. (Hrsg.), Frühwarnsysteme, Ergänzungsheft 2/1979 der Zeitschrift für Betriebswirtschaft, Wiesbaden 1979, S. 70 ff. Oliver, F.R., Aspects of Maximum Likelihood Estimation of the Logistic Growth Function, Journal of the American Statistical Association 61 (1966), S. 697 ff. Olsen, J. und Chol, S., A Product Diffusion Model Incorporating Repeat Purchases, Technological Forecasting and Social Change 27 (1985), S. 385 ff. Parfitt, J.H. und Collins, B.J.K., Use of Consumer Panels for Brand-share Prediction, Journal of Marketing Research 5 (1968), S. 131 ff. Pfeiffer, W. und Bischof, P., Produktlebenszyklen - Instrument jeder strategischen Produktplanung, in: Steinmann, H. (Hrsg.), Planung und Kontrolle, München 1981, S. 133 ff. Raymond, J.E., Beard, R.T. und Gropper, D.M., Modelling the Consumer's Decision to Replace Durable Goods: A Hazard Function Approach, Applied Economics 25 (1993) 10, S. 1297 ff. Rogers, E.M., Diffusion of Innovations, 3. Aufl., New York 1983. Roos, C.F. und Szeliski, V. von, Factors Governing Changes in Domestic Automobile Demand, in: General Motors Corporation (Hrsg.), The Dynamics of Automobile Demand, New York 1939, S. 21 ff. (zit. nach [4]). Schmalen, H., Das Bass-Modell zur Diffusionsforschung, Zeitschrift für betriebswirtschaftliche Forschung 41 (1989), S. 210 ff. Schmalen, H., Binninger, F.-M. und Pechtl, H., Diffusionsmodelle als Entscheidungshilfe zur Planung absatzpolitischer Maßnahmen bei Neuprodukteinführungen, Die Betriebswirtschaft 53 (1993), S. 513 ff. Späth, H., Algorithmen für elementare Ausgleichsmodelle, München-Wien 1973. Steffens, P.R., An Aggregate Sales Model for Consumer Durables Incorporating a Timevarying Mean Replacement Age, Journal of Forecasting 20 (2001) 1, S. 63 ff. Ulrich, E. und Köstner, K., Prognosefunktionen, Beiträge zur Arbeitsmarkt- und Berufsforschung Nr. 27, Nürnberg 1979. Weblus, B., Zur langfristigen Absatzprognose gehobener Gebrauchsgüter, z. B. von Fernsehgeräten u. a. m., Zeitschrift für Betriebswirtschaft 35 (1965), S. 592 ff.
12 Indikatorprognosen von Norbert Niederhübner 12.1 Einführung Das Verfahren der Indikatorprognose versucht, zeitliche Strukturen (Lead-Lag-Beziehungen) zwischen volks- und betriebswirtschaftlichen Kenngrößen aufzudecken und mittels statistischer Methoden eine Vorhersage der zukünftigen Entwicklung einer Zielreihe abzuleiten. Diese Art der modellgestützten Datenanalyse ist damit den im Bereich der Konjunkturtheorie eingesetzten Multiplikator- und Akzeleratoranalysen verwandt, berücksichtigt also ökonomische Gesetzmäßigkeiten im Sinne logischer Konjunktionen. Ziel der Indikatorprognose ist es, die aktuelle wirtschaftliche Situation zwecks Absicherung der Verlaufsanalyse zu erklären, die Qualität der zukünftigen Entwicklung vorherzusagen und den Zeitpunkt von Tendenzwenden zu bestimmen. 12.2 Ablauf des Indikatorverfahrens Im ersten Schritt wählt man eine potenzielle Indikatormenge aus. Als fundamentale Eigenschaft für deren Elemente wird die theoretische Plausibilität gefordert, d. h., es muss zwischen Indikator und Zielreihe ein Erklärungszusammenhang bestehen. V
C
Bestimmen einer potenziellen Indikatormenge J ^
"
Ermitteln der Vorlauflänge
J
JüEingrenzen der Indikatormenge
J
41. Schätzen der Prognosefunktion
1
» Durchführen der Prognose
"" ^
1
m~ Überprüfen der Prognose
J
Abb. 1: Anwendung der Indikatormethode Nach Bestimmung der Vorlauflängen wird die Indikatormenge dahingehend eingeschränkt, dass die verbleibenden Indikatoren die Forderungen nach einem ausreichend starken Zusammenhang mit der Zielreihe sowie eines hinreichenden Vorlaufs zur Realisierung der angestrebten Prognosereichweite erfüllen. Schließlich wird aus den beob-
206
Niederhübner
achteten Vergangenheitswerten der Zielreihe die Prognosefunktion geschätzt, wobei man versucht, den nicht erklärten Anteil (repräsentiert durch die Störgröße e^) zu minimieren. Für die Prognose selbst wird dann unterstellt, dass der hergeleitete Zusammenhang zwischen der Zielreihe und den erklärenden Variablen zumindest für den Prognosezeitraum besteht. Diese Annahme ist - wie alle vorher getroffenen Entscheidungen - abschließend zu überprüfen. In Abschnitt 12.6 wird ein praktisches Beispiel für die beschriebene Vorgehensweise vorgestellt. In der Literatur findet sich mit [25] eine weitere, nahezu deckungsgleiche Anwendung des skizzierten Verfahrens. Gerade im Bereich der indikatorbasierten Prognose makroökonomischer Zahlenreihen existiert eine umfangreiche wissenschaftliche Literatur (siehe zum Beispiel [6], [7], [8] oder [9]). In Bezug auf den vorgestellten Ablauf des Indikatorverfahrens sind vor allem Variationen im Bereich der Auswahl des jeweils eingesetzten Prognoseverfahrens und der Prognosevalidierung, insbesondere in Hinblick auf die Berücksichtigung spezifischer Randbedingungen der jeweiligen Aufgabenstellung, festzustellen (siehe auch Abschnitte 12.4 und 12.5). Der aktuelle Stand der Forschung wird in [21] kritisch beleuchtet. Speziell der praktische Nutzen zusammengesetzter Indikatoren (und damit auch deren Einsatz im Rahmen einer kombinierten Prognose) wird von den Autoren Hendry und Clements in Frage gestellt. Interessant erscheinen in diesem Zusammenhang auch die Arbeiten von Emerson und Hendry [15] mit dem Ziel der Erkennung konjunktureller Wendepunkte mithilfe aggregierter Indikatoren. Das dort vorgestellte Verfahren versucht, mittels der Verknüpfung statistischer und ökonometrischer Modelle, eine geeignete Parametrisierung der Indikatorprognose abzuleiten. Die Autoren selbst räumen aber ein, dass weitere Arbeiten in diesem Bereich erforderlich wären, um dieses Ziel zu erreichen. Dieser theoretisch vielversprechende Ansatz kann wohl derzeit noch nicht als praxistauglich betrachtet werden, zumal sich die Autoren in den folgenden Jahren auf die Thematik „Strukturbruch" (insbesondere in Hinblick auf fehlerhafte Modelle mit systematischen Bias, siehe z. B. [22]) spezialisiert haben. Eine weitere Alternative stellt das multivariate Fehlerkorrekturmodell (VECM) dar [2], [28]. Es repräsentiert ein geeignetes Instrument, dynamische Beziehungen zwischen ökonomischen Größen zu spezifizieren, ohne dass über ihre Natur als endogene oder exogene Variable und über strukturelle Abhängigkeiten explizite Annahmen getroffen werden müssen. Die Praxisrelevanz der VECM zeigt sich auch darin, dass bereits verschiedene Programmpakete zur Zeitreihenanalyse diese Methode unterstützen (zum Beispiel JMulTi [24]). 12.3 Methoden der Lag-Bestimmung Der visuelle Vergleich der Indikatorreihen mit der Zielreihe liefert eine erste Abschätzung der Vorlauflänge und vermittelt eine grobe Vorstellung von der Stärke des Zusammenhangs zwischen den beiden Zeitreihen x^ und y^. Zur exakteren Bestimmung der Phasenverschiebung wird üblicherweise die Korrelationsanalyse angewandt. Ausgangspunkt dieser Technik ist die Schätzung des Lag-Korrelationskoeffizienten r^y, definiert durch (vgl. z. B. [23], S. 226):
Indikatorprognosen 1
n-k
n-k
ik):
i=l
n-k
\
n-k
\
E (v. . -yf
S(x^ - X) ' n-k
_
/=i
i
n-k
n-k
i=i
mit x=
207
'
^
_
n-k
M^*^'""^
\
n-k
n-k
i=\
I x , und y =
-^^
Zyt+k
Der für die Prognose maßgebliche Lag ergibt sich aus dem Wert des Parameters k, für den diese Funktion ihr Maximum annimmt. Hierin liegt aber auch der wesentliche Schwachpunkt der Methode; es wird nur ein durchschnittlicher Lead/Lag für das zugrunde gelegte Verschiebungsintervall ermittelt, Veränderungen im Zeitablauf werden nicht indiziert. Empirische Untersuchungen (vgl. [14] oder [12]) belegen aber, dass das Vorlaufverhalten von Indikatoren im Zeitablauf schwankt. Beispielsweise ist die Vorlauflänge abhängig von der aktuellen Konjunkturlage; in der Regel zeigt sich an den oberen Wendepunkten ein deutlich größerer Vorlauf als an den unteren. Für die Anwendung der Korrelationsanalyse spricht, dass gleichzeitig auch die Stärke des Zusammenhangs zwischen den beiden Zeitreihen ermittelt wird. Werte von r^^, die nahe bei den Extrema +1 bzw. - 1 liegen, deuten auf einen stark positiven bzw. negativen linearen Zusammenhang hin, Werte um Null auf Unkorreliertheit. Dormayer und Lindibauer [13] geben als Faustregel zur Beurteilung der Indikatorqualität eine am Korrelationskoeffizienten R nach Bravais-Pearson (folgt aus r^^ für k gleich Null) orientierte Klassifizierung an: \R\ > 0,8 0,8>|i?|>0,6 0,6>|i?|>0,4 0,4 > \R\ > 0,0
sehr guter Indikator guter Indikator durchschnittlicher Indikator schlechter/kein Indikator
Als weitere Technik zur Ermittlung der Phasenverschiebung ist die Methode der Kreuzspektralanalyse zu nennen (vgl. z. B. [23], S. 226). Sie erlaubt eine differenzierte Darstellung der Lead/Lag-Beziehungen nach verschiedenen Frequenzkomponenten. Aufgrund seiner Komplexität kann jedoch das Verfahren nicht automatisiert werden. Für die erforderliche Eingrenzung der Indikatormenge sind die bisher erhaltenen Informationen jedoch noch nicht aussagekräftig genug. Wie Abbildung 2 (in Anlehnung an [14]) verdeutlicht, ist zwischen dem potenziellen Vorlauf eines Indikators und der realisierbaren Prognosereichweite zu unterscheiden. 12.4 Prognoseverfahren 12.4.1 Regressionsanalyse In der Praxis wird meist der regressionsanalytische Ansatz zur Bestimmung der Prognosefunktion eingesetzt (siehe z. B. [26] oder [23]). Die zu ermittelnde Regressionsgleichung ist von folgender Gestalt (nach [14]):
208
Niederhübner yt=%
+ TciiXif_/, i=\
+et
mit:
yt ÜQ
Anzahl der Indikatoren Störgröße Vergangenheitswert in Periode / Regressionskonstante Regressionskoeffizienten {i = \,2,...,n) Indikator x, mit einem Vorlauf von h Perioden
Indikatorsignal thtt auf
)
J
Indikator wird veröffentlicht
Veröffentlichungs-Lag
Entwicklung tritt ein
realisierbare /Prognosereichweite ^
J
\
potenzieller Vorlauf
Abb. 2: Indikatorvorlauf und Prognosereichweite Zur Ermittlung der Regressionsparameter wird meist die Methode der kleinsten Quadrate eingesetzt (vgl. Kapitel 7). Die Beliebtheit der multiplen Regression erklärt sich zum einen aus der mathematischen Einfachheit des Verfahrens, zum anderen ist eine ökonomische Interpretation der Regressionskoeffizienten unschwer abzuleiten. Der Einfluss eines einzelnen Indikators auf die Zielreihe wird über den Wert des zugehörigen Regressionskoeffizienten repräsentiert. Allerdings treten bei der Anwendung der multiplen Regression eine Reihe technischer Probleme auf, deren Auswirkungen oft unterschätzt werden (z. B. Multikollinearität, d. h. hohe Interkorrelation zwischen den unabhängigen Variablen); eine ausführliche Diskussion findet sich unter anderem bei Makridakis und Wheeiwright [26]. 12.4.2 Multivariate ARIMA-Modelle Die von Box und Jenkins entwickelten ARIMA-Modelle (autoregressive integrated moving average) umfassen eine allgemeine Klasse stochastischer Prozesse zur Beschreibung von Zeitreihen. Dieser Ansatz wird in Kapitel 14 ausführlich behandelt. Die Erweiterung auf multivariate ARIMA-Modelle (bzw. Transferfunktionsmodelle, vgl. [19], S. 217) erlaubt zusätzlich, erklärende Variablen einzubeziehen (zur Vereinfachung der Darstellung sei die Stationarität der Zeitreihen vorausgesetzt):
yt -ßo^iy~'{B) i=\
(D^(5) x^, + (l)-\B) @{B)^e,
Indikatorprognosen
209
Dabei repräsentieren die Filtersequenzen T~\B) 0 ^ ( 5 ) den Einfluss des Indikators / auf die abhängige Variable; sie stellen konzeptionell den Zusammenhang zu den unter Abschnitt 12.3 abgeleiteten Lag-Strukturen her. In der Praxis werden in diesem Bereich häufig die frei verfügbaren Programme TRAMO und SEATS [18] eingesetzt. Unter der Bezeichnung TERROR („TRAMO for ERROR") existiert zusätzlich eine Weiterentwicklung zur automatischen Auswahl des ARIMAModells, die insbesondere für Anwendungsszenarios mit fehlenden Datenwerten, Ausreißern und saisonalen Effekten einsetzbar ist [10]. 12.4.3 Kombinierte Prognosen Besitzt man nun mehrere Vorhersagen für die interessierende Größe, die jeweils auf unterschiedlichen (nicht notwendigerweise disjunkten) Informationsmengen beruhen, so kann angenommen werden, dass aus einer Kombination dieser Vorhersagen verbesserte Prognosen resultieren. Als Kombinationsmethode ist eine gewichtete Durchschnittsbildung denkbar, dabei sind die Gewichtungsfaktoren der Einzelvorhersagen als Repräsentanten des jeweiligen Informationsgehalts zu verstehen. Von Granger und Newbold [19] oder auch Winkler und Makridakis [30] wurden verschiedene Alternativen zur Bestimmung der Gewichte auf ihre Eignung hin untersucht. Beide Veröffentlichungen weisen darauf hin, dass in der Praxis kaum Unterschiede in der Leistungsfähigkeit der verschiedenen Gewichtungsmethoden festzustellen sind. Jedoch wurden leichte Vorteile für diejenigen Verfahren verzeichnet, welche die Gewichte proportional zum Kehrwert der Summe der quadrierten Fehler ansetzen. Folgende Formel zählt zu dieser Klasse:
\^J=\\t=n-S
mit: ^^'^ M S
= = =
Gewicht der Einzelprognose / Anzahl der verfügbaren Einzelprognosen Reagibilitätsparameter
Damit ergibt sich die kombinierte Prognose zu y^ = Z % yl! Der Parameter S steuert die Reagibilität des Verfahrens, d. h., die Wahl von S beeinflusst die Verzögerung, mit der das Verfahren auf Instationaritäten reagiert. Eine Vielzahl weiterer Varianten zur Bildung der kombinierten Prognose werden in der Bibliographie von Trenker und Gotu [29] referenziert. Sehr oft aber werden jedoch nur spezielle Anwendungsfälle mit ganz spezifischen Randbedingungen behandelt (unter anderem hinsichtlich bestimmter Verteilungsfunktionen oder der Korrelation zwischen erklärenden Variablen), siehe zum Beispiel [31] oder [16]. Regelbasierte Kombinationsmethoden (vor allem Arbeiten im Umfeld von J. Armstrong [1], [5]) repräsentieren wohl die interessanteste Weiterentwicklung in diesem Bereich. Auch der Einsatz neuronaler Netze stellt eine interessante Alternative dar (vgl. [27]). Ansonsten sind gegen-
210
Niederhübner
über [11] kaum Beschreibungen allgemein einsetzbarer Verfahren in der neueren Literatur zu finden. 12.5 Validierung der Prognosen Dieser Abschnitt behandelt Ansätze zur Beurteilung der Prognosegüte und der Überwachung der Prognosemodelle. Es wird dabei nicht auf die statistischen Einzelheiten der Modellverifikation (Signifikanzprüfung der Modellparameter, Kontrolle der WhiteNoise-Eigenschaften für die Residuen usw.) eingegangen. Sie werden z. B. in [19] und [26] ausführlichst behandelt. Zudem ist die Modellvalidierung in der Praxis technisch relativ problemlos möglich (zumindest für die hier relevanten Verfahren), da exakte Regeln zur Durchführung bekannt sind. Definiert man den Prognosefehler e^ als Abweichung der prognostizierten Entwicklung Pf von der tatsächlich eingetretenen y^, so können die bekannten Fehlermaße, wie z. B. der mittlere quadratische Fehler oder die mittlere absolute prozentuale Fehlerabweichung (vgl. hierzu Kapitel 19), zur quantitativen Abschätzung der Prognosegüte bestimmt werden. Wie die unter Abschnitt 12.1 entwickelte Aufgabenstellung zeigt, interessiert man sich jedoch primär für die Frage, inwieweit die Tendenz der Entwicklung getroffen wurde und wie exakt die Vorhersage von Wendepunkten erfolgte. Erste Hinweise in dieser Richtung erhält man, wenn der Theilsche Ungleichheitskoeffizient C/^ zur Beurteilung der Prognosequalität herangezogen wird. (Eine weitergehende Diskussion findet sich in [20].) o
LyPt
f/2 = i ^ L -
yt)
V -V
mit
y, = ^'
^'-'
n
und
p, = P'
-V
^'-'
t=\
Für perfekte Prognosen (also bei Übereinstimmung von prognostizierten und beobachteten Werten) nimmt U den Wert Null an. Ergeben sich für U Werte größer als Eins, so ist dies so zu interpretieren, dass die naive „no change"-Prognose die tatsächlich eingetretene Entwicklung besser als das untersuchte Prognoseverfahren vorhergesagt hat. Das einem Prognose-Realisations-Diagramm zugrunde liegende, sehr anschauliche Prinzip verdeutlicht Abbildung 3 (nach [20]). Als Variante kann der für die Veränderungen relevante Wertebereich in Intervalle eingeteilt sein. Diese repräsentieren dann die qualitative Tendenz der Entwicklung. Die Bewertung einer Prognose orientiert sich daran, ob die beobachtete und die prognostizierte Veränderung der Zielreihe in dasselbe Intervall fallen. Aus den Verfahren zur Beurteilung der Prognosequalität lassen sich verschiedene Alternativen zur Überwachung der Prognosemodelle ableiten. Das grundlegende Verfahren dazu ist das Schwellenwertkonzept (vgl. [14]).
Indikatorprognosen
^t
Überschätzung
211
^^^^^^^, perfekten F
Wendepunktfehler / / 1 / / Überschätzung
Unterschätzung
/
/
+
1 "^
^^
yt
'
/
Wendepunktfehler
/ y '
Unterschätzung
/ Abb. 3: Prognose-Realisations-Diagramm Neben den hier vorgestellten Verfahren zur Beurteilung der Prognosegüte existiert eine ganze Palette weiterer Gütemaße, die je nach Anwendungsfall und Untersuchungsziel die Bewertung relevanter Qualitätseigenschaften einer Prognose unterstützen (siehe zum Beispiel [4]). Einen Überblick zu dieser Thematik vermittelt die Veröffentlichung von Andres und Spiwoks [3]. 12.6 Ein Beispiel Im Rahmen des Projekts „Wissensbasierte Systeme zur Auftragseingangsanalyse und -Prognose" im Bereich Wirtschaftsinformatik I der Universität Erlangen-Nürnberg wurde in Zusammenarbeit mit einem deutschen Großunternehmen die Indikatormethode als Basis der Prognosekomponente eingesetzt. Der erste Schritt bestand in der Auswahl einer potenziellen Indikatormenge für die auf der untersten Ebene nach Wirtschaftsregionen und Kundengruppen strukturierten Zeitreihen der Auftragseingänge (AE). Hierzu wurde ein Sortiment von ca. 100 volkswirtschaftlichen Zahlenreihen untersucht, wie sie beispielsweise vom Statistischen Bundesamt oder dem Ifo-Institut regelmäßig veröffentlicht werden (z. B. Auftragseingang des Grundstoff- und Produktionsgütergewerbes, Ifo-Geschäftsklimata, Zentralbankgeldmenge oder Gesamtgeschäft der verarbeitenden Industrie in den USA). Die Vorauswahl orientierte sich dabei a priori an der theoretischen Plausibilität, d. h., die Möglichkeit eines Erklärungszusammenhangs musste gegeben sein. Zusätzlich wurden einige synthetische Indikatoren konstruiert. Da die Kundenstruktur aus der AE-Hierarchie abzuleiten ist, konnten verschiedene Branchenindikatoren erfolgreich zu aussagekräftigen Gesamtindikatoren aggregiert werden; dabei entsprach die Zusammenstellung dem relativen Anteil der zugehörigen Kundengruppe am Gesamtumsatz. Zunächst wurden die Zeitreihen zerlegt und gleitende Durchschnitte der Ordnung zwölf gebildet, um die glatten Komponenten (Trend und Konjunktur) zu extrahieren. Anschließend diente ein visueller Vergleich der AE- mit den Indikatorreihen einer ersten
212
Niederhübner
Eingrenzung der potenziellen Indikatormenge. Mithilfe der Kreuzkorrelationsanalyse bestimmte man dann die jeweilige Vorlauflänge und die Stärke des Zusammenhangs zwischen und AE- und Indikatorreihe. In die weitere Untersuchung wurden nur noch Indikatoren einbezogen, mit deren Hilfe über mindestens sechs Monate prognostiziert werden konnte. Für die Bildung von Indikatorgruppen wurden die erklärungsstärksten Indikatoren zur jeweiligen Zielreihe ausgewählt und schließlich die Indikatorkombinationen aus zwei bzw. drei Elementen mit dem besten Anpassungsgrad des jeweils resultierenden ARIMA-Modells in das Prognosesystem übernommen. Der Korrelationskoeffizient R lag für die so ermittelten Indikatoren im Bereich von 0,73 bis 0,90. Anschließend wurden für eine 24-monatige Validierungsperiode ex post Prognosen erstellt. Die erreichte Genauigkeit der Vorhersage wird durch die mittlere absolute prozentuale Fehlerabweichung dokumentiert. Sie betrug im Durchschnitt ca. 1,5 %. Der Nutzeffekt des Prinzips der kombinierten Prognose zeigte sich dabei an einem Vergleich mit dem entsprechenden Fehlermaß für die Einzelprognosen (zwischen 1,97 und 2,34 %). Die maximal aufgetretene absolute Fehlerabweichung lag bei 3,51 % für die kombinierte Prognose. Diese Zahlen waren jedoch noch über einen Vergleich mit der No-Change-Prognose zu relativieren. Für diese naive Vorhersagetechnik wurden mittlere Abweichungen um 3 bis 4 % ermittelt, dabei lag die maximale Abweichung bei 7,63 %. Um zu überprüfen, inwieweit die kombinierte Prognose die qualitative Tendenz der AEEntwicklung getroffen hat, wurde eine siebenstufige Intervallstruktur gebildet. Die zugehörigen Veränderungsraten des Auftragseingangs sind als leichter/mittlerer/starker Aufschwung bzw. Abschwung oder Stagnation zu interpretieren. In ca. 60 % der Validierungsfälle lagen prognostizierte und tatsächlich eingetretene Veränderung im selben Intervall; eine Fehleinschätzung um mehr als eine Stufe trat nicht auf. 50,000
20.000 15,000
1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988
Abb. 4: AE-Reihe und aggregierter Gesamtindikator In der Phase der Indikatorsuche wurde auch die Beobachtung gemacht, dass zur Absicherung der Verlaufsanalyse für nahezu alle betrachteten AE-Reihen relativ gute, gleichlaufende Indikatoren verfügbar waren. Im Beispiel der Abbildung 4 treten im Zeit-
Indikatorprognosen
213
räum 1985 bis 1987 deutliche Verlaufsdivergenzen auf. In diesem Fall konnte die zeitweilige Unterbrechung der Indikatorbeziehung unter anderem auf eine unternehmensspezifische Ausnahmesituation in bestimmten Teilbereichen zurückgeführt werden. Im Rahmen der Untersuchung hat sich erwartungsgemäß gezeigt, dass für höher aggregierte AE-Reihen leichter Indikatoren zu finden sind, da diese AE-Reihen eher den gesamtwirtschaftlichen Bewegungen folgen. Desgleichen beeinflusst die Produktionsstufe eines Branchenindikators den erreichbaren Prognosehorizont. Diese Erfahrungen decken sich mit dem Ergebnis anderer empirischer Untersuchungen, wie sie beispielsweise von Fuchs [17] für den Bereich der kurzfristigen Produktionsentwicklung durchgeführt wurden.
12.7 Literatur [I]
[2] [3]
[4] [5] [6] [7] [8] [9]
[10] [II] [12] [13]
[14] [15] [16]
Adyaa, M., Armstrong, J., Collopy, F. und Kennedy M., An application of ruie-based forecasting to a Situation lacking domain knowledge, International Journal of Forecasting 16(2000), S. 477 ff. Allen, D. und Gandiya, F., Assessing Exchange Rate Hypotheses within Southern Africa, Aldershot 2004, S. 66 ff. Andres, P. und Spiwoks, M., Prognosegütemaße - State of the Art der statistischen Expost-Beurteilung von Prognosen, Sofia-Studien zur Institutionenanalyse, Darmstadt 2000. Armstrong, J., Correspondence On the Selection of Error Measures for Comparisons Among Forecasting Methods, Journal of Forecasting 14 (1995), S. 67 ff. Armstrong, J. (Hrsg.), Principles of Forecasting: A Handbook for Researchers and Practitioners, Kluwer Academic Publishers2001. Bandholz, H. und Funke, M., In Search of Leading Indicators of Economic Activity in Germany, Journal of Forecasting 22 (2003), S. 277 ff. Benner, J. und Meier, C.-P., Prognosegüte alternativer Frühindikatoren für die Konjunktur in Deutschland, Institut für Weltwirtschaft, Kiel 2003. Breitung, J. und Jagodzinski, D., Prognoseeigenschaften alternativer Indikatoren für die Konjunkturentwicklung in Deutschland, Konjunkturpolitik 47 (2002), S. 292 ff. Camba-Mendez, G., Smith, R., Kapetanios, G. und Weale, M., An Automatic Leading Indicator of Economic Activity: Forecasting GDP Growth for European Countries, Econometrics Journal 4 (2001), S. 56 ff. Caporello, G. und Maravall, A., A Tool for Quality Control of Time Series Data - Program TERROR, Banco de Espana 2002. Giemen, R., Combining forecasts. International Journal of Forecasting 5 (1989), S. 559 ff. Dhrymes, P.J., Distributed Lags: Problems of Estimation and Formulation, San Francisco 1971. Dormayer, H.-J. und Lindibauer, J.D., Sectoral Indicators by Use of Survey Data, in: Oppenländer, K.H. und Poser, G. (Hrsg.), Leading Indicators and Business Cycle Surveys, Aldershot 1984, S. 467 ff. Dormayer, H.-J., Konjunkturelle Früherkennung und Flexibilität im Produktionsbereich, Dissertation, München 1985. Emerson, R. und Hendry, D., An Evaluation of Forecasting using Leading Indicators, Journal of Forecasting 15 (1996), S. 271 ff. Fang, Y., Forecasting Combination and Encompassing Tests, International Journal of Forecasting 19 (2003), S. 87 ff.
214 [17] [18]
[19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [31]
Niederhübner Fuchs, W., BOX-JENKINS-Prognosen der kurzfristigen Produktionsentwicklung, Dissertation, Köln 1989. Gömez, V. und Maravall, A., Programs TRAMO (Time series Regression with Arima noise, Missing observations, and Outliers) and SEATS (Signal Extraction in Arima Time Series), Working Paper 9628, Banco de Espana 1996. Granger, C.W. und Newbold, P., Forecasting Economic Time Series, New York 1977. Heilemann, U., Zur Prognoseleistung ökonometrischer Konjunkturmodelle für die Bundesrepublik Deutschland, Berlin 1981. Hendry, D. und Clements, M., Economic forecasting: Some lessons from recent research, ECB Working Paper No. 82, Economic Modelling 2002. Hendry, D. und Clements, M., Pooling of Forecasts, Econometrics Journal 5 (2002), S. 1 ff. Hilber, G., Mittelfristige Prognose mit Hilfe der Indikatormethode, in: Mertens, P. (Hrsg.), Prognoserechnung, 4. Aufl., Würzburg 1981, S. 225 ff. Jmulti, Applying Multiple Time Series with JAVA, Humboldt-Universität Berlin 2001. Lebrun, I., Le Systeme d'indicateurs avances du BfP, Bureau federal du Plan, Bruxelles 1999. Makridakis, S. und Wheeiwright, S.C., Interactive Forecasting: Univariate and Multivariate Methods, 2. Aufl., San Francisco 1978. Qi, M., Predicting U.S. Recessions with Leading Indicators via Neural Network Models, International Journal of Forecasting 17 (2001), S. 383 ff. Silber, F., Alternative Konzepte zur Anpassungsanalyse in Vektor-FehlerkorrekturModellen, FEMM Working Paper 21/2000, Magdeburg 2000. Trenkler, G. und Gotu B., Combination of Forecasts: A Bibliography, Technical Report SFB 475, Universität Dortmund 1998. Winkler, R.L. und Makridakis, S., The Combination of Forecasts, Journal of the Royal Statistical Society A 146 (1983), S. 150 ff. Yang, Y., Combining Forecasting Procedures: Some Theoretical Results, Proceedings ICML-00, 17th International Conference on Machine Learning 2000, S. 1167 ff.
13 Lineare Filter und integrierte autoregressive Prozesse von Klaus Hansen 13.1 Einleitung Mit der Filterung von Zeitreihen verfolgt man sehr unterschiedliche Ziele. Filter eignen sich als Prognosemodell sowie zur Schätzung und Elimination von Instationaritäten wie Trend- und Saisonkomponenten. Die Eigenschaft von Filtern, irreguläre Zeitreihenkomponenten beseitigen zu können, wird bei integrierten autoregressiven Prognosemodellen verwendet. Deshalb stellen wir im zweiten Abschnitt die Theorie der linearen Filter dar und behandeln darauf aufbauend im dritten Abschnitt die von Box und Jenkins entwickelten ARIMA(autoregressive integrated moving average)-Verfahren [3]. 13.2 Lineare Filter Filter dienen zur Trennung von Erwünschtem und UnenA/ünschtem, z. B. Lichtfilter zum Aussieben oder Schwächen eines bestimmten Spektralbereiches aus einer einfallenden Strahlung, Akustikfilter zur Abtrennung von Schallfrequenzen aus einem Frequenzgemisch oder Bandpassfilter in der Fernmeldetechnik zum Unterdrücken, Durchlassen oder Hervorheben eines bestimmten Frequenzbandes. Wie mit diesen technischen Filtern kann man auch mit mathematischen Filtern unerwünschte Störungen beseitigen. Ein einfacher mathematischer Filter ist der in Kapitel 2.3.2 dargestellte gleitende Durchschnitt, bei dem die glättende Wirkung aufgezeigt wurde. Gleitende Durchschnitte können aber nicht nur glätten, sondern auch Kontraste verstärken. Glättung und Kontrastverstärkung bezeichnet man als Filterung und die Gewichte /o,/_!,...,/_^ des gleitenden Durchschnitts als linearer Filter.
3 2 1 "T"
2
4
6
7
8
10
11
'i
Abb. 1: Gefilterte periodische Zeitreihe Betrachten wir als Beispiel die periodische Zeitreihe 6; 4; 6; 4; ... der Abbildung 1. Wir erhalten in Tabelle 1 mithilfe des Filters {/^ = 0,25;/_i = 0,25;/_2 = 0,5} die geglättete Zeitreihe 5,5; 4,5; 5,5; 4,5; ... (gestrichelte Linie in Abbildung 1).
216
Hansen
\xi
6-0,5 +
X2
X3
X4
4-0,25 + 4-0,5 +
6 • 0,25 6-0,25 + 6-0,5 +
X5
^5
= 5,5 4-0,25 = 4,5 4-0,25 + 6 • 0,25 = 5,5 4-0,5 + 6-0,25 + 4 - 0,25 = 4,5 Tab. 1: Glätten der Zeitreihe 6; 4; 6; 4;... mit dem linearen Filter {0,25; 0,25; 0,5} Wenn wir die geglättete Zeitreihe mit den Gewichten /Q = 0, f_i = -0,5, /_2 =1,5 filtern, dann erhalten wir die ursprüngliche Reihe zurück (Tabelle 2). Dieses Filter wirkt also kontrastverstärkend. Xi
X2
^3
X4
5,5- 1,5 +
4,5- -0,5 + 4,5- 1,5 +
5,5- 0 5,5 - -0,5 + 5,5- 1,5 +
4,5 - 0 4,5 - -0,5 + 4,5- 1,5 +
X5
Xg
5,5 -0 5,5--0,5 +
4,5-0
= = = =
6 4 6 4
Tab. 2: Kontrastverstärken der Zeitreihe 5,5; 4,5; 5,5; 4,5;... mit dem linearen Filter {0;-0,5; 1,5} Weil lineare Filter glätten und verstärken können, sind sie in zahlreichen Fällen eine geeignete Rechentechnik zur und in der Zeitreihenprognose. Allgemein lässt sich das Filtern einer Zeitreihe Xi,...,Xn in der Form +p
^t - Z^fs^t+s
für
t = q + \,"',n-p
(1)
s=-q
darstellen. Das Gewicht fg heißt linearer Filter. Häufig werden Filter nacheinander, in Serienschaltung, auf eine Zeitreihe angewandt. Das Ergebnis einer Serienschaltung ist wieder ein linearer Filter. Zwei in Serie geschaltete Filter mit den Gewichten
/ii>;...;/i'> und /_?V-;//^' ergeben einen Filter mit den Gewichten
ff^=
i / i ^ V ) 3 für y = -m-/,...,a + Z)
(2)
Wendet man (2) auf das Beispiel in Tabelle 1 und Tabelle 2 an und setzt man dabei /s = 0 f ü r a l l e s < - 2 , so ergibt sich ^(3) _ y
A\) Al)
_ A\) Al) , ^(1) Al) , A\) Al)
s=-3
= 0-0 + 0,5-0 + 0,25-0 + 0,25-0 = 0
s=-3
A\) Al)
Lineare Filter und integrierte autoregressive Prozesse
217
= 0-l,5 + 0,5-0 + 0,25-0 + 0,25-0 = 0
s=-3
- 0-(-0,5) +0,5-1,5+ 0,25-0 +0,25-0 = 0,75
= 0-0 +0,5 •(-0,5) + 0,25-l,5 +0,25-0 = 0,125
= 0-0 +0,5-0 +0,25-(-0,5) + 0,25-1,5 = 0,25
s=-3
= 0-0 +0,5-0+ 0,25-0 + 0,25-(-0,5) =-0,125
= 0-0 + 0,5-0 + 0,25-0 + 0,25-0 = 0 Man erkennt, dass der Filter mit den neu gebildeten Gewichten
fj'\
7 = -6,-,0
die Reihe 6; 4; 6; 4; ... in Übereinstimmung mit den Ergebnissen in den Tabellen 1 und 2 nicht verändert. 13.2.1 Differenzenfilter Weist eine Zeitreihe Xi, X2, ..., Xn einen Trend auf, so kann dieser durch die Bildung der ersten Differenzen eliminiert werden: ^t=^^t=^t-^t-i
(3)
Er entspricht einem linearen Filter mit den Gewichten: /_i=-lund/o=l
(4)
Eine ideale Zeitreihe mit einem linearen Trend lässt sich durch die Funktion
darstellen. Bildet man entsprechend der Vorschrift (3) die ersten Differenzen, so erhält man: Xf-Xf_i=[ai't
+ a2] - [ay{t-l)
+ a2] = ai
218
Hansen
Dasselbe Ergebnis ergibt sich durch eine Filterung mit den Gewichten (4). Für das Beispiel Xf =2-t
+3
sind die Ergebnisse einer ersten Differenzenfilterung in Tabelle 3 enthalten. t
Xt
Xt — X t . 1
0 1 2 3 4 5
3 5 7 9 11 13
2 2 2 2 2
Tab. 3: Vx^ für x^=2-/ + 3 Durch zweite Differenzen
= x^ - 2 •x^_j + Xj_2
wird ein quadratischer Trend eliminiert. Ihm entspricht eine Filterung mit den Gewichten /_,=!;/_, = -2;/o=l
(5)
Die Gewichte lassen sich auch unmittelbar mithilfe von (2) und (4) ermitteln: l2=
i ; / . / - 2 - . = / - l / - l + / o / - 2 = ( - l ) - ( - l ) + l-0 = l
ll=
Z / , / _ ! _ , = / _ i / _ o + / o / - l = ( - l ) - l + l-(-l) = -2
fo= i;/./-.=/-i/i+/o/o=(-i)-o+M=i s=-l
Betrachtet man die ideale Zeitreihe mit quadratischem Trend X( = ai t
2
+ ^2
und filtert mit den Gewichten (5) bzw. bildet man die zweiten Differenzen, dann ergibt sich: [xt-Xt_i]-[xf_^-Xf_2]
=
(ai ?- +a2)-2(ai{t-lf
+ a2) +ai(t-2f
Wählt man für diesen Fall als Beispiel Xf=2't^
+\,
so erhält man die Ergebnisse der Tabelle 4.
+ a2 =2 a^
Lineare Filter und integrierte autoregressive Prozesse t
Xt
0 1 2 3 4
1 3 9 19 33
^
max(q, p + l) Wegen (20) bzw. (21) konvergieren die C^ bzw. D^ für /->oo geometrisch gegen 0. Für viele praktische Fälle ist diese Konvergenz sogar sehr schnell, sodass man oft mit relativ kleinen „Anfangsausschnitten" aus (32) und (33) eine hinreichend genaue Approximation für den Prädiktor aus unendlicher Vergangenheit erhält. Eine zweite Möglichkeit der praktischen Berechnung ist die Verallgemeinerung der in (30) und (31) beschriebenen Iteration auf den ARMA-Fall. Durch Bildung der Prädiktoren auf beiden Seiten von (18) erhält man wegen der Linearität der Projektion:
j;,AM^-i) i=0
wobei
1
= J]B^eit,T-i)^ /=0
(34)
Prognose uni- und multivariater Zeitreihen
s(t,T-i) = \ [ 0, X(t,T-i)
247
(35) für r - / > 0
= X(t-\-T-i),
für T-i0 und ^^_^, / > 0 , so erhält man auf diese Weise eine Approximation für den Prädiktor. Dies ist nur eine Approximation, da die unbekannten Anfangswerte bei dieser Prozedur gleich Null gesetzt wurden. Für genügend großes t ist ihr Einfluss allerdings gering. Betrachten wir als Beispiel ein einfaches ARMA-System mit n = l, p = q = l: X^ + aX^_^ = ^/ + bSj_^ .
(37)
für die Einschrittprognose gilt
X{t,\) = -aX^+b6^ = -aX^ + bX^ + abX^_^ - b s^_^ = i-a + b)X^ + {-a + b){-b)X^_, +...
(38)
^{-\y-'ab'X,+{-\yb'''s, und wir setzen XQ=0 erhält man aus
und wie bereits zuvor erwähnt £Q=Q. Die Zweischrittprognose
X{t,2) = {-a + b)X{t,\) + abX^ +..., usw. 14.5 Die Schätzung der Prädiktoren für ARMA-Systeme In der Praxis sind die C^ bzw. / unbekannt und müssen aus den Beobachtungen geschätzt werden. Dadurch kommt zu dem vorher beschriebenen Prognosefehler im Fall bekannter zweiter Momente ein weiterer Prognosefehler hinzu. Die Komponente des Prognosefehlers kann bei endlichen Stichproben erheblich sein, geht aber bei Konsistenz der Schätzer mit wachsender Stichprobe gegen Null. Das Schätzproblem ist der vielleicht schwierigste Teil des Prognoseproblems. Bei ARMA-Modellen liegt es nahe, nicht die C. oder / direkt zu schätzen, sondern A^, B. und Z und, falls unbekannt, p und q . Das bietet den Vorteil, dass für vorgeschriebenes p und q der Parameterraum Teilmenge des Euklidischen Raums ist, was die Schätzung sehr vereinfacht. Wir behandeln zunächst den Fall, dass p und q a priori bekannt sind. Das Problem der Schätzung ist sehr eng mit dem zweiten Schritt des Identifizierbarkeitsproblems verzahnt, also dem Problem der eindeutigen Festlegung von 4 und B^ ^. Dieses Identifizierbarkeitsproblem ist im mehrdimensionalen Fall bedeutend Hannan und Deistler [21] bzw. Ljung [29] geben eine ausführliche Darstellung der hier zusammengefassten Ergebnisse.
248
Deistler, Neusser
schwieriger zu lösen als im eindimensionalen Fall. Die wichtigsten Beiträge hierzu stammen von Hannan [18]. Einfache, jedoch nicht ganz allgemeine, hinreichende Bedingungen zur Identifizierbarkeit sind: (39) A(z) und B(z) sind relativ linksprim
(40)
(A^^B^) hat Rang n
(41)
Bedingung (40) bedeutet, dass alle gemeinsamen Linksteiler von A(z) und B{z) unimodular sind, das ARMA-System daher keine künstlich aufgeblähte Dynamik besitzt.^ Das am häufigsten verwendete Schätzverfahren erhält man aus der Gauß'schen Likelihoodfunktion Lj^: (42)
- | l n Z , ( Ö ) = l l n d e t r , ( ö ) + lx'(T)r-^(ö)X(T)
Die Optimierung dieser Funktion ergibt den Maximum-Likelihood-Schätzer (ML-Schätzer). Dabei enthält der Parametervektor 0 die freien, d. h. unabhängig wählbaren Parameter in 4 , El und Z in einer bestimmten Anordnung, und wir wählen folgende Notation:
^x^ X(T) =
T,(d) = \^TJ
Km ro(T-l)
r.(i) ro(0) 7e(T-2)
re(T-\) 7e(T-2)
reiß) .
wobei y0{s) die Kovarianzfunktion eines ARMA-Prozesses mit dem Parametervektor e darstellt. In den meisten Fällen erhält man eine Approximation des ML-Schätzers durch die numerische Optimierung der Funktion Z^. Unter den Identifizierbarkeitsannahmen lässt sich mit einigen weiteren Voraussetzungen zeigen, dass der ML-Schätzer konsistent und asymptotisch normal ist (vgl. [21]). Betrachten wir nun den Fall, dass p und q unbekannt sind. Hier gibt es zwei Fehlermöglichkeiten: entweder sind die p und q zu groß („overfitting") oder p oder q sind zu klein („underfitting") gewählt. Im Fall von „overfitting" ist der ML-Schätzer im Allgemeinen nicht mehr konsistent für die 4 und B^, wohl aber für die Q . Mit anderen Worten, bei „overfitting" geht wohl die Konsistenz für die wahren Parameter 4 und B^ verloren, der ML-Schätzer konvergiert aber gegen die wahre Äquivalenzklasse, d. h. gegen die Menge aller 4 und B^, die nach (23) die wahren Q ergeben. Die Q und damit die Prognosefunktion werden konsistent geschätzt. Das Schätzproblem ist also für die Prognose in diesem Sinne gutmütiger als für die Parameter 4 und B^. Eine Polynommatrix U{z) heißt unimoduiar, falls det[/(z) = konstant ^^0 . Im Fall (37) würde künstlich aufgeblähte Dynamik bedeuten a = b^O . Siehe Hannan und Deistler [21] für eine eingehende Diskussion.
Prognose uni- und multivariater Zeitreihen
249
Wir erläutern diesen Sachverhalt anhand des eindimensionalen ARMA-Systems mit der Spezifikation (37). Gilt für das wahre System a = b = 0, so konvergiert der MLSchätzer im Allgemeinen nicht gegen a = b = 0, sondern nur gegen die Gerade a = b mit der Einschränkung |a|^ abhängt. Zukünftige Werte des Prozesses (Z^) verbessern diese Approximation nicht. Diese Definition der Exogenität entspricht dem Kausalitätskonzept von Granger [16] (siehe [34] und [35]). Diese Definition kann direkt für einen Test (Kausalitätstest) verwendet werden, bei dem man in der Regression
252
Deistler, Neusser
X,= ^ A Z , - , + " . i=-N
die Koeffizienten /?,, z7 A,2lnP R U
1 1.77 0.26 0.23 0.18
Prognosehorizont (in Monaten) 2 3 4 6 8 1.96 2.15 2.62 3.31 3.76 0.35 0.45 0.52 0.63 0.68 0.39 0.47 0.55 0.72 0.82 0.43 0.44 0.30 0.39 0.43
12 4.63 0.73 0.88 0.42
Tab. 1: Prognosegüte (RMSE) für verschiedene Prognosehorizonte Bei VAR-Modellen wirkt sich besonders die Überparametrisierung negativ auf die Prognosegüte aus (siehe [14] und [27]). Eine Methode zur Lösung dieses Problems besteht darin, statistisch nicht signifikante Koeffizienten zu eliminieren. Dieses einfache heuristische Verfahren kann die Prognosegüte bereits deutlich verbessern. Eine andere bewährte Methode besteht darin, Bayesianische Verfahren zu venA/enden, um a priori Information besser berücksichtigen zu können (siehe [28] und [36]). Außer rein statistischen Verfahren kann auch die ökonomische Theorie zur Gewinnung von a priori Information beitragen. Diese ist jedoch bezüglich der Dynamik der Variablen meist wenig informativ. 14.8 Absatzprognose Prognosen gesamtwirtschaftlicher Größen, wie sie im vorigen Abschnitt besprochen wurden, waren lange Zeit die in der Ökonometrie dominierenden Prognosen. In den letzten zwanzig Jahren haben jedoch ökonometrische Prognosemethoden und Modelle im Finanzmarkt- und Unternehmensbereich stark an Bedeutung gewonnen. Die Finanzmarktökonometrie hat durch die große Nachfrage nach empirischen Analysen und Entscheidungsfundierung auf diesem Sektor einen enormen Aufschwung genommen; diese Nachfrage wurde ihrerseits durch die steigende Bedeutung der FiAbschnitt 14.8 diskutiert weitere Problemfelder und mögliche Lösungsvorschläge.
256
Deistler, Neusser
nanzmärkte und durch die steigende Komplexität ihrer Produkte ausgelöst. Darauf soll aber in diesem Beitrag nicht eingegangen werden. Vielleicht nicht ganz so spektakulär wie im Finanzmarktbereich, aber doch deutlich an Gewicht gewinnend sind ökonometrische Prognose- und Analysemethoden im Unternehmensbereich. Zunehmende Verfügbarkeit von Daten, etwa in Data Warehouses und wachsender Konkurrenzdruck sind wesentliche Anreize, auch anspruchsvollere Methoden einzusetzen. Wir betrachten hier die Absatzprognose, die einen wesentlichen Input, etwa für das Supply Chain Management (siehe z. B. Aviv [4]), bildet. Bei der Erstellung eines Prognosemodells sind folgende Fragen zu klären bzw. Punkte zu berücksichtigen (siehe z. B. Überwimmer und Deistler [37] und Wehling [38]): 1.
Wie viele Zeitreihen sollen prognostiziert werden? Bei Bedarfsprognosen für Warenwirtschaftssysteme, wo oft 10000 und mehr Artikel betrachtet werden, ist vollständige Automatisierung anzustreben. Sind wenige Zeitreihen zu prognostizieren, so kann die Genauigkeit des Prognosemodells durch „fine tuning" erhöht werden.
2.
Liegen sehr viele Zeitreihen vor, so stellt sich die Frage, ob diese in Cluster mit gleichem Prognoseverhalten unterteilt werden sollen.
3.
Sollen die Prognosewerte der Zeitreihen direkt verwendet werden oder werden sie z. B. noch von Experten korrigiert? Eine interessante Entwicklung sind so genannte hybride Prognosesysteme, die z. B. auf ARX-Systemen basierende Zeitreihenprognosen mit wissensbasierten Systemen, bei denen zusätzliche Erfahrungsregeln verwendet werden, kombinieren.
4.
Sind die Kostenfunktionen stark asymmetrisch, d. h., die Folgekosten von positiven Prognosefehlern unterscheiden sich stark von denen betragsgleicher negativer Prognosefehler, dann werden in gewissen Fällen so genannte lin-lin-Kostenfunktionen venA/endet, die aus zwei linearen Ästen bestehen. In diesem Fall erhält man den optimalen Prädiktor als ein Quantil der bedingten Verteilung, das durch den Quotienten der Steigungen der beiden Geradenäste der Kostenfunktion gegeben ist (siehe Christoffersen und Diebold [8]).
5.
Welche Kalendereffekte (z. B. Feiertags-, Weihnachts- oder Ostereffekte) und Saisoneffekte sind relevant? Derartige Effekte können durch Dummyvariablen berücksichtigt werden. Ein anderer Zugang sind variable, z. B. tagesspezifische Lags (siehe Deistler u.a. [10]).
6.
Soll der Trend getrennt modelliert werden?
7.
Sind Ausreißer vorhanden?
8.
Welche Variablen beeinflussen die zu prognostizierende Variable? Typische Kandidaten für Inputs sind: Preisreduktionen, Preisreduktionen bei Konkurrenzprodukten, Werbung und Promotionsmaßnahmen.
9.
Ein spezielles Problem bilden in der Beobachtungszeit neu eingeführte Produkte.
In Überwimmer und Deistler [37] und Wehling [38] wurden Analyse- und Prognosemodelle für Absätze von Markenartikeln aus Wochendaten über einem Beobachtungszeit-
Prognose uni- und multivariater Zeitreihen
257
räum von zwei oder drei Jahren entwickelt. Der Prognosezeitraum beträgt eine Woche; in Wehling [38] lag das Hauptaugenmerk auf der Vollautomatisierung der Prozedur. Die Basismodelle waren dabei univariate (genauer ein Output, mehrere Inputs) ARXModelle. Die Spezifikation der Dynamik und die Inputselektion wurden, wie zuvor beschrieben, mit Informationskriterien oder dem „out-of-sample" Einschrittprognosefehler durchgeführt. Um eine zeitaufwändige Untersuchung aller Teilmengen der Liste der Kandidaten für die prädeterminierten Variablen (also der Inputs und der verzögerten Outputs) zu vermeiden, wurde der so genannte An-Algorithmus (An und Gu [2]) verwendet. Dieser Algorithmus sucht in einer „intelligenten" Weise über eine Teilmenge der Menge aller möglichen Spezifikationen. In vielen Fällen sind verzögerte Inputs wichtig, um nicht allen Inputs die gleiche Dynamik aufzuprägen. In der übenA/iegenden Mehrzahl der Fälle ist es wichtig, auch die letzten noch verfügbaren Daten zur Identifikation zu benützen, die Parameter werden daher laufend neu geschätzt. Ebenso wurde die Spezifikation der Modelle in regelmäßigen Abständen erneut vorgenommen. Dies wurde sowohl mit einem gleitenden („moving") oder einem sich erweiternden („extending") Fenster vorgenommen (siehe auch Deistler und Hamann [11]). Dadurch wird auch der Effekt von Variationen der Parameter abgeschwächt. Für die Validierung der Prognosemodelle sind folgende Schritte wichtig: 1.
Der quadratische Korrelationskoeffizient, berechnet aus dem „out-of-sample" Einschnittprognosefehler. Dabei ist wichtig, dass für Parameterschätzung und Spezifikation nur Daten verwendet werden, die vor dem Prognosezeitpunkt liegen. Insbesondere ist der Vergleich mit dem „no change predictor" als einfachstem Benchmark wichtig.
2.
Tests auf Schiefe der Fehler: Starke Schiefe kann ein Indikator für Ausreißer sein. ^ oder F-Tests für die Parameter bringen andererseits wenig zusätzliche Information; auf AlC oder BIG basierte Verfahren lassen sich als Sequenzen von Likelihood Ratio Tests interpretieren.
3.
Werbeeinflüsse werden oft durch so genannte Adstocks beschrieben (s. Überwimmer und Deistler [37]). Hier ist zu untersuchen, ob dadurch die Dynamik der Werbeeinflüsse ausreichend beschrieben wird.
4.
Um zu untersuchen, ob die Parameter langsam mit der Zeit variieren oder ob Strukturbrüche vorliegen, kann man, um einen ersten Hinweis zu erhalten, adaptive Schätzverfahren verwenden, die den Zeitpfad der Parameter „tracken". Ein einfaches Schätzverfahren besteht darin, die zurückliegenden Daten mit einem geometrischen Vergessensfaktor zu gewichten, wobei dieser Faktor seinerseits durch „grid search" bestimmt wird. Aus den Zeitpfaden der Parameter kann man auch Hinweise über die Validität der Spezifikation erhalten.
5.
Eventuell auftretende Strukturbrüche können durch Tests untersucht werden. Ebenso sind Strukturbrüche in der Spezifikation von Interesse, so könnten z. B. gewisse Inputs nur in speziellen Regimen wirksam sein.
6.
Schließlich ist zu prüfen, ob Nichtlinearitäten die Prognosequalität verbessern. Dies kann ganz allgemein durch den Vergleich mit auf neuronalen Netzen basierenden Prognosen (siehe z. B. Wehlig [38]) oder durch Erweiterungen des ARX-
258
Deistler, Neusser Ansatzes geschehen. Übliche Erweiterungen sind etwa (siehe ÜbenA/immer und Deistler [37]) das additive Hinzufügen von Interaktionstermen (z. B. das Produkt aus Werbung und Preisreduktion), STARX-Modelle (Granger und Teräsvirta [17]) oder Asymmetrieterme für die Werbewirkung.
In gewissen Fällen ist eine multivariate Modellierung angebracht, etwa wenn Produkte eng verwandt sind und ihre Absätze starke gemeinsame Bewegungen aufweisen. Bei „normalen" multivariaten (oder Vektor-) ARX-Systemen kommt man dabei mit der Anzahl der gemeinsam zu modellierenden Produkte sehr rasch an Grenzen. Aus diesem Grunde werden oft Faktormodelle „vorgeschaltet" (siehe Deistler u.a. [9] und Deistler u.a. [10]):
X,^Kf,^u,
(50)
wobei yj r-dimensionale Faktoren sind, mit r ' =
p.5
P > '
0,3
0,7
0,3
0,55
0,45
0,8^ 0,2
0,8
0,30
0,70 y
r0,40
0,60^
1^0,40
0,60
0,40
0,60^
0,40
0,60
283
Ab der 14. und höheren Potenz ändert sich (innerhalb einer gewissen Genauigkeit) die potenzierte Matrix der Übergangswahrscheinlichkeiten nicht mehr. Dies bedeutet, dass sich die Prognosen nach 14 Zeitintervallen statistisch (innerhalb einer gewissen Genauigkeit) im Gleichgewicht befinden. Sie sind insbesondere unabhängig vom Ausgangszustand. Streng gilt, dass die Matrix für die Potenz n -> co absolut konvergent ist. Dieser Zustand heißt ergodisch (vgl. [14], S. 37 f.). Aus der Ergodizität ergibt sich unmittelbar p " = P"" p Da die Wahrscheinlichkeitsvektoren (Zeilen der Matrix) im Gleichgewichtszustand identisch sind, folgt
p'-=p^p
bzw.
y») (i-p)=.o mit y " ^ als Zeile derP^"*. Damit gewinnt man nun bei einer ergodischen Markovkette die Prognose für den Gleichgewichtszustand, ohne den Weg über die Berechnung der Potenzen der Matrix der Übergangswahrscheinlichkeiten zu gehen (vgl. [5], S. 33). Mit der Normierungsvorschrift, dass die Summe der Wahrscheinlichkeit gleich Eins ist, ergibt sich für unser Beispiel das Gleichungssystem 0,3 p, - 0,2/7, = 0 -0,3p, + 0,2p2 = 0 p, +P2 = 1 mit der Lösung;?/ = 0,4 und;?, = 0,6 in Übereinstimmung mit P"^. Ein Kriterium für die Ergodizität homogener Markovketten ist die Positivität aller Koeffizienten in irgendeiner der Potenzen der Matrix der Übergangswahrscheinlichkeiten. Sie wird dann als regu/är bezeichnet.
284
Hansen
16.2.2 Modellbildung des regulären Prozesses mithilfe der erzeugenden Funktion Als Grundlage des Prognosemodells wurde die Chapman-Kolmogorov-Beziehung verwendet. Darauf aufbauend gewinnt man durch die Modellbildung mithilfe der erzeugenden Funktion eine enA/eiterte und vollständig verallgemeinerte Sicht in die Struktur des Markov-Prognosemodells. Für eine Zufallsgröße X, die nur nichtnegative ganzzahlige Werte annehmen kann, bezeichnet man den Erwartungswert von i/ als erzeugende Funktion von X (vgl. [4], S. 179), in Symbolen
G(u) =E(u^). Die Verteilung von Xsei durch P{X=n} =f(n) gegeben, dann erhält man
Gin)=/(o)+ni)u+f(2y +...=2/(^) ^" n=0
G(u) existiert, falls N < 1. Für eine Zufallsvariable X mit der erzeugenden Funktion G(u) gilt
E(X) = G'(l) = f^nf(n), Var{X) = G\\) +
G\\)-{G\\))\
EiX^"^) = E(X(X - V)...(X -{k-1))
= G^^> (1).
Mit« > 0 erhält man für
G{u) = f^fin
+ \)u"
^u-\G{u)-fm.
Wendet man dies auf die Chapman-Kolmogorov-Beziehung
p'''=p'P an und bezeichnet F(u) als die erzeugende Funktion von p'', folgt
u'\F(u)-p']
= F{u)P bzw. u-'Fiu)-u-^p'=F(u)P
bzw. F(u)iI-uP)
und schließlich F(u) =
p\l-uPy'
Für das in Abschnitt 16.2.1 gewählte Beispiel mit
P=
0,7
0,3"
0,2
0,8
erhält man für
fl-0,7u I-uP-\
Daraus gewinnt man mit einigen Umformungen
-0,2M
-0,3w 1-0,8M
= p'
Prognose mithilfe von Markovprozessen ("0,4 0,6
1
{I-uPy' =
l-/ljW
+ 0,6 -0,6^
1
+ •
285
\ - X^u - 0 , 4 +0,4
,0,4 0,6
darin sind Xi = 1 und Ä2 = 1/2, damit ergibt sicln
{I-uPy =
1
0,4 0,6
1-M
0,4 0,6
+ 0,6 - 0 , 6 ^
1
- 0 , 4 +0,4
1—u 2
Berücl<sichtigt man, dass G{u) = Y,f(n)u" =
für /(n) = 1 mit « > 0
l—u
„=o
sowie G(u) = ^ f ( n ) u "
= Y,{auf
= — ^ - — für f(n) = a", \au\0
n=0
^
^
^
und invertiert die erzeugende Funl' =
1
+(- -ly
J
V
0
1
+(-1)^
0
0
0
1
0
0
~2
f\ 0 O^ = 0 1 0
[o 0 i j
2 0
2 0 = 0
i
1 0
[l 0 oj
2 -0
2
•J
0
i
-0 - i ^ fo 0 n
2 0
0
p'^
,0 - i
0 0
^l
0 O^
0
0
1 0
1
0 0 1
bzw. allgemein P"=p»+(-!)"£)
für « ^ 0 0 .
P"' ist die stabile Matrix des stationären Zustandes. Das scheint ein Widerspruch zur zyklischen Matrix zu sein, da zyklisches Verhalten keinen stationären Zustand kennt. Um P" dennoch zu interpretieren, wird angenommen, dass es einen stationären Zustand für P gäbe. Dann muss, wie in Abschnitt 16.2.1 gezeigt wurde, P" = P°°P bzw. p^°°\l-P) = 0 gelten. Mit der Normierungsvorschrift, dass die Summe der Wahrscheinlichkeiten gleich eins ist, erhält man für die zyklische Matrix das Gleichungssystem
p,
= 0
Pl
+
0P2
—
OA
+
0P2
+
Op^ = 0
-Pl
+
0P2
+
A
= 0
Pl
+
Pl
+
Ps
= 1
mit der Lösung p^ = 1/2, p2 = 0 und pz = "i^, wodurch die Matrix P°°als stationärer Teil des Prognoseprozesses bestätigt wird. P°° ist eine stochastische Matrix, die angibt, mit
Prognose mithilfe von Markovprozessen
299
welcher Wahrscheinlichkeit sich der Prozess in einem zufällig herausgegriffenen Zeitpunkt befindet. Insgesamt erhält man als Ergebnis, dass sich auch zyklische Prozesse in einen stabilen und instabilen Teil des Prognosemodells trennen lassen. 16.4.3 Anwendungen Neben Trends, saisonalen und zufallsabhängigen Schwankungen enthalten Vorhersageprobleme häufig zyklische Bewegungen. Letztere lassen sich mithilfe periodischer Übergangsmatrizen in der Form nichthomogener Markovketten modellieren. Dazu betrachten wir das Beispiel aus dem Abschnitt 16.2.1 mit der Übergangsmatrix
^ i -
lo,2 0,8j
und nehmen an, dass der Prozess einem zweiperiodigen Zyklus mit der Übergangsmatrix 0
1
P2 =
vi
Oy
unterliegt. Mithilfe des nichthomogenen Prozesses
p^'^=p,p,p, p'''=p,p,p,p, p^"^ ={p,p^y'^ superpositioniert man auf den Prozess Pi den zweiperiodigen Zyklus P2. Tabelle 5 enthält die numerischen Werte mit dem Anlaufvektor
y°) = (i 0) 16.5 Bewertete Markovprozesse 16.5.1 Definition und grundlegende Merkmale In realen Fällen sind bei Markovprozessen die Übergänge vom Zustand / zum Zustand j häufig mit Bewertungen, z. B. Erlösen oder Verlusten, verbunden. Der Markovprozess erzeugt dann während seines Ablaufes eine Folge von positiven und/oder negativen Nutzengrößen, die von den realisierten Übergängen abhängen. Die Bewertungen, die sich beim Übergang vom Zustand / in den Zustandy ergeben, fassen wir in der Matrix
300
Hansen 1 Periode
Marktanteil
1 2 3 4 5 6 7 8
A 0,7 0,3 0,35 0,65 0,525 0,475 0,4375 0,5625
B 0,3 0,7 0,65 0,35 0,475 0,525 0,5625 0,4375
29 30 31 32
0,4667 0,5333 0,4666 0,5333
0,5337 0,4666 0,5333 0,4666
Tab. 5: Prognosewerte eines nichthomogenen zweiperiodigen Prozesses
zusammen. Der Prognosewert für den erwarteten Erlös bzw. Verlust der kommenden n Perioden ergibt sich aus den mit den Übergangswahrscheinlichkeiten gewichteten ErlösenA/erlusten ^
r
1
f ü r / = 1,2,...,iVundw= 1,2,3. Darin sind v^(^-l) die erwarteten ErlöseA/erluste für die verbleibende, um Eins reduzierte Anzahl von Übergängen mit dem Anfangszustand7. Definiert man ^i W = Z/^/, ^^ ß^ ^ = 1,2,...,A^ 7=1
folgt
für/ = 1, 2, ..., A^undw= 1,2,3,... In vektorieller Schreibweise ergibt sich v{n) = q + pv{n -1) für w = 1,2,3,... Dabei ist v{n) ein Spaltenvektor mit A^ Komponenten. 16.5.2 Anwendungen In einem Betrieb treten im Produktionsablauf Störungen auf, die zur Produktionsunterbrechung führen. Man kann also zwei Betriebszustände unterscheiden: Eo, die Anlage steht still, und E^, die Anlage läuft. Die Übergangsmatrix sei
Prognose mithilfe von Markovprozessen
301
£0^0,75 0,25^ P=
0,20 0,80
Als Bewertungsmatrix wurde U=
-10
+6
-10
+20
ermittelt. Die Unternehmung verliert also 10 Geldeinheiten, wenn nicht produziert wird. Behebt man einen Stillstand, werden in der nächsten Periode 6 Geldeinheiten und treten keine Störungen auf, werden 20 Geldeinheiten erzielt. Weiter wird angenommen, dass sich die Anfangswerte aus den Erlösen ergeben, die die Unternehmung durch den Verkauf der Anlage erzielen kann. Dabei sind der Verkaufspreis vo(0) = 100 Geldeinheiten, wenn die Produktion unterbrochen ist, und vi(0) = 200 Geldeinheiten, wenn die Anlage läuft. n
Vo{n)
vi(w)
ö
iöö
2ÖÖ
119,00 131,75 141.0625 148,4844 154.8664 160,6765 166,1721 171,4947 176,7221 181.8972 187.0435 192.1739 197.2957 202.4126 207.5270 323.6399 217.7520 222.8636 227.9750 233.0863 238.1975 243.3086 248,4198 253,5309 258,6440 263.7531 268,8642 273,9754
194,00 193,00 194,75 198,0125 202,1069 206,6588 211,4624 216,4043 221,4224 226,4823 231,5653 236,6609 241.7635 246.8700 251.9785 257.0882 262,1986 267,3092 272,4201 277,5311 282,6421 287,7532 292,8643 297,9754 303,0865 308,1976 313.3087 318,4198
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
Vi(n)-Vo(n)
iöö
75
61,25 53,6875 49,5281 47,24.05 45,9823 45,2903 44,9096 44,7003 44,5851 44,5218 44,4870 44,4678 44,4574 44,4515 44,4483 44,4466 44,4456 44,4451 44,4448 44,4446 44,4446 44,4445 44.4445 44.4445 44,4445 44,4445 44,4444
v^(n)-v^(n-^) -6 -1 1,75 3,2625 4,0944 4,5519 4,8036 4.9419 5,0181 5.0599 5.0830 5.0956 5.1026 5.1065 5,1085 5,1097 5.1104 5.1106 5,1109 5,1110 5,1110 5,1111 5,1111 5.1111 5.1111 5,1111 5,1111 5,1111
Tab. 6: Prognose der erwarteten Erlöse als Funktion vom Ausgangszustand und der Anzahl der verbleibenden Übergänge Aus den Daten von P und [/sowie den Randwerten erhält man die Prognosewerte als Funktion vom Ausgangszustand und der Anzahl der verbleibenden Übergänge. In der Tabelle 6 erkennt man, dass sich mit wachsendem n die Differenzen \vi(n) - VQ(n)\ und \vi(n) -vi(n-l)\ offensichtlich konstanten Werten nähern. Konkret heißt dies, wenn die Anlage im Ausgangszustand läuft, dann ist das Periodenergebnis für ein großes n um
302
Hansen
etwa 44,44 Geldeinheiten höher, und außerdem erzielt der Unternehmer bei großem n für jede weitere Periode zusätzlich etwa 5,11 Geldeinheiten. Nehmen wir nun an, dass dem Unternehmer iterative Entscheidungsalternativen (Strategien) zur Verfügung stehen. Möglich seien eine verbesserte Reparaturplanung (Strategie I) und eine verbesserte vorbeugende Instandhaltung (Strategie II). Die Tabelle 7 beschreibt die gesamte Entscheidungssituation. Die optimale Entscheidungssequenz ist dann erreicht, wenn für jedes / und n das gesamte erwartete Betriebsergebnis maximal wird (vgl. [7], S. 43 f.). Setzt man die Strategie Ä:ein, so gilt
7=1
M
und wenn k optimal ist, max {v\{n)) = max Q][*1 + 1;^^
v/«-i)
7=1
Ausgangszustand
Strategie
0
1
Ergebnis bei Übertragung nach
I
0,75 0,20
0,25 0,80
0 -10 -10
1 6 20
I
0,40 0,50
0,60 0,50
-10 -8
5 16
I
0 0
Übergangswahrscheinlichkeit nach
Tab. 7: Sequenzielles Entscheidungsproblem einer bewerteten Markovkette Mit den Randwerten Vo(0)=100 und vi(0) = 200 erhält man vo (1) = max [119,0000; 194,0000], also Strategie II, vi (1) = max [159,0000; 154,0000], also Strategie I, vo(2) = max [179,2500; 180,0000], also Strategie II, Vi (2) = max [172,0000; 180,5000], also Strategie II vo(3) = max [174,1250; 194,4000], also Strategie II, vi (3) = max [179,3000; 184,2500], also Strategie II vo(4) = max [185,8625; 200,2800], also Strategie II, vi (4) = max [187,3100; 193,3250], also Strategie II vo(5) = max [192,5413; 208,7160], also Strategie II, vi (5) = max [195,1070; 200,8025], also Strategie II vo(6) = max [200,7376; 216,3852], also Strategie II, vi (6) = max [202,9679; 208,7593], also Strategie II usw.
Daraus gewinnt man als Prognose für die erwarteten Periodenergebnisse die in der folgenden Tabelle angegebenen Werte. n
Vo(«)
Vi(n)
1 2 3 4 5 6
194,0000 180,0000 194,4000 200,2800 208,7160 216,3852
159,0000 180,5000 184,2500 193,3250 200,8025 208,7593
Tab. 8: Prognose für die Periodenergebnisse bei optimaler Strategie
Prognose mithilfe von Markovprozessen
303
16.6 Fazit Wir haben uns in der Darstellung weitgehend auf diskrete Prozesse beschränkt. Für ihre Analyse hat sich die erzeugende Funktion als ein wirksames Instrument erwiesen. Bei der Betrachtung kontinuierlicher Systeme tritt an die Stelle der erzeugenden Funktion die Laplace-Transformation. Für beide Fälle (diskret und kontinuierlich) gelingt eine vollständige Analyse des dynamischen Verhaltens des zu untersuchenden Prognoseproblems. Der algorithmische Aufwand für den diskreten Prozess ist gering. Dies gilt nicht in gleichem Maße für ein kontinuierliches Problem. In praktischen Fällen genügt es in der Regel, den kontinuierlichen Fall durch eine diskrete Betrachtung zu approximieren. Damit die beschriebenen Beispiele ihren didaktischen Zweck möglichst erfüllen, wurden sie inhaltlich einfach gehalten und haben einen geringen Umfang. Sie sollen auch als Anregung für praktische Fälle dienen. Wegen der einfachen Berechnungstechniken können praktische Anwendungen mit einem hohen Komplexitätsgrad auch dann noch mithilfe von Markovketten erfolgreich bearbeitet werden, wenn andere Analysemethoden versagen. Insbesondere lassen sich Markovprozesse elegant in andere Modellformen einbetten. Besonders geeignet ist die Verknüpfung von stochastischen Simulationsmodellen und Markovketten. Die Schnittstellenkonstruktion zu anderen Modelltypen, z. B. zu Modellen der mathematischen Optimierung, gelingt häufig auch in einfacher Weise. 16.7 Literatur [I] [2] [3] [4] [5] [6] [7] [8] [9] [10] [II] [12] [13] [14] [15]
Breuer, L., Spatial Queues, [Elektronische Ressource], University of Trier, Trier 2000. Buchholz, F., Die strukturierte Analyse Markovscher Modelle, Berlin u.a. 1991. Chung, K.L., Lectures from Markov Processes to Brownian Motion, New York u.a. 1982. Ferschl, F., Zufallsabhängige Wirtschaftsprozesse, Wien-Würzburg 1964. Filar, J. und Vrieze, K., Competitive Markov Decision Processes, New York 1997. Heller, W.-D., Lindenberg, H., Nuske, M. und Schriever, K.-H., Stochastische Systeme: Markoffketten, Stochastische Prozesse, Warteschlangen, Berlin u.a. 1978. Hernändez-Lerma, O. und Lasserre, J.B., Discrete-time Markov Control Processes, New York u.a. 1996. Hilfer, R., Stochastische Modelle für die betriebliche Planung, München 1985. Jacob, N., Pseudo-Differential Operators and Markov Processes, Berlin 1996. Kalpazidou, S.L., Cycle Reprentations of Markov Processes, New York u.a. 1995. Kemeny, J.G., Schleifer, A., Snell, J.L. und Thompson, G.L., Finite Mathematics with Business Applications, Englewood Cliffs 1972. Schäl, M., Markoffsche EntScheidungsprozesse, Stuttgart 1990. Wächter, K.H., Die Verwendung von Markov-Ketten in der Personalplanung, Zeitschrift für Betriebswirtschaft 44 (1974), S. 243 ff. Zanakis, S.H. und Maret, M.W., A Markovian Goal Programming Approach to Aggregate Manpower Planning, Journal of the Oprerations Research Society 32 (1981), S. 55 ff. Zurmühl, R. und Falk, S., Matrizen und ihre Anwendungen, Teil 1: Grundlagen, 5. Aufl., Berlin u.a. 1984.
17 Der Beitrag der Künstlichen Intelligenz zur betrieblichen Prognose von Philipp Janetzke und Jürgen Falk 17.1 Einleitung Viele leistungsfähige Prognosesysteme enthalten eine größere Anzahl unterschiedlicher Verfahren, deren Auswahl und Anwendung meist mathematische Experten erfordern. Wegen der in der betrieblichen Praxis zahlreich zu erstellenden Prognosen sind die Experten entsprechende Zeit gebunden. Um Prognosesysteme einem breiteren Benutzerspektrum zugänglich zu machen, bleibt einerseits, sie vollkommen zu automatisieren. Dann hat man aber in der betrieblichen Praxis bei weniger plausiblen Ergebnissen ein Akzeptanz-Problem. Es wird dort darauf Wert gelegt, dass der Lösungsweg nachvollziehbar ist. Andererseits bestehen Möglichkeiten, Prognosesysteme interaktiver zu gestalten: Der Benutzer könnte durch den Prognoseprozess „geführt" und bei der Methodenauswahl und -parametrierung „beraten" werden. Das System interpretiert die Ergebnisse und schlägt gegebenenfalls Korrekturen vor. Neben dem Ansatzpunkt bei der Verwendung bekannter Prognoseverfahren könnte man dem Benutzer Verfahren an die Hand geben, die den funktionalen Zusammenhang von Eingabe- und Prognosewerten anhand der Daten selbstständig erlernen. Somit brauchte er nicht mehr mit mathematisch-statistischen Details einer Modellbildung vertraut sein. In diesem Beitrag wollen wir untersuchen, ob, inwieweit und an welchen Stellen dies durch die Künstliche Intelligenz (Kl) geleistet werden kann und welche Experimente sowie Vorschläge bereits bekannt sind. Dazu geben wir einen Überblick über derzeitige Einsatzmöglichkeiten der Kl in der betrieblichen Prognose. Schwerpunkt der Betrachtung ist der Einsatz von Expertensystemen und Künstlichen Neuronalen Netzen. 17.2 Expertensysteme Innerhalb der betrieblichen Nutzung von Expertensystemen nimmt der Einsatz der Expertensysteme zur Prognose einen Anteil von ca. 4 % (vgl. Auswertung von 440 Expertensystemen in [24], S. 54) bzw. ca. 14 % (vgl. Auswertung von 380 Expertensystemen in [101], S. 145) ein. Der Anteil unterstreicht die Bedeutung für die Prognoserechnung, wenn man bedenkt, dass Expertensysteme eine Vielzahl betrieblicher Funktionen unterstützen (vgl. [51]). 17.2.1 Prognosespezifischer Aufbau In Abbildung 1 ist das Modell eines Expertensystems (XPS) zur Prognoserechnung zu sehen (vgl. Grundlagen der XPS in [60]). Bestandteile sind eine Inferenzkomponente, die den Arbeitsablauf des XPS steuert, eine Dialogkomponente als Schnittstelle zum Benutzer und eine Wissensbasis, die prognosespezifisches Wissen enthält. Das Wissen wird in XPS explizit repräsentiert. Über die Inferenzkomponente sind dem XPS Daten- und Methodenbanken zugänglich, die beispielsweise Vergangenheitswerte und bestimmte Prognoseverfahren bzw. Verfahren zur Datenanalyse beinhalten.
306
Janetzke, Falk
Datenbank zur Prognoserechnung z.B. Zeitreihenwerte
Prognosemethodenbank )der I z.B. ARIMA, Filter oder Exponentielles Glätten ätten I
1 r Inferenzkomponente
Dialogkomponente
J C Wissensbasis Prognosewissen Regeln
Fakten
XPS
Abb. 1: Modell eines Expertensystems zur Prognoserechnung Die Expertensystemtechnik bietet die Möglichkeit, Expertenwissen zu speichern und es heuristisch, nicht deterministisch, zu verarbeiten. Ihr Einsatz liegt bei der Auswahl und Parametrierung von Prognosemethoden nahe, da mit dem Expertenwissen die Wirkung und Abhängigkeit von Einflussfaktoren eingeschätzt werden kann. Dies sind Zusammenhänge, die meist nicht exakt formalisierbar sind (vgl. Abschnitt 17.2.4 sowie [77] und [6]). 17.2.2 Wissensrepräsentation Als zwei zentrale Konzepte zur Wissensrepräsentation werden Regeln und Frames vorgestellt. Regeln sind in der Logik 1. Stufe, die das menschliche Denken formalisiert, eingebettet und damit syntaktisch leicht verständlich (vgl. [68], S. 101 ff.). In der Wissensrepräsentation übenA/iegt daher auch die Verwendung von Regeln (vgl. [3], S. 424, [20], S. 289, [60]). Eine Regel zur Auswahl einer Prognosemethode könnte folgendermaßen aufgebaut sein: Wenn Quadratischer Trend und vorhandene Saisoneinflüsse und erwünschter Prognosehorizont über 15 Perioden Dann Methode = multivariate Regression. Die gesamte Wissenbasis eines XPS besteht aus 10 bis 100 Regeln (vgl. [3], S. 424, [28], S. 486, [5], S. 261). Zur besseren Strukturierung werden die Regeln wiederum in einzelne Klassen eingeteilt. Frames beinhalten das Wissen über Objekte, für die eine Prognose erstellt werden soll [39]. Ein Frame ist syntaktisch eine Datenstruktur, die sich aus mehreren Plätzen (Slots) zusammensetzt (vgl. [60], S. 32). In der Prognosepraxis werden Frames z. B. verwendet, um Prognosemethoden darzustellen.
Der Beitrag der Kl zur betrieblichen Prognose
307
Streitberg und Naeve [85] bauen im XPS A4 einen Frame „Prognosemethode" (z. B. ARMA) auf, in dessen Slots sie die Startwerte und, nach den entsprechenden Bearbeitungsschritten, die jeweiligen Ergebniswerte, die Zahl der Parameter bzw. deren Werte sowie Einheiten und Ergebnisse der Voruntersuchung (z. B. Saison, Trend) eintragen. Unsicheres, d. h. mathematisch-statistisch nicht exakt formalisierbares Wissen, z. B. darüber, für welche Bedingung welche Prognosemethode am besten geeignet ist, kann in regelbasierten Wissensbasen in Form von Wahrscheinlichkeiten, die an die entsprechenden Regeln gebunden sind, repräsentiert werden. Experten denken zudem nicht in scharfen Grenzen. Die Fuzzy-Logik versucht, über fließende Grenzen in Form überlappender Wahrscheinlichkeitsverteilungen diese Unscharfe im Denken nachzubilden (vgl. [106], [23], S. 408 f.). Durch die Integration der Fuzzy-Logik soll sich die Leistung der XPS weiter der menschlicher Experten nähern (vgl. z. B. XPS Interest Rate Insight in [35]). In der Prognoseauswahl wirkt sich beispielsweise der Prognosehorizont auf die Komplexitätsanforderung an die auszuwählende Methode aus. Die Grenzen der Auswahl der einen oder anderen Methode sind dabei fließend. 17.2.3 Wissensverarbeitung Die Arbeitsweise der Inferenzmaschine, die die Regelauswertung durchführt, erfolgt ohne vorher festgelegte Reihenfolge der Regelauswertung und damit nicht deterministisch. Diese Arbeitsweise begünstigt auch die Verarbeitung unvollständigen Wissens, wie fehlende Benutzereingaben, die auch statistisch nicht ermittelt werden können. Dann verliert allerdings die Auswahl einer Methode an Genauigkeit und liefert statt einer besten eine Menge geeigneter Methoden. Die Verarbeitung unsicheren Wissens - Regel verknüpft mit Wahrscheinlichkeit - richtet sich nach der Bayesschen Wahrscheinlichkeitsfortpflanzung (vgl. [60]) und ermöglicht so, in der Ergebnisdarstellung Unsicherheitsfaktoren zu berücksichtigen. Die Auswertung von Fuzzy-Regeln erfolgt nach einem fuzzy-spezifischen Inferenzprozess (vgl. [67], S. 366 bzw. [45], S. 197). Einen ähnlichen Weg zur genaueren Abbildung des Expertenschlussfolgerns beschreiten Systeme, die auf der Dempster-Shafer-Logik aufbauen (vgl. [21]). In der Anwendung der Prognoseauswahl wird für jede Methode bzw. Menge von Methoden die Wahrscheinlichkeit, dass diese die beste ist, berechnet [21], S.10 ff. Die Wahrscheinlichkeit wird allerdings - der auffälligste Unterschied - in Form eines Intervalls angegeben. Ober- und Untergrenze des Intervalls sind auf den Bereich [0,1] definiert. Die Intervalle werden in zweifacher Hinsicht interpretiert. Liegen die Ober- und Untergrenze „weit" auseinander, ist die Länge des Unsicherheitsintervalls - Maß der Unsicherheit größer als im Idealfall, wenn Ober- und Untergrenze übereinstimmen. Die Unsicherheit ist dann gleich 0 bzw. die Gewissheit gleich 1 und die Eignungs-Wahrscheinlichkeit der Methode gleich dem Wert der Grenzen. Ist die Untergrenze nahe 0, so ist das Vertrauen in diese Methode gering - analog der exakten Wahrscheinlichkeit. Das Vertrauen ist umso größer, je näher die Obergrenze bei 1 liegt. Die Methode mit der groß-
308
Janetzke, Falk
ten Wahrscheinlichkeit verbunden mit einer geringen Unsicherheit sollte die am besten geeignete sein und wird ausgewählt. 17.2.4 Einsatz wissensbasierter Prognosesysteme XPS zur betrieblichen Prognose lassen sich nach dem Aufbau ihrer Methodenbanken in zwei Klassen einteilen. Zur Klasse der mathematisch-statistisch orientierten zählen Systeme, die wissenschaftlich untersuchte Methoden wie Zeitreihenanalysen oder ökonometrische Modelle verwenden (z. B. XPS Panisse in [32]). Die zweite Klasse stellen XPS dar, die Methoden enthalten, welche aus dem Erfahrungsschatz betrieblicher Prognoseexperten stammen bzw. betriebswirtschaftliche Kausalzusammenhänge abbilden. Die beiden Klassen sind nicht überschneidungsfrei, da sich die Verfahren auch kombinieren lassen. 17.2.4.1 Expertensysteme mit mathematisch-statistischen {Methoden Mathematisch-statistisch orientierte XPS können weiter nach dem Aufbau ihrer Wissensbasis in nicht integrierte und integrierte Auswahlsysteme untergliedert werden. Nicht integrierte Auswahlsysteme sind anwendungsunabhängig, während integrierte Auswahlsysteme die Anforderungen des Anwendungsgebiets bei der Prognose berücksichtigen. 17.2.4.1.1 Nicht integrierte Auswahlsysteme Das XPS unterstützt den Benutzer bei der Auswahl der für ihn am besten geeigneten Methode und der Parametrierung der Modelle. Diese Eigenschaft als Zugangssystem (vgl. [49], S. 178) ermöglicht es einem größeren Anwenderkreis, die Prognosetechniken zu nutzen. Bislang setzten diese ein hohes Maß an Expertenwissen zum korrekten Einsatz voraus. Ein von Kumar und Hsu [37] entwickeltes XPS unterstützt die Auswahl unter 25 verschiedenen Methoden, die in Zeitreihenmodelle, kausale und beurteilende Verfahren gegliedert sind. Während des Auswahlvorgangs bewertet das System die Methoden auf Basis von 16 unterschiedlichen Kriterien, z. B. Anzahl der Vergangenheitswerte und Prognosehorizont. Diese werden im Dialog mit dem Benutzer erfragt und gehen in die Prämissen unscharfer Auswahlregeln ein. Eine typische Regel hat z. B. folgenden Aufbau: Wenn Anzahl der verfügbaren Vergangenheitswerte = „mittel" Dann multipliziere „Score" der Naiven Extrapolationsmethode mit 1,0 und/oder der Input-Output-Methode mit 0,3. Außer der Methode mit dem höchsten „Score" kann das System auch eine Kombination zweier Verfahren vorschlagen.
Der Beitrag der Kl zur betrieblichen Prognose
309
17.2.4.1.2 Integrierte Auswahlsysteme Integrierte Systeme sind Auswahlsysteme, deren Wissensbasen um anwendungsspezifisches Wissen erweitert sind. Die Praxis hat gezeigt, dass in den Anwendungsbereichen, z. B. Lagerabgangsprognose, zum einen Auswahlvorgänge durch betriebswirtschaftliche Faktoren mitbestimmt (z. B. Teileart: Rohteil, Halbfabrikat oder Enderzeugnis [49], S. 73), zum anderen erstellte Prognosen im Falle ökonomischer Besonderheiten berichtigt werden sollten. Letztere lassen sich nach ihrer Bedeutung in drei Kategorien einteilen: Marktspezifische ökonomische Besonderheiten wirken auf ganze Wirtschaftszweige, produktspezifische beeinflussen einzelne Produkte oder Standorte. So kann die Prognose einer Produktgruppe nicht auf jedes Produkt dieser Gruppe in gleicher Weise übertragen werden; Korrekturen sind nötig. Schließlich unterscheidet man noch die Kategorie der „besonderen" Ereignisse wie z. B. neue Konkurrenten oder unvorhergesehene Großaufträge. Die Bedeutung ökonomischer Besonderheiten für die Vorhersagegenauigkeit stellen auch Flores und Wolfe fest. Flores und Wolfe [29] zeigen, dass mathematisch-statistische Vorhersagen durch explizite Nachbesserungen, die allgemeine ökonomische Bedingungen berücksichtigen, genauer werden können. In ihrer Studie werden ARIMAPrognosen von Analysten nachgebessert. Allerdings wird die Frage, ob eine Nachbesserung wirklich die Prognosequalität verbessert, unterschiedlich beantwortet (vgl. [10], S. 15). In Abbildung 2 ist ein Auszug aus einer Regelbasis eines integrierten Systems ersichtlich. Die Regeln sind in vier Klassen zusammengefasst, um die Beziehungen der Wissensbereiche anwendungsspezifisches Wissen und Auswahlwissen zu verdeutlichen. Mit der hier dargestellten Regelbasis könnte eine Methode zur Absatzprognose eines neu entwickelten Produkts ausgewählt werden. Neben Regeln, die den Auszug aus einer Wissensbasis eines Auswahlsystems repräsentieren, sind Brückenregeln zu sehen, die das anwendungsspezifische Wissen mit dem Auswahlwissen verbinden (XPS FOCA in [30]). Damit kann man ökonomische Bedingungen wie die Entwicklungsdauer eines Produkts berücksichtigen, um ein Verfahren auszuwählen, das in dem Prognosehorizont, der über die Entwicklungsdauer hinausgeht, genügend genau vorhersagen kann [30]. Eine ähnliche Brückenregel beinhaltet auch das XPS Sales Forecaster, dessen Prognose für die Produktion eine „16 to 24 week lead time" [79] besitzen muss. In dem XPS for Selecting a Marketing Forecasting Technique wird nach der „availability of exogenous data (such as advertising, product quality, price, distribution)" [79] gefragt und die Antwort bei der Auswahl über Brückenregeln eingearbeitet. Überlagerungsregeln (vgl. Abbildung 2) berichtigen die Prognose a posteriori im Falle ökonomischer Besonderheiten - im Beispiel sind dies die Marketingstrategie, die Produktqualität und der Zielmarkt (vgl. [83]). Weiterhin werden solche Überlagerungsregeln eingesetzt, um weltpolitische oder andere „besondere" Ereignisse wie z. B. Streiks, Auftreten neuer Konkurrenten oder besondere Produktpromotions zu berücksichtigen (vgl. [10], S. 15). Der Vorgang der Überlagerung lässt sich am dargestellten Beispiel wie folgt erklären (vgl. Abbildung 2): Der Benutzer muss entscheiden, ob er die vom System eingestell-
310
Janetzke, Falk
ten Parameter für Qualität, die es aus den für das Produkt verwendeten Materialien und Verfahren ableitet, akzeptiert bzw. korrigiert. Es obliegt ihm außerdem, die Bewertung/Skalierung der Marketingvorhaben zu ändern (vgl. XPS zur Absatzprognose auf dem Reifenmarkt in [83]). Anschließend werden vom System Nachbesserungsprozeduren aufgerufen (vgl. XPS ELIED in [70], S. 70 ff.). Auswahlregeln
Benutzervorschlag Horizont
Prognosehorizont
Prognoseverfahren
a
Brückenregeln
Anwendungsspezifisches Wissen
Überlagerungsregeln
Entwicklungsdauer
Entwicklung eines Produkts
Skalierung der Marketingvorhaben
Entwicklungswert
Datenmenge
VP
Materialien, Verfahren
Zielmarkt
M
Skalierung der Qualität
Skalierung des Zielmarkts
Innovationsgrad
Abb. 2: Regelbasis eines integrierten Auswahlsystems 17.2.4.2 Expertensysteme mit empirischen Methoden Empirische Methoden, so genannte Faust- und Daumenregeln, werden in der Praxis mathematisch-statistischen Methoden vorgezogen, wenn bestimmte Rahmenbedingungen erfüllt sind. Kern nennt in diesem Zusammenhang unter anderem das Vorhandensein wichtiger „Ereignisse und Prämissen, die pro Jahr unterschiedlich und zueinander unterschiedlich in der Zeitachse liegen", ebenso „Überlagerungen von Ereignissen als erheblichen Bestimmungsfaktor für den Prognosewert" [64]. Wie im vorigen Abschnitt gezeigt, wird die Lösung derartiger Probleme aber auch mit integrierten Systemen angegangen. XPS mit einer empirischen Methodenbank sind in zweifacher Hinsicht empirisch: Die vom Experten definierten Regeln zur Auswahl geeigneter Methoden selbst sind empirisch, ebenso die Prognosemethoden, da Faust- bzw. Daumenregeln. Innerhalb der „ruies-of-thumb" unterscheiden Humpert und Holley [32] - j e nach Vorgehensweise der Prognoseerstellung - zwischen „top-down"-Methoden (z. B. Gebrauch von Marktgröße und Marktanteil) bzw. „bottom-up"-Verfahren (z. B. Gebrauch von Produktionsplänen). Beim XPS zur frühzeitigen Materialeinzelkostenprognose von Seidimeier ist - im Gegensatz zu reinem Erfahrungswissen - vor allem Wissen über kausale Zusammenhänge in Form von Regeln und Frames (vgl. Abschnitt 17.2.2) rekonstruiert [71], S. 78. Das XPS erkennt die durch die Entscheidungen der Bereiche Konstruktion und Materialwirtschaft ausgelösten Kostenursachen (z. B. Materialeigenschaften) und ermittelt die Kostenwirkungen (z. B. Kosten für die Recherche unbekannter Lieferquellen). Die zugehörigen Schätzkosten werden für die einzelnen Materialien addiert; die Summe stellt den Prognosewert dar.
Der Beitrag der Kl zur betrieblichen Prognose
311
17.2.4.3 Vorteile des Einsatzes von Expertensystemen Verfügbarkeit Expertenwissen, Entlastung der Experten und Steigerung des Expertenpotenzials. Durch den Einsatz der XPS steht das Wissen von Experten einem größeren Anwenderkreis zur Verfügung. Durch dieses Expertenwissen wird die Qualität der Prognosen von Nichtexperten erhöht (vgl. [20], S. 296). Experten können ihre Anwendungen zeitsparend erstellen, mehrere Methoden austesten und die in der Praxis beste Methode auswählen (vgl. XPS Merlin in [57]). Transparenz des Lösungswegs. Für den Benutzer ist der Auswahlvorgang leichter nachvollziehbar. Dritte haben einen besseren Einblick in die Bedingungen, die der erstellten Prognose vorausgesetzt wurden. In einer Expertise beispielsweise führt das System FOCA ([30], [97], S. 91) neben der Dokumentation der ausgewählten Methode und der Methodenparameter auch die Bedingungen auf, die zur Auswahl entscheidend waren wie Trend oder Saison. Interpretation und Validierung der Ergebnisse. Dem Benutzer wird aufgezeigt, wie geeignet die ausgewählte Methode ist und welche Schlüsse aus dem Ergebnis möglich sind. Im XPS AMIA gilt, dass signifikante Resultate extrahiert und anhand fester Kriterien bewertet werden [6]. Die Ergebnisse der Änderungen an den ausgewählten Methoden durch den Anwender werden ebenfalls interpretiert und beurteilt (XPS FOCA in [30]). Teilanwendungen und Alternativmöglichkeiten. Neben dem Erstellen einer Prognose erlauben manche Systeme auch, Teilanwendungen, wie Bestimmung von Einflussfaktoren (Regression), Vorliegen von Trends sowie deren Ausprägung, durchzuführen bzw. zu analysieren. Ist der Benutzer mit der ausgewählten Methode nicht zufrieden, werden vom XPS Alternativvorschläge angeboten. Vollständigkeit. Alle für die Auswahl wichtigen Aspekte werden mit dem Anwender „besprochen" bzw. die entsprechenden Werte erfragt. Auch die weniger offensichtlichen Einflussfaktoren wie „allocated budget for the forecast" oder „amount of data available (sales history)" [79] werden dabei berücksichtigt. Plausibilitätskontrolle. Mit zunehmender Komplexität steigt auch die Wahrscheinlichkeit, dass Wünsche und Angaben des Benutzers nicht mehr konsistent sind. Das System überprüft die Benutzerangaben und korrigiert sie bei Bedarf. Im XPS AMIA existieren „consistency ruies (they avoid the making contradictory choices)" [6]. Auch die notwendigen Datenvoraussetzungen werden geprüft. Gegebenenfalls informiert das System den Anwender, wenn es Irregularitäten in den Daten nicht selbst beheben kann (vgl. XPS FOCA in [30]). Lernsysteme. Unerfahrenen Benutzern wird über Erklärungen, Dokumentationen, Plausibilitätskontrollen und Expertisen im Umgang mit der Prognose die Möglichkeit eröffnet, Theorie und Anwendung ohne zusätzliche menschliche Experten zu erlernen. Automation. Gerade dem unerfahrenen „ad hoc"-Anwender der Prognosemethode bietet die Automation Hilfen. So ermittelt das System vom Benutzer einzugebende Daten, wie Verdacht auf Trend, Periodizität oder Güte der Daten, durch statistische Verfahren selbsttätig (vgl. [85]). Im Bereich der Lagerbedarfsprognose teilt das System Merlin die Produkte in „low dollar", „medium dollar" bzw. „top dollar products" [57] ein.
312
Janetzke, Falk
Die Prognose der low- bzw. medium dollar products wird automatisiert. Dies ermöglicht dem Experten, sich auf die Vorhersagen der top dollar products zu konzentrieren. Lernen. Das System ist in der Lage, a posteriori Prognosemethoden anhand der erzielten Ergebnisse im Vergleich zu den realen Werten zu beurteilen und diese Bewertungen bei späterer Auswahl und Parametrierung zu berücksichtigen (vgl. [30]). 17.3 Künstliche Neuronale Netze 17.3.1 Motivation für den Prognoseeinsatz Künstliche Neuronale Netze (KNN) entstanden mit der Zielsetzung, eine Rechnerabbildung der biologischen Intelligenz zu entwickeln. Ihre Arbeitsweise, die auf Methoden der Mustererkennung beruht, motiviert den Einsatz auch in der Prognoserechnung. So besitzen KNN die Fähigkeiten, sich selbstständig an Daten anzupassen, zu lernen und zu generalisieren. Da Systeme der realen Welt auch nichtlineare Zusammenhänge aufweisen und mathematisch-statistische Verfahren bei sehr stark nichtlinearen Prognoseanforderungen ungenauer werden (vgl. [50]), bieten KNN, die als universelle funktionale Approximatoren angesehen werden und die Eigenschaft der Nichtlinearität besitzen, Potenziale für den Einsatz in der Prognose (vgl. [74], [65], [107], S. 35 f.). In den folgenden Abschnitten werden die drei zentralen Modelle der KNN vorgestellt und die zugehörigen Prognosemechanismen genauer beschrieben. Viele Erweiterungen zu neuen Netzwerkmodellen basieren auf diesen Konzepten (vgl. [80], S. 1031). Der Schwerpunkt der Beschreibung liegt auf dem KNN-Modell, dessen Einsatz in der betrieblichen Anwendung am weitesten verbreitet ist, dem Multilayerperceptron (vgl. [100], S. 1054 ff., [80], S. 1025). Weiterhin bietet die Technologie der KNN Potenziale, die über den Einsatz als Prognoseverfahren hinausgehen. So finden KNN auch in der Auswahl von Prognosemethoden Verwendung. 17.3.2 Prognose mit Multilayerperceptrons 17.3.2.1 Topologie Multilayerperceptrons (MLP) bestehen aus mehreren Schichten von Neuronen, wobei die eine der zwei äußeren Schichten zur Informationseingabe, die andere zur Informationsausgabe dient (vgl. Abbildung 3). Oftmals ist jedes Neuron (Unit) der Schicht i-1 mit allen Neuronen der Schicht i verbunden - Schicht 0 entspricht der Eingabeschicht. Eingabeinformation in das KNN könnten Vergangenheitswerte einer Zeitreihe sein. Nach der Verarbeitung der Information werden die prognostizierten Werte an den Ausgabeknoten abgelesen (vgl. [69]). Voraussetzung der Prognosefähigkeit ist, dass das KNN im Rahmen eines Lernvorgangs trainiert wird. Hierzu passt man die Gewichtung der Kanten und der Schwellwerte in den Neuronen so an, dass sich die Trainingsdaten und die im produktiven Prognosebetrieb abgelesenen Werte an der Ausgabeschicht nur unwesentlich unterscheiden. Dafür sind unabhängig von der Trainingsmethode (z. B. Error-Backpropagation) viele Beispieldaten erforderlich.
Der Beitrag der Kl zur betrieblichen Prognose
313
1...5: Eingabe KNN 6,7: Ausgabe KNN Zeitpunkt t - i, i=0...4
Abb. 3: Modell eines Multilayerperceptrons mit Eingabe von Werten einer Zeitreihe Auf diese Weise wird eine Abbildung definiert, die je nach Aktivierungsfunktion der Neuronen linear oder nichtlinear sein kann und Muster des Eingaberaums in den der Ausgabe abbildet. Die Aktivierungsfunktion bestimmt, wann ein Neuron erregt wird und wie Informationen weitergegeben werden (vgl. zu den Grundlagen der KNN z. B. [13]). 17.3.2.2 Anwendung 17.3.2.2.1 Ereignisprognose Durch Ereignisprognosen werden Vorkommnisse, wie der Konkurs eines Unternehmens, vorausgesagt, indem in der Regel Eingaben aus einem Musterraum in eine der Ereignisklassen abgebildet werden. In der Arbeit Erxiebens u.a. [25] werden in KNN Unternehmenskenndaten als Merkmale eines Unternehmensmusters eingegeben. Nach der Berechnung durch das KNN ist an den Ausgabeknoten abzulesen, ob das KNN das Unternehmen der Klasse der „Gesunden" oder der „Kranken" zuteilt und so das Ereignis „leistungsgestört" oder „nicht leistungsgestört" prognostiziert. Geometrisch lässt sich die Wirkung der KNN wie folgt deuten: Das KNN separiert den Musterraum der Unternehmen durch eine Hyperebene, z. B. im zweidimensionalen Fall, wie Abbildung 4 zeigt, durch eine Gerade. In der Abbildung sind exemplarisch die Merkmale Liquidität und Gewinn verschiedener Unternehmen aufgetragen. 17.3.2.2.2 Zeitverlaufsprognose Unter einer Zeitverlaufsprognose versteht man die Prognose von Zukunftswerten aus Vergangenheitsdaten einer oder mehrerer Zeitreihen. Erstellt man die Prognose aus den Werten einer Zeitreihe (vgl. Abbildung 5) ähnlich der Autoregression, spricht man auch von einer horizontalen Prognose. Werden Daten mehrerer Zeitreihen ähnlich der multiplen Regression verwendet und nimmt man im einfachsten Fall nur einen Wert je
314
Janetzke, Falk
Zeitreihe zu jeweils dem gleichen Zeitpunkt, so spricht man von einer vertikalen Prognose. 1: Trennlinie KNN Gewinn des Unternehmens
/K
2: krankes Unternehmen 3: gesundes Unternehmen
(3
'^
Liquidität in Prozent
8
11
Abb. 4: Modell einer Merkmalsraum-Separation durch ein Künstliches Neuronales Netz Aktienkurs (ln€)
Realwert Prognose
600
500
Zeit 30.07.2003
31.12.2003
Abb. 5: Zeitreihenprognose eines Künstlichen Neuronalen Netzes Wichtige Anwendungsgebiete sind Finanzprognosen (Aktienkurse), Lagerabgangsprognosen sowie Absatz- oder Umsatzprognosen (vgl. die Systeme in Tabelle 2, [100], S. 1048 ff., [107], S. 39 f., [80], S. 1035 ff.). Windsor und Harker [99] verwenden beispielsweise zur Vorhersage des englischen FT-Aktienindex die Eingabereihen Zinssatz, Geldmenge MI und alte Indexwerte. Topalli verwendet zur Prognose des kurzfristigen Strombedarfs alte Bedarfswerte [91], S. 497.
Der Beitrag der Kl zur betrieblichen Prognose
315
17.3.3 Prognose mit selbstorganisierenden Karten 17.3.3.1 Topologie Selbstorganisierende Karten kann man sich als Neuronengitter vorstellen (vgl. [66], S. 1 ff., [80], S. 1028 ff.), wobei jedes Neuron mit dem nächsten Gitternachbarn verbunden ist (vgl. Abbildung 6). Jedes dieser Neuronen enthält einen Referenzvektor, über den es für die Erregung ausgewählt wird. 17.3.3.2 Anwendung Ein Prognosemechanismus lässt sich folgendermaßen darstellen: Außer dem Referenzvektor w besitzt das Neuron einen Aktionsvektor r. Letzterer kann aus Regressionskoeffizienten bestehen (vgl. [96]). Mit einem Erregungsvektor v, der die letzten Werte der zu prognostizierenden Zeitreihe enthält, wird das Neuron von der Erregungsfunktion ausgewählt, dessen Referenzvektor w den geringsten Abstand zu v im Vektorraum V hat (vgl. Abbildung 6). Das ausgewählte Neuron „errechnet" aus den im Aktionsvektor enthaltenen Regressionskoeffizienten und den im Vektor v enthaltenen letzten Zeitreihenwerten eine Prognose für den nächsten Zeitabschnitt.
A: Neuronengitter V: Vektorraum e: erregtes Neuron im Gitter 1: Erregungsfunktion 2: Abstand Referenzvektor w von Erregungsvektor v i: Neuron i (w,r) r: Aktionsvektor w: Referenzvektor
Abb. 6: Prognosemechanismus einer selbstorganisierenden Karte Wählt man bei der Prognose die Zeitabschnitte klein genug, so lassen sich mit oben genannter Methode nichtlineare Prozesse approximieren (vgl. [96]) und mit einer Erweiterung auch direkt vorhersagen: Der Vektor v, in dem die Regressionskoeffizienten gespeichert sind, wird um Variablen verlängert, die die Regressionsfunktion - linear, quadratisch oder exponentiell - beschreiben. Die Abstandsmessung des Erregungsvektors v zu den gespeicherten Referenzvektoren w im Gitter und die damit verbundene Auswahl (Erregung) können als Mustererkennung angesehen werden. Genauere Informationen unter anderem über den Vorgang des Lernens der selbstorganisierenden Karten findet man in [66], S. 1 ff.).
316
Janetzke, Falk
Eine Implementierung zur Finanzprognose beschreiben Binks und Allinson [9]. Einer selbstorganisierenden Karte werden Zeitreihen gleicher Länge n angeboten. Jedes Neuron war vorher mit einem Zufallsvektor der Länge n (späterer Referenzvektor) initialisiert worden. Daraufhin werden aus einer Bibliothek für grafische Chartformationen Elemente, z. B. head and Shoulders, als Erregungsvektoren ausgewählt und der Karte präsentiert. Die Antworten ermöglichen eine Clusterbildung gemäß der angebotenen Chartfiguren. Cluster x entspricht dabei der Menge der Neuronen, die eine der Chartfigur X ähnliche Zeitreihe (Referenzvektor) enthalten. Jeder Chartfigur wurde eine Information, z. B. Prognose der weiteren Kursentwicklung, zugeordnet, die an die Neuronen des zugehörigen Clusters übergeht, d. h. in einem zusätzlichen Vektor (Aktionsvektor) im Neuron abgelegt wird. Bei der Prognose wird der selbstorganisierenden Karte eine Zeitreihe angeboten, worauf ein Neuron eines Clusters aktiv wird und dessen Aktionsvektor die Prognose beschreibt. Eine weitere Anwendung einer selbstorganisierenden Karte beschreiben Volmer und Lehrbaß [95]. Das Kohonennetz besteht aus 37 mal 37 Neuronen. Zusätzlich wurde eine Outputebene eingeführt, in der die zu prognostizierenden Werte abzulesen sind. Eingesetzt wird das System bei der Prognose von Terminkontrakten auf den DAX und ergänzt ein bereits länger im Einsatz befindliches MLP-Netz. 17.3.4 Prognose mit Boltzmannmaschinen 17.3.4.1 Topologie Die Anordnung der Units einer Boltzmannmaschine ist nicht strukturiert oder geschichtet, vielmehr ist jede Unit mit jeder anderen verbunden (vgl. [80], S. 1027 f.). Einige dieser Units sind als Eingabe-, andere als Ausgabeknoten gekennzeichnet, die übrigen „verborgen". 17.3.4.2 Anwendung Die Anwendung der Boltzmannmaschinen ist für Ereignis- als auch für Zeitverlaufsprognosen möglich (vgl. [64]). Im Gegensatz zu MLP arbeitet man hier mit einer stochastischen Abbildungsfunktion. Aufgrund der geringen Verbreitung wird die Boltzmannmaschine in dieser Arbeit nicht genauer beleuchtet. 17.3.5 Weiterführende Netzwerkmodelle Neben den zentralen Modellen der KNN und deren direkter Anwendung in der Prognose wurden weitere Netzmodelle entwickelt. Leung u.a. [41] zeigen den Einsatz der General Regression Netzwerke am Beispiel der Prognose von Wechselkursen. Tay und Cao [88] verwenden das Netzwerkmodell „Support Vector Machine" bei der Prognose von Zeitreihen aus der Finanzwelt. Chen u.a. [15] prognostizieren mithilfe von probabilistischen Netzwerken den Aktienindex TSE der Taiwanesischen Börse. VenA/eise auf weitere Netzwerkmodelle finden sich auch in [80], S. 1031 und [107], S. 37.
Der Beitrag der Kl zur betrieblichen Prognose
317
17.3.6 Aspekte der betrieblichen Verwendung von Künstlichen Neuronalen Netzen als Prognoseverfahren Anwendungsunabhängigkeit. KNN sind an keine spezielle Anwendung gebunden. Ihre universelle Einsetzbarkeit ermöglicht auch in den Bereichen Vorhersagen, in denen ökonomische Zusammenhänge nicht ausreichend formalisierbar sind. Optimale Topologie. Eine Strategie zur Wahl der optimalen Topologie existiert noch nicht [107]. Es zeigt sich aber, dass bei MLP die Verwendung zumindest einer versteckten Schicht und einer nichtlinearen Aktivierungsfunktion sinnvoll ist. Anscheinend lässt sich das Prognoseergebnis durch Rückwärtsverkettung steigern (vgl. [93]). Datenvoraussetzungen. Ähnlich mathematisch-statistischen Verfahren sind auch KNN auf genügend viele Daten angewiesen, um optimal trainiert werden zu können. Liegen zu kleine Datenmengen vor, ist einfachen traditionellen Verfahren der Vorzug zu geben (vgl. [65]). Training des Netzes. Als zentraler Lernalgorithmus ist Backpropagation nennen (vgl. [1], S. 491). Besteht das KNN aus vielen Gewichten und liegen nur kurze Zeitreihen vor, besitzt es einen Hang zur Überanpassung an die Daten („overlearning" [7]). Das Netzwerk lernt in diesem Fall vergangene Verläufe „auswendig", d. h., es modelliert jeden einzelnen Datenpunkt, und verliert somit seine Generalisierungseigenschaft. Stabilität/Reagibiiität. KNN sind aufgrund der Musterwahl auf stabileres bzw. reagibleres Verhalten trainierbar. Reagiblere Netze erhält man durch Verkürzung der Musterlängen. 17.3.7 Weiterführende Einsatzgebiete von Künstlichen Neuronalen Netzen in der Prognose Das Potenzial von KNN im Rahmen der Prognose erschöpft sich nicht nur darin, ein Vertreter nichtlinearer Prognoseverfahren zu sein. Vielmehr eröffnen sich weiterführende Einsatzgebiete: Shi u.a. [75] nutzen die KNN zur Kombination von Prognosen, die mit unterschiedlichen Prognosemethoden erstellt wurden. Dabei ordnen die KNN jeder Prognose ein Gewicht zu. Als zugrunde liegende Einzelverfahren werden mathematisch-statistische Verfahren wie ARIMA verwendet. Sohl und Venkatachalam [82] verwenden die KNN zur Auswahl geeigneter Prognoseverfahren. Dabei stellen die Autoren dem KNN als Eingabewerte z. B. die Länge der Zeitreihe, den Basistrend und die Variabilität zu Verfügung. Das KNN bestimmt dann eine von drei Kategorien, aus denen das Prognoseverfahren zu wählen ist. In der Kategorie I befinden sich die Verfahren naive Prognose, einfacher Moving Average und einfache exponentielle Glättung (vgl. auch [94], S. 169 ff.). Mit diesen Einsatzgebieten erfüllen die KNN analoge Aufgaben vergleichbarer XPS. Verglichen mit den XPS bieten die KNN den Vorteil, selbstständig zu lernen. Dadurch ergeben sich neue Möglichkeiten, Wissen zu akquirieren, das dem menschlichen Experten bislang verschlossen war. Allerdings ist dieses Wissen nicht so transparent wie in den XPS verfügbar.
318
Janetzke, Falk
17.4 Vergleich der vorgestellten Prognosemodelle Bedienbarkeit und Leistungsfähigkeit, insbesondere die Prognosegenauigkeit, beeinflussen die Akzeptanz der vorgestellten Prognosemodelle. Daher werden diese sowohl untereinander als auch mit „akzeptierten" mathematisch-statistischen Verfahren verglichen. 17.4.1 Vergleiche der Prognosemodelle der Künstlichen Intelligenz untereinander 17.4.1.1 Expertensysteme mit Künstlichen Neuronalen Netzen Innerhalb einer Studie von Bowen und Bowen [12] über die Prognose eines Lagerbedarfs in US $ werden am Spezialfall der Bevorratung von Geldautomaten XPS mit Experten und KNN verglichen. Resultat dieser Untersuchung ist, dass die Prognosegenauigkeit des XPS der des Experten zumindest gleichkommt und über der des KNN liegt (vgl. Abbildung 7).
90 80 52 70 o 60 o o 50
/t X rK ^'v
1 nn
j
v^^
30 o 20
J5 10 \\ m\
I
tBUffi
40
m\
m\ 3
4
5 Perioden
6
7
8
1 = 1 KNN ^ ^ Experte - « : ^ Realwert
9
Abb. 7: Vergleich KNN, Expertensystem und Experte mit Realwerten Das KNN kann zufällige Ereignisse, die in Zeitreihen „random surges" [12] verursachten, nicht in ähnlicher Genauigkeit wie Experten berücksichtigen. Bowen und Bowen vermuten als Ursache, dass dem KNN zu wenig Wissen über Zukunftsereignisse antrainiert wurde. Sharda und Patil [73] stimmen mit Bowen und Bowen überein, dass die Prognosefähigkeit eines automatisierbaren XPS mit der menschlicher Experten vergleichbar ist. Allerdings widerspricht ihr Ergebnis der von Bowen und Bowen beschriebenen Überlegenheit der Expertensystemtechnik gegenüber KNN. Nach Ansicht von Sharda und Patil unterscheidet sich die Prognosegenauigkeit nicht signifikant, was sie anhand des XPS Autobox (vgl. [97], S. 26 ff.) belegen.
Der Beitrag der Kl zur betrieblichen Prognose
319
17.4.1.2 Künstliche Neuronale Netzmodelle untereinander In Abschnitt 17.3 wurden unterschiedliche KNN-Modelle behandelt, von denen nun zunächst die Boltzmannmaschine sowie zwei ihrer Varianten (MFT bzw. HHT) und MLP hinsichtlich ihrer Prognosegenauigkeit verglichen werden. In einer Studie von Rehkugler und Podding [63] werden die Ergebnisse von „Steigt/Fällt"-Prognosen untersucht. Der naiven Prognose, die den letzten Veränderungswert als Prognose fortschreibt, erweisen sich Boltzmannmaschine und MLP als überlegen, wie in Abbildung 8 zu sehen ist. Die Trefferquote der Boltzmannmaschine (ca. 62 %) liegt unter der der MLP (ca. 72 %), wenngleich die MFT- (ca. 64 %) bzw. die HHT-Variante der Boltzmannmaschine (ca. 67 %) die Genauigkeit steigern kann. Die Wahl geeigneter Eingabeparameter spielt für das Ergebnis eine nicht unwesentliche Rolle.
Markttendenzprognose 80 70 ^60 p Naive Prognose D Boltzmannmaschine p MFT - Variante p HHT - Variante • MLP
"ö 50 3 40 St 30 H 20 10 0 Modelltyp
Abb. 8: Vergleich von naiver Prognose, Boltzmannmaschinen und Multilayerperceptron Die Möglichkeiten der selbstorganisierenden Karten und der MLP stellen Cherkassky u.a. [16] in einer Studie gegenüber, in der komplexe zweiparametrige Regressionsgleichungen trainiert werden. Vermutlich nicht optimierte MLP erzielen dabei schlechtere Näherungswerte hinsichtlich eines modifizierten mittleren quadratischen Fehlers bzw. der maximalen Abweichung als selbstorganisierende Karten. 17.4.1.3 Künstliche Neuronale Netze mit Case-Based Reasoning Die Prognosegenauigkeit der KNN im Vergleich zu der ebenfalls zur Kl zählenden Methode des Case-Based Reasoning (vgl. [59]) wird unterschiedlich beurteilt. Chun u.a. stellen fest, dass KNN (MLP) gegenüber Case-Based Reasoning schlechtere Prognoseergebnisse liefern (vgl. [19], S. 271). Hingegen beobachten Jo u.a. eine deutliche Überlegenheit der KNN gegenüber Case-Based Reasoning (vgl. [34], S. 104 f.).
320
Janetzke, Falk
17.4.2 Vergleiche der Künstlichen Neuronalen Netze mit mathematischstatistischen Verfahren Adya und Collopy kommen bei einer Untersuchungen von 22 Studien zu KNN zu dem Ergebnis, dass in 86 % KNN bessere Ergebnisse als alternative, übenA/iegend aus dem mathematisch-statistischen Bereich stammende, Verfahren, liefern (vgl. [1], S. 488 ff.). Einer weiteren Übersicht ist zu entnehmen, dass KNN ebenfalls gegenüber übenA/iegend mathematisch-statistischen Verfahren als überlegen angesehen werden (vgl. [107], S. 53). Auch Wong u.a. stellen in einer breiteren Anwendungsuntersuchung fest, dass KNN nur in wenigen Fällen den mathematisch-statistischen Verfahren unterlegen sind (vgl. [102], S. 134). Im Folgenden werden einzelne Vergleichsstudien dargestellt. 17.4.2.1 Künstliche Neuronale Netze mit Regressionsmethoden Innerhalb der schon in vorigen Abschnitt beschriebenen Finanzprognose liegt die Trefferqualität der multivariaten Regression ca. 12 % unter der der MLP, erreicht aber die Performance der Boltzmannmaschine (vgl. [63). In Abbildung 9 werden die Ergebnisse unterschiedlicher Topologien der MLP veranschaulicht. Auffallend ist zum einen, dass die TreffenA/ahrscheinlichkeit der Topologien um ca. 6 % schwanken, zum anderen, dass nicht die aufwändigste Topologie 3-4-1 die beste ist. Mit der Idee, die Topologie durch KNN selbstständig bestimmen zu lassen, verbessern Rehkugler und Podding [63] die Trefferquote auf 74 % (KNN, die derartige Fähigkeiten aufweisen, werden auch als selbstoptimierende Netze bezeichnet). Remus und O'Conner (vgl. [65], S. 247 f.) unterscheiden nach der Art der Ausgangszeitreihen sowie dem Zeithorizont. So sind KNN bei monatlichen bzw. quartalsbasierten Zeitreihen mindestens so gut wie traditionelle Prognosemethoden. Bei diskontinuierlichen Zeitreihen mögen sie besser sein. Bei längerem Zeithorizont erweisen sich KNN als überlegen, bei kürzerem hingegen liegt der Vorzug bei den traditionellen Methoden. Tkacz beobachtet, dass KNN bei der Vorhersage eines Bruttoinlandsprodukts besser als statistische Verfahren sind. Werden hingegen Quartalsdaten als Grundlage genommen, verschlechtert sich die Prognosequalität erheblich (vgl. [90]). Die Überlegenheit der KNN, insbesondere der MLP, gegenüber der multivariaten Regression bestätigen auch Windsor und Harker [99] (ca. 30 % geringerer mittlerer quadratischer Fehler (MSE)) sowie Chiang u.a. [17] in ihren Arbeiten. Eine um absolut 10 % höhere Prognosegenauigkeit ermitteln Fletcher und Goss [27] bei einem Vergleich der MLP mit der Logit Regression. Shrinivasan u.a. [76] unterstreichen die Überlegenheit der KNN gegenüber der Regression eindrucksvoll (ca. 40 % geringerer MSE). Zudem untersuchen sie die Methode des Exponentiellen Glättens, das Verfahren von Winters, eine Kombination aus Regression und Box-Jenkins u.a. mit dem Ergebnis, dass die Prognosegenauigkeit dieser Verfahren bezüglich des MSE signifikant (ca. 60 bis 75 %) unter der der KNN liegt. Bei Zielgruppenselektionen und Absatzprognosen im Pharmamarketing stellt Sink eine generelle Überlegenheit der KNN gegenüber traditionellen Verfahren fest [78], S. 67 ff. und S. 130 ff.]. Lind und Suiek beobachten bei der Prognose von Projektdauern eine Überlegenheit der KNN gegenüber der Regression gemessen am MAPE (vgl. [42], S. 1164).
Der Beitrag der Kl zur betrieblichen Prognose
321
Markttendenzprognose 76 n 74 72 70 68 66 64 62 60 58 56 J
D stat. Prognose MLP: 3-1 MLP: 3-2-1 MLP: 3-3-1 MLP: 3-4-1
Modelltyp
Abb. 9: Vergleich von Multilayerperceptron mit multivariater Regression 17.4.2.2 Künstliche Neuronale Netze mit der Diskriminanzanalyse Zur Beurteilung der Qualität der Ereignisprognosen durch KNN ist ein Vergleich mit der Diskriminanzanalyse hilfreich. Erxieben u.a. [25] können eine pauschale Überlegenheit einer der beiden Verfahren nicht feststellen. Unterschiede zwischen den Methoden zeigen sich bei differenzierter Betrachtung im Hinblick auf Fehler 1. und 2. Art - mit der Nullhypothese, das Unternehmen sei leistungsgestört. Der Fehler 2. Art der KNN ist selbst für unterschiedliches Alter der Daten geringer als der der Diskriminanzanalyse. Hingegen klassifizieren KNN, im Sinne eines Fehlers 1. Art, häufiger leistungsgestörte Unternehmen als nicht leistungsgestört (vgl. Abbildung 10). Zu einem entgegengesetzten Ergebnis gelangen Odom und Sharda [56], in deren Studie das KNN mehr „bankrotte" Unternehmen erkennt (80 %:60 %). Tam und Kiang [87] bestätigen den Vorteil der KNN hinsichtlich des Fehlers 1. Art und stellen schlechtere Ergebnisse bezüglich des Fehlers 2. Art fest. In ihrer Studie vergleichen sie MLP mit Diskriminanzanalyse (DA), logistischer Regression mit vorgelagerter Faktoranalyse (LR) und dem nächsten Nachbar Klassifikator (KNNb) ein bzw. zwei Jahre im Voraus (KNN:DA:LR:KNNb, Fehler 1. Art: 9:22,7:22,7:36,4 für das erste Jahr bzw. 2,5:35:30:30 für das zweite Jahr im Voraus, Fehler 2. Art: 18:9,1:9,1:9,1 für das erste Jahr bzw. 20:0:0:10 für das zweite Jahr im Voraus). Yoon u.a. [105] ermitteln als Klassifikationsergebnis, dass MLP der Diskriminanzanalyse mit 76 % zu 63 % um absolute 13 % überlegen sind. Allerdings unterscheiden sie dabei nicht nach Fehler 1. und 2. Art. Eine schlechtere Prognosegenauigkeit von 5 % gegenüber konventionellen statistischen Verfahren und ökonometrischen Techniken erzielen die KNN bei Suret u.a. [86]. Dabei prognostizieren sie mit auf zwei verschiedene Arten trainierten MLP die Richtung
322
Janetzke, Falk
der Gewinnänderung (Zunahme bzw. Einbuße) von 2940 amerikanischen Unternehmen anhand von 28 verschiedenen Unternehmensfinanzdaten.
Klassifikationsvergleich OD T~ OU
D DA Kranke
1 1 1 1
.E 20 -]i±! 10 J
5 -i1
1 1 1 1 2
II 1 1 1
D KNN Kranke D DA Gesunde • KNN Gesunde
3
Perioden
Abb. 10: Vergleich von KNN und Diskriminanzanalyse (Fehler 1. und 2. Art) Einen Vergleich mit einem Verfahren auf Basis rekursiver Partitionierung beschreiben McKee und Greenstein (vgl. [47]). Dabei zeigt sich, dass KNN bei der Vorhersage von „Bankrottereignissen" eine Trefferquote von 86 bis 91 % erzielen, das entwickelte Verfahren hingegen 95 bis 98 %. 17.5 Hybridsysteme In zunehmenden Maße werden unterschiedliche Verfahren der Kl gemeinsam in betrieblichen Prognosesystemen verwendet. Nach einer Darstellung verschiedener Formen der Hybridsysteme veranschaulichen Systembeispiele das Zusammenspiel der KlMethoden. 17.5.1 Formen von Hybridsystemen 17.5.1.1 Expertensystem in Verbindung mit Künstlichem Neuronalem Netz Bei Hybridsystemen, die aus einem XPS und KNN aufgebaut sind, dient das KNN dem XPS vorwiegend als Methode. Die Erweiterung von Experten- zu Hybridsystemen wird durch die flexible Wissensbasis (vgl. Abschnitt 17.2.2) und die Trennung der Wissensbasis von der Methodenbank unterstützt. Die Wissensbasis wird um Regeln, die geeignete Netze auswählen, und die Methodenbank um bestimmte KNN erweitert. Da das XPS als Schnittstelle zwischen Anwender und KNN fungiert, kann das KNN einerseits von einem Nichtexperten eingesetzt werden. Andererseits wird die Prognosegenauigkeit der KNN vom XPS dadurch gesteigert, dass es (unvorhergesehene) Ereignisse und Tatsachen, die in der Prognose der KNN nicht eskomptiert sind, a posteriori berücksichtigt. XPS verfügen über
Der Beitrag der Kl zur betrieblichen Prognose
323
verschiedene Möglichkeiten, mit Prognosen angeschlossener KNN umzugehen. Die prognostizierten Daten können analysiert, gewertet und bei unberücksichtigten Veränderungen venA/orfen oder berichtigt werden. Das XPS kann auch das Training des KNN erleichtern (vgl. [101], S. 148). In einer bisher weniger verbreiteten Form der Zusammenarbeit von XPS und KNN identifiziert das XPS aus dem Datenmaterial problemspezifische Schlüsselindikatoren und bereitet Zwischenwerte auf, die das KNN anschließend als Eingabedaten übernimmt. Durch diese intelligente Vorverarbeitung sollen die Trainingszeit des KNN verkürzt und bessere Prognosen erreicht werden [44]. Neben der Form XPS und KNN finden sich auch Hybridanwendungen, bei denen statt der XPS regelbasierte Systeme zum Einsatz kommen. Regelbasierte Systeme verfügen ebenfalls über eine Menge von Regeln. Das Zusammenspiel zwischen Regeln und KNN kann grundsätzlich ähnlich zu der von XPS und KNN stattfinden (vgl. [18], [92]). Eine weiterführende Form des Zusammenspiels zwischen regelbasierten Systemen und KNN beschreiben Siekmann u.a. [72]. Dort lernt das KNN das explizite, in Form von Wenn-Dann-Regeln präsentierte, Expertenwissen. Das KNN, das auch Fuzzy-Elemente beinhaltet, wird trainiert und zur Erstellung der Prognose eingesetzt. Aufgrund des semantikerhaltenden Lernverfahrens sind die Prognosen des KNN nachvollziehbar und im Sinne der ursprünglichen Regeln interpretierbar. Einen auf der Grundlage von Fuzzy-Logik entwickelten Ansatz für die Prognose des Absatzes von Fahrzeugersatzteilen beschreiben Müller und Wendisch [53]. Darin werden über Methoden der Mustererkennung typische Muster von Verlaufstypen von Lebenszyklen ermittelt. Die Zuordnung eines Produkts zu dem jeweiligen Muster erfolgt wissensbasiert über fuzzy-basierte Zuordnungsregeln. 17.5.1.2 Erweiterung um Ansätze aus der Genetik Mit Genetischen Algorithmen (GA) wird versucht, die Mechanismen der Genetik biologischer Systeme nachzubilden. GA wenden Vererbungsprinzipien wie Mutation und Crossover auf Populationen von Chromosomen an. Überträgt man die Prognoseprobleme dann in die Welt der Genetik, ermöglichen die GA die Optimierung regelbasierter Wissensbasen sowie von Topologien, Gewichtsvektoren und Trainingsdatensätzen der KNN (vgl. [54], [44]). Bei der Optimierung regelbasierter Wissensbasen betrachtet man Regeln als „Chromosome", deren Prämissen und Konklusionen durch Crossover und Mutation genetisch variiert werden. Diese neuen Regeln werden evaluiert und zur alten „Chromosomenmenge" hinzugefügt. Bei KNN deutet man die Topologien sowie die Gewichte an den Kanten einzelner Netze als „Chromosome". Beispielsweise können die Spezifika des Netzaufbaus, wie die Anzahl der Schichten oder die Anzahl der Elemente pro Schicht, durch Crossover und Mutation „genetisch" verändert werden. Die besten der neu entstandenen Netze ergänzen die alte „Chromosomenmenge". Das Anlernen der MLP und damit die Approximation an Trainingsdatensätze wird durch genetisch veränderte Gewichtsvektoren erreicht. Bohn u.a. setzen die GA bereits bei der Auswahl von Input-Werten für die KNN ein (vgl. [11]).
324
Janetzke, Falk
Eine andere Form der Evolution beschreiben Heyder und Zayer [31]. Durch den Einsatz von Methoden der Physik wie Simulated Annealing werden optimale Vertreter von Populationen von KNN ausgewählt. Variierend mit der Aufgabenstellung können dabei unterschiedliche Vertreter „zuständig" sein. GA können selbst auch zur Wissensakquisition eingesetzt werden. So nutzen Kim und Han GA zur Ableitung von Regeln, um die Ereignisprognose „Firmenbankrott" durchzuführen (vgl. [36]). 17.5.1.3 Interagierende Künstliche Neuronale Netze Lerntechniken können sich nicht nur auf ein einzelnes, sondern auch auf einen Verbund von KNN erstrecken. Error-Backpropagation und genetische Veränderung der Gewichtsvektoren gehören den Individualtechniken an. In einem „Netz von Netzen" lernen die einzelnen KNN - in diesem Zusammenhang als adaptive Agenten bezeichnet - einerseits durch Imitation des beobachteten Verhaltens anderer Netze. Ein Agent ahmt dabei z. B. das leistungsstärkste Netz nach. Implementierungstechnisch realisiert man dies derart, dass der imitierende Agent seinen Ausgabewert mit dem des nachgeahmten Agenten vergleicht und die Differenz durch Backpropagation zurückführt. Andererseits können sich die Netze durch direkten Informationsaustausch trainieren, indem sie Resultate oder genetisch veränderte Gewichtswerte transferieren. In der betrieblichen Prognosepraxis sollen die Verbundtechniken bei Agentenmodellen von „neuronalen" Aktienhändlern, die dann Kursentwicklungen gemeinsam errechnen, eingesetzt werden [46]. 17.5.2 Anwendungen 17.5.2.1 Expertensystem und Künstliche Neuronale Netze In einem System zur Prognose des Erfolgs von Bauprojekten werden KNN und XPS gemeinsam verwendet (vgl. [2]). Das zugrunde liegende KNN ist ein MLP mit drei Schichten. Den acht Eingabeneuronen werden dabei z. B. die Cash-Flow-Situation der Baufirma, der Erfolg deren Managements, die Bestellsituation für Material und Geräte angeboten. Am Neuron der Ausgabeschicht ist dann die Prognose abzulesen. Dem XPS kommt die Aufgabe zu, die Ist-Situation des Bauprojekts zu analysieren. In einem Warenhandelssystem werden die Prognosen eines KNN von einem XPS durch „money management ruies" [8] weiterverarbeitet. Das XPS sichert den Handel mit Waren durch Risikomanagement ab. Es bestimmt Stop-Ioss-Grenzen für den Fall falscher, nicht eingetretener Prognosen oder setzt Grenzen für Gewinnmitnahmen bzw. nachfolgende Stop-Ioss-Absicherungen fest. Der Unsicherheit, ob starke Veränderungen im „Umfeld" schon in den Prognosen der KNN berücksichtigt sind, begegnet das XPS, indem es bei Schwankungen von Indikatoren, die über Sicherheitslimits hinaus als Zeichen hoher Marktvolatilität anzusehen sind, von einem Vetorecht Gebrauch macht. Das System ISSS [104], das in Abbildung 11 zu sehen ist, nutzt ebenfalls Synergieeffekte im Managementbereich. Ein KNN, der „Neural Forecaster" [103], stellt dem XPS,
Der Beitrag der Kl zur betrieblichen Prognose
325
das als „Fuzzy Net" implementiert ist, „Stock Market Forecasts" zur Verfügung. Dieses wählt als Portfoliomanager mithilfe von „Company-, industry- and country-based ruies" geeignete Länder und Aktien aus. Der NeuroForecaster der NIBS Pte Ltd in Singapur [55] arbeitet mit zwölf verschiedenen Modellen von Fuzzy-KNN und eignet sich daher für unterschiedlichste Anwendungsgebiete. Neben Aktien- und Wechselkursprognosen sind beispielsweise auch Vorhersagen des Lagerabgangs oder des Bruttoinlandsprodukts möglich.
Data Base
u Neural Forecaster
Fuzzy Net
stock market forecast country list
Country Selection
stock list
Port folio
Stock Selection
Rule Base
Abb. 11: Hybridsystem ISSS Den Nachteil der KNN, ökonomisch-wirksame Besonderheiten in den prognostizierten Daten ungenau, im schlimmsten Fall gar nicht vorwegzunehmen, versucht das im Folgenden beschriebene Hybridsystem durch Nachbesserungen der Prognose auszugleichen. Dieser Mechanismus ist für die Prognoserechnung interessant, da das XPS überlagerte und damit neue Vorhersagen erstellt und nicht wie die beiden bisher vorgestellten Hybridsysteme die Prognosen der KNN „nur" bewertet. Das Hybridsystem von Bowen und Bowen [12] versucht, ökonomisch-wirksame Besonderheiten durch Nachbesserungen zu berücksichtigen. Dabei wird der Lagerbedarf mit Wissen über „special events" [43], die das gesamte Lagernetzwerk betreffen, und Wissen über die aktuelle Lagerstätte vorhergesagt. Um allgemeine Lagerprognosen zu erstellen, trainiert man das KNN nicht mit Daten über einzelne Standortfaktoren. Daher müssen solche Faktoren, ebenso die „special events", in die Korrektur des XPS einbezogen werden. Den Einsatz eines Hybridsystems aus einem KNN und regelbasierten Systemen zur Prognose des kurzfristigen Strombedarfs beschreiben Chiu u.a. [18]. Das verwendete MLP besteht aus drei Schichten. Als Eingabe erhält das KNN dabei alte Bedarfswerte sowie Prognosewerte, die regelbasiert erstellt wurden. Ein System, bei dem regelbasiert Trainingsdaten für ein KNN ermittelt werden, beschreiben Tsaih u.a. [92]. Die vom KNN erzeugten Prognosen des S&P 500 Index sind Grundlage eines Tradingsystems für Future-Kontrakte.
326
Janetzke, Falk
17.5.2.2 Künstliche Neuronale Netze und andere Verfahren Der FX Trader der Citibank London ist ein aus GA und KNN aufgebautes Hybridsystem, das Wechselkursänderungen prognostizieren kann [44]. Der GA stellt in einem Vorverarbeitungsprozess geeignete Trainingsdatensätze zusammen, indem er solche Kombinationen technischer Indikatoren (z. B. bestimmte Wechselkurszeitreihen) identifiziert, die die größte „Forecasting Power" besitzen. Aus den Kombinationen abgeleitete Werte werden dem KNN zugeführt, das anschließend eine „Kaufen"- oder „Verkaufen"-Entscheidung für die untersuchte Währung trifft. Nag und Mitra beschreiben ein Hybridsystem zur täglichen Prognose von Wechselkursen. Die Prognosen werden mit MLP erstellt. GA dienen der Optimierung der Topologieparameter der MLP, wie z. B. der Anzahl der Inputneuronen, der Anzahl der verdeckten Schichten oder der Anzahl der Neuronen je verdeckter Schicht (vgl. [54], S. 503 f.). Das Zusammenspiel von KNN und Fuzzy-Logik beschreiben Ragg u.a. [62]. Dort werden für ca. 112.000 Verkaufsstellen tägliche Verkaufsprognosen für Zeitungen erstellt. Für die Verkaufsprognosen werden durch KNN Basisprognosen erzeugt, zu denen noch Reservebestände addiert werden. Die Reservebestände werden mittels FuzzyLogik bestimmt. Ein komplexes Hybridsystem zur Verkaufsprognose stellt Kuo [38] vor. Basisprognosen werden mit klassischen MLP erzeugt. Promotions werden besonders behandelt, indem deren Auswirkungen separat mit Fuzzy KNN vorhergesagt werden. Über ein weiteres KNN werden die Einzelprognosen dann verdichtet. GA dienen zur Optimierung der Architektur der Fuzzy KNN. 17.6 Ausblick Der Trend, verschiedene Konzepte der Künstlichen Intelligenz gemeinsam im Rahmen der Prognose einzusetzen, wird sich fortsetzen (vgl. [100], S. 1047). So treten neben die KNN nach deren Hochzeit Mitte der 90er Jahre betriebliche Anwendungen auf Basis weiterer Konzepte der Künstlichen Intelligenz wie der Genetischen Algorithmen oder der Fuzzy-Logik in Erscheinung. Analog der Integration der KNN, nach deren Etablierung als Prognoseverfahren, in die Expertensystem-Technologie, ist auch eine gemeinsame Nutzung dieser neuen Konzepte zu erwarten. Ob KNN selbst in der Lage sein werden, die Rolle von Expertensystemen zu übernehmen, indem sie z. B. Prognosemethoden auswählen bzw. kombinieren, wird sich zeigen. Auch die Frage, welchen weiteren Netzwerkmodellen der Durchbruch im betrieblichen Prognoseeinsatz gelingt, bleibt abzuwarten. Das Potenzial der Künstlichen Intelligenz als Beitrag zur Prognoserechnung ist zum heutigen Zeitpunkt sicherlich noch nicht ausgeschöpft. 17.7 Literatur [1]
Adya, M. und Collopy, F., How Effective are Neural Networks at Forecasting and Prediction? A Review and Evaluation, Journal of Forecasting 17 (1998), S. 481 ff.
Der Beitrag der Kl zur betrieblichen Prognose [2] [3] [4]
[5]
[6]
[7]
[8]
[9]
[10] [11]
[12]
[13] [14] [15]
[16]
[17] [18]
[19]
[20]
327
Al-Tabtabai, H., A Framework for developing an expert analysis and forecasting System for construction projects, Expert Systems With Applications 14 (1998), S. 259 ff. Arinze, B., Kim, S.L. und Anandarajan, M., Combining and selecting forecasting models using ruie based induction, Computers & Operational Research 24 (1997) 5, S. 423 ff. Armstrong, J.S. und Collopy, F., Integration of Statistical Methods and Judgement for Time Series Forecasting: Principles from Empirical Research, S.1-31 reproduced from Wright, G. u.a. (Hrsg.), Forecasting with Judgement, 1998, S. 269 ff. Armstrong, J.S., Adya, M. und Collopy, F., Ruie-based Forecasting: Using Judgement in Time-Series Extrapolation, in: Armstrong, J.S. (Hrsg.), Principles of Forecasting, Norwell 2001, S. 259 ff. Arrus, R., Ollivier, M., Deord, B., Duvillon, M.A. und Robert, S., AMIA: An Expert System for Simulation Modelling and Sectoral Forecasting, in: Hashemi, S. u.a. (Hrsg.), Expersys-91, Gournay sur Marne 1991, S. 263 ff. Baun, S. und Isbert, H.-O., Der Einsatz Neuronaler Netze in der Finanzwirtschaft, in: Nagl, M. (Hrsg.): Congressband VI zur 16. Europäischen Congressmesse für Technische Kommunikation, Software- und Information Engineering, Velbert 1993, S. C611.01 ff. Bergerson, K, A Commodity Trading Model Based on a Neural Network-Expert System Hybrid, in: IEEE (Hrsg.), Proceedings of the International Joint Conference on Neural works. Vol. 1, Seattle 1991, S. 289 ff. Binks D.L. und Allinson N.M., Financial Data Recognition and Prediction Using Neural Networks, in: Kohonen, T. u.a. (Hrsg.), Proceedings of the International Conference on Artificial Neural Networks, Vol. 2, Espoo 1991, S. 1709 ff. Blanchard, D., Expert System Predicts Top Five Stocks, Intelligent Systems Report 9 (1992)2, S. 15. Bohn, A., Güting, Th., Mansmann, T. und Seile, St., MoneyBee: Aktienkursprognose mit künstlicher Intelligenz bei hoher Rechenleistung, Wirtschaftsinformatik 45 (2003) 3, S. 325 ff. Bowen, J.E. und Bowen, W.E., Neural Nets vs. Expert Systems: Predicting in the Financial Field, in: IEEE (Hrsg.), Proceedings of the Conference on Artificial Intelligence Application Vol. 1, San Diego 1990, S. 72 ff. Brause, R., Neuronale Netze, Stuttgart 1991. Callen, J.L., Kwan, C.C.Y., Yip, P.C.Y. und Yuan, Y., Neural network forecasting of quarterly accounting earnings. International Journal of Forecasting 12 (1996), S. 475 ff. Chen, A.-S., Leung, M.T. und Daouk, H., Application of neural networks to an emerging financial market: forecasting and trading the Taiwan Stock Index, Computers & Operations Research 30 (2003), S. 901 ff. Cherkassky, V., Lee, Y, und Hossein, L. H., Self-Organizing Network for Regression: Efficient Implementation and Comparative Evaluation, in: IEEE (Hrsg.), Proceedings of the International Joint Conference on Neural Networks, Vol. 1, Seattle 1991, S. 79 ff. Chiang, W.-C, Urban, T.L. und Baldrigde, D.E., A Neural Network Fund Net Asset Approach to Mutual Value Forecasting, Omega 24 (1996) 2, S. 205 ff. Chiu, C.-C, Kao, L.-J. und Cook, D.F., Combining a Neural Network with a Ruie-Based Expert System Approach for Short-Term Power Load Forecasting in Taiwan, Expert Systems With Applications 13 (1997) 4, S. 299 ff. Chun, S.-H., Kim, K-J. und Kim, S.H., Chaotic analysis of predictability versus knowledge discovery techniques: case study of the Polish stock market, Expert Systems 19 (2002) 5, S. 264 ff. Collopy, F., Adya, M. und Armstrong, J.S., Expert Systems for Forecasting, in: Armstrong, J.S. (Hrsg.), Principles of Forecasting, Norwell 2001, S. 285 ff.
328 [21]
[22]
[23]
[24] [25]
[26]
[27] [28] [29] [30]
[31] [32] [33] [34]
[35] [36] [37]
[38]
[39]
[40]
Janetzke, Falk Cortes-Rello, E. und Golshani, F., Uncertain Reasoning Using the Dempster-Shafer Method: An Application in Forecasting and Marketing Management, Expert System (1990)1,3.9 ff. Darbellay, G.A. und Slama, M., Forecasting the short-term demand for electricity - Do neural networks stand a better Chance?, International Journal of Forecasting 16 (2000), S. 71 ff. Dash, P.K., Liew, A.C., Rahman, S. und Ramakrishna, G., Building a Fuzzy Expert System for Electric Load Forecasting Using a Hybrid Neural Network, Expert Systems With Applications 9 (1995) 3, S. 407 ff. Eom, S.B., A Survey of Operational Expert Systems in Business (1980-1993), Interfaces, 26 (1996) 5, S. 50 ff. Erxieben, K., Baetge, J., Feidicker, M., Koch, H., Krause, C. und Mertens, P., Klassifikation von Unternehmen - Ein Vergleich von Neuronalen Netzen und Diskriminanzanalyse, Zeitschrift für Betriebswirtschaft 62 (1992), S. 1237 ff. Fildes, R., Bretschneider, S., Collopy, F., Lawrence, M., Stewart, D., Winkihofer, H., Mentzer, J.T. und Moon, M.A., Researching Sales Forecasting Practice, International Journal of Forecasting 19 (2003), S. 27 ff. Fletcher D. und Goss, E., Forecasting with Neural Networks - An Application Using Bankruptcy Data, Information & Management 24 (1993), S. 153 ff. Flores, B.E. und Pearce, St.L., The use of an expert System in the M3 competition, International Journal of Forecasting 16 (2000), S. 485 ff. Flores, B. und Wolfe, C, Judgemental Adjustment of Earning Forecasts, Journal of Forecasting 9 (1990), S. 389 ff. Hansmann, K. und Zetsche, W., Business Forecasts Using a Forecasting Expert System, in: Schader u.a. (Hrsg.), Knowledge, Data and Computer-Assisted Decisions, Berlin u.a. 1990, S. 289 ff. Heyder, F. und Zayer, St., Analyse von Kurszeitreihen mit Künstlichen Neuronalen Netzen und Competing Experts, Wirtschaftsinformatik 41 (1999) 2, S. 13 ff. Humpert, B. und Holley, P., Expert Systems in Finance Planning, Expert Systems 2 (1988)2, S. 85 ff. Indro, D.C., Jiang, C.X., Patuwo, B.E. und Zhang, G.P., Predicting mutual fund Performance using artificial neural networks, Omega 27 (1999), S. 373 ff. Jo, H., Han, I. und Lee, H., Bankruptcy prediction using Case-Based Reasoning, Neural Networks, and Discriminant Analysis, Expert Systems With Applications 13 (1997) 2, S. 97 ff. Keyes, J., Expert Systems in Financial Services - Off-the-Shelf Financial Expertise, Expert Systems 2 (1991) 4, S. 54 ff. Kim, M.-J. und Han, I., The discovery of experts' decision ruies from bankruptcy data using genetic algorithms, Expert Systems With Applications 25 (2003), S. 637 ff. Kumar, S. und Hsu, C , An Expert System Framework for Forecasting Method Selection, in: IEEE (Hrsg.), Proceedings of the Twenty-First Annual Hawaü International Conference on System Sciences, Band III: Decision Support and Knowledge-Based System Track, Honolulu 1988, S. 86 ff. Kuo, R.J., A sales forecasting System based on fuzzy neural network with initial weights generated by genetic algorithm. European Journal of Operational Research 129 (2001), S. 496 ff. Leigh, W., Paz, M. und Purvis, R., An analysis of a hybrid neural network and pattern recognition technique for predicting short-term increases in the NYSE composite index, Omega 30 (2002), S. 69 ff. Leonard, K.J., The development of a ruie based expert System model for fraud alert in consumer credit. European Journal of Operational Research 80 (1995), S. 350 ff.
Der Beitrag der Kl zur betrieblichen Prognose [41] [42] [43] [44] [45]
[46]
[47] [48] [49] [50]
[51] [52] [53]
[54] [55] [56]
[57] [58] [59] [60] [61] [62] [63]
[64]
329
Leung, MT., Chan, A.-S., Daouk, H., Forecasting exchange rates using generai regression neural networks, Computers & Operations Research 27 (2000), S. 1093 ff. Lind, M.R. und Suiek, J., A methodology for forecasting knowledge work projects, Computers & Operations Research 27 (2000), S. 1153 ff. Liu, X., Using Experimental and Fundamental Knowledge Diagnosis in Load Forecasting, in: Hashemi, S. u.a. (Hrsg.), Expersys-91, 1991, S. 257 ff. Loofbourrow, T., Advanced Trading Technologies: Artificial Intelligence on Wall Street Worldwide, Intelligent Software Strategies 8 (1992) 11, S. 1 ff. Malhotra, R. und Malhotra, D.H., Differentiating between good credits and bad credits using neuro-fuzzy Systems, European Journal of Operational Research 136 (2002), S. 190 ff. Margarita, S., Interacting Neural Networks: An Artificial Life Approach for Stock Markets, in: Aleksander, I. u.a. (Hrsg.), Proceedings of the International Conference on Artificial Neural Networks, Brighton 1992, S. 1343 ff. McKee, Th.E. und Greenstein, M., Predicting Bankruptcy Using Recursive Partitioning and a Realistically Proportioned Data Set, Journal of Forecasting 19 (2000), S. 219 ff. Medsker, L. und Turban, E., Integrating Expert Systems and neural Computing for decision Support, Expert Systems with Applications 7 (1994) 4, S. 553 ff. Mertens, P., Integrierte Informationsverarbeitung 1, 9. Aufl., Wiesbaden 1993. Mertens, P. und Backert, K, Vergleich und Auswahl von Prognoseverfahren für betriebswirtschaftliche Zwecke, in: Mertens, P. (Hrsg.), Prognoserechnung, 4. Aufl., Würzburg-Wien 1981, S. 344 ff. Mertens, P., Borkowski, V. und Geis, W., Betriebliche Expertensystem-Anwendungen, 3. Aufl., Berlin u.a. 1993. Moore, J.S., An Expert System Approach to Graduate School Admission Decisions and Academic Performance Prediction, Omega 26 (1998) 5, S. 659 ff. Müller, K und Wendisch, M., Entscheidungsunterstützung durch moderne Prognoseverfahren, in: Biethahn, J. u.a. (Hrsg.), Betriebswirtschaftliche Anwendungen des Soft Computing, Wiesbaden 1998, S. 145 ff. Nag, A. und Mitra, A., Forecasting Daily Foreign Exchange Rates Using Genetically Optimized Neural Networks, Journal of Forecasting 21 (2002), S. 501 ff. NIBS Pte Ltd (Hrsg.), Analyze it! Classify it! Forecast it! Intelligent Business Forecast Software NeuroForecaster, Produktprospekt, Singapur 1993. Odom, M. und Sharda, R., Neural Network Model for Bankruptcy Prediction, in: IEEE (Hrsg.), Proceedings of the International Joint Conference on Neural Networks, Vol. 2, San Diego 1990, S. 163 ff. O.V., Merlin: A Factory Knowledge-Based System for Forecasting Product Demand, Intelligent Software Strategies 6 (1990) 11, S. 12 ff. O.V., Expert Forecasting Software, Intelligent Systems Report 9 (1992) 12, S. 16. Pomerol, J.-Ch., Artificial intelligence and human decision making, European Journal of Operational Research 99 (1997), S. 3 ff. Puppe, F., Einführung in Expertensysteme, 2.Aufl., Berlin u.a. 1991. Qi, M. und Yang, S., Forecasting consumer credit card adoption: what can we learn about the Utility function?. International Journal of Forecasting, 19 (2003), S. 71 ff. Ragg, Th., Menzel, W., Baum, W. und Wigbers, M., Bayesian learning for sales rate prediction for thousands of retailors, Neurocomputing 43 (2002), S. 127 ff. Rehkugler, H. und Podding, T., Statistische Methoden versus Künstliche Neuronale Netzwerke zur Aktienprognose, - Eine vergleichende Studie -, Bamberger Betriebswirtschaftliche Beiträge Nr. 73, Bamberg 1990. Rehkugler, H. und Podding, T., Künstliche Neuronale Netze in der Finanzprognose: Eine neue Ära der Kursprognosen, Wirtschaftsinformatik 33 (1991), S. 365 ff.
330 [65] [66] [67]
[68] [69] [70] [71]
[72]
[73]
[74] [75] [76]
[77]
[78] [79]
[80]
[81] [82] [83]
[84] [85]
[86]
Janetzke, Falk Remus, W. und O'Connor, M., Neural Networks für time-series forecasting, in: Armstrong, J.S. (Hrsg.), Principles of Forecasting, Norwell 2001, S. 245 ff. Ritter, H., Schulten, K. und Martinez, T., Eine Einführung in die Neuroinformatik selbstorganisierender Karten, Bonn u.a. 1990. Rizzi, L., Bazzana, F., Kasabov, N., Fedrizzi, M. und Erzegovesi, L., Simulation of ECB decisions and forecast of the Short term Euro rate with an adaptive fuzzy expert System, European Journal of Operational Research 145 (2003), S. 363 ff. Schefe, P., Künstliche Intelligenz- Überblick und Grundlagen, 2. Aufl., Mannheim 1991. Schöneburg, E., Stock Price Prediction Using Neural Networks; A Project Report, Neurocomputing 2 (1990), S. 17 ff. Schweneker, O., Entwicklung eines Expertensystems für Absatzprognosen durch konzeptionelles Prototyping, Berlin u.a. 1990. Seidimeier, H., Kostenrechnung und wissensbasierte Systeme: Theoretische Überlegungen und Entwicklung eines prototypischen Anwendungssystems, (Unternehmensentwicklung, Band 10), München 1991. Siekmann, St., Neuneier, R., Zimmermann, H.G. und Kruse, R., Tägliche Prognose des Deutschen Aktienindex DAX mit Neuro-Fuzzy-Methoden, in: Biethahn, J. u.a. (Hrsg.), Betriebliche Anwendungen des Soft Computing, Wiesbaden 1998, S. 161 ff. Sharda, R., und Patil, R.B., Neural Networks as Forecasting Experts: An Empirical Test, in: IEEE (Hrsg.), Proceedings of the International Joint Conference on Neural Networks, Vol. 2, Washington 1990, S. 491 ff. Sharda, R., Neural networks for the MS/OR analyst: an application bibliography, Interfaces 24 (1994), S. 116 ff. Shi, S.M., Xu, L.D. und Liu, B., Improving the accuracy of nonlinear combined forecasting using neural networks, Expert Systems With Applications, 16 (1999), S. 49 ff. Shrinivasan, D., Liew, A.C. und Chen, J.S.P., A Novel Approach to Electrical Load Forecasting Based on a Neural Network, in: IEEE (Hrsg.), Proceedings of the International Joint Conference on Neural Networks, Vol. 2, Singapur 1991, S. 1173 ff. Sieben, G., Diedrich, R., Kirchner, M. und Krautheuser, R., Expertengestützte Ergebnisprognose zur Unternehmensbewertung, Wochenzeitschrift für Betriebswirtschaft, Steuer-, Wirtschafts- und Arbeitsrecht 43 (1990) 1, S. 1 ff. Sink, K., Einsatz Neuronaler Netze im Pharmamarketing, Dissertation, Freiburg 1992. Sisodia, R. und Warkentin, M., Marketing and Expert Systems: Review, Synthesis and Agenda, Liebowitz, J. (Hrsg.), Proceedings of the World Congress on Expert Systems, Orlando 1991, S. 276 ff. Smith, K.A. und Gupta, J.N.D., Neural networks in business: techniques and applications for the Operations researcher, Computers & Operations Research, 27 (2000), S. 1023 ff. Smith, P., Husein, S. und Leonard, D.T., Forecasting Short Term Regional Gas Demand Using an Expert System, 10 (1996) 2, S. 265 ff. Sohl, J.E. und Venkatachalam, A.R., A neural network approach to forecasting model selection, Information & Management 29 (1995), S. 29 ff. Steinmann, D. und Scheer, A.-W., Expertensysteme (ES) in Produktionsplanung und Steuerung (PPS) unter CIM - Aspekten, In: Wildemann H. (Hrsg.), Expertensysteme in der Produktionsplanung, Passau 1987, S. 202 ff. Steiner, M. und Wittkemper, H.-G., Neuronale Netze - Ein Hilfsmittel für betriebswirtschaftliche Probleme, Die Betriebswirtschaft 53 (1993), S. 447 ff. Streitberg, B. und Naeve, P., A Modesty Intelligent System for Identification, Estimation, and Forecasting of Univariant Time Series: A4: ARIMA, Artificial Intelligence, and APL2, in: Haux, R. (Hrsg.), Expert Systems in Statistics, New York 1986, S. 111 ff. Suret, J.-M., Roy, J. und Nicolas, J., Financial Forecasting Using Backpropagation of Error and the Learning Vector Quantization Methods, The Japan Society for Manage-
Der Beitrag der Kl zur betrieblichen Prognose
[87] [88] [89]
[90] [91] [92] [93]
[94] [95] [96]
[97] [98] [99]
[100] [101] [102] [103] [104] [105]
[106] [107]
331
ment Information (Hrsg.), Proceedings of the International Conference on Economics/ Management and Information Technology, Tokio 1992, S. 109 ff. Tam, K.Y. und Kiang, M., Predicting Bank Failures: A Neural Network Approach, Applied Artificial Intelligence 4 (1990), S. 265 ff. Tay, F.E.H. und Cao, L., Application of support vector machines in financial time series forecasting, Omega 29 (2001), S. 309 ff. Thiesing, P.M. und Vornberger, O., Abverkaufsprognose im Supermarkt mit Neuronalen Netzen, in: Biethahn, J. u.a. (Hrsg.), Betriebswirtschaftliche Anwendungen des Soft Computing, Wiesbaden 1998, S. 115 ff. Tkacz, G., Neural network forecasting of Canadian GDP growth. International Journal of Forecasting 17 (2001), S. 57 ff. Topalli, A.K. und Erkmen, I., A hybrid learning for neural networks applied to Short term load forecasting, Neurocomputing 51 (2003), S. 495 ff. Tsaih, R., Hsu, Y. und Lai, Ch.C, Forecasting S&P 500 stock index futures with a hybrid Al System, Decision Support Systems 23 (1998), S. 161 ff. Ulbricht, C, Dorffner, G., Canu, S., Guillemyn, D., Marijuan, G., Olarte, J., Rodriguez, C. und Martin, L, Mechanisms for Handling Sequences with Neural Networks, Bericht Nr. 29 des Österreichischen Forschungsinstituts für Artificial Intelligence, Wien 1992. Venkatachalam, A.R. und Sohl, J.E., An Intelligent Model Selection and Forecasting System, Journal of Forecasting 18 (1999), S. 167 ff. Volmer, R. und Lehrbaß, F.B., Kohonens selbstorganisierende Karten und der Terminkontrakt auf den DAX, Wirtschaftsinformatik 39 (1997) 4, S. 339 ff. Walter, J., Ritter, H. und Schulten , K., Non Linear Prediction with Selforganizing Maps, in: IEEE (Hrsg.), Proceedings of the International Joint Conference on Neural Networks, Vol.1, San Diego 1990, S. 589 ff. Weber, K., Prognosemethoden und -Software, Idstein 1991. Wilson, I.D., Paris, S.D., Ware, J.A. und Jenkins, D.H., Residential property price time series forecasting with neural networks, Knowledge-Based Systems 15 (2002), S. 335 ff. Windsor, C. und Harker, A., Multi-Variate Financial Index Prediction - A Neural Net Study, in: IEEE (Hrsg.), Proceedings of the International Neural Network Conference, Vol.1, Paris1990, S. 357ff. Wong, B.K., Lai, V.S. und Lam, J., A bibliography of neural network business applications, Computers & Operations Research 27 (2000), S. 1047 ff. Wong, B.K. und Monaco, J.A., Expert System applications in business: A review and analysis of the literature (1977-1993), Information & Management 29 (1995), S. 141 ff. Wong, B.K., und Seivi, Y., Neural network applications in finance: A review and analysis of the literature (1990-1996), Information & Management 34 (1998), S. 129-139. Wong, F.S., Time Series Forecasting Using Backpropagation Neural Networks, Neurocomputing 2 (1990/91), S, 147 ff. Wong, F.S. und Wang, P.Z., A Stock Selection Strategy Using Fuzzy Neural Networks, Neurocomputing 2 (1990/91), S. 233 ff. Yoon, Y., Swales, G. und Margavio, T.M., A Comparison of Discriminant Analysis versus Artificial Neural Networks, Journal of the Operational Research Society 44 (1993), S. 51 ff. Zadeh, L., A theory of approximate reasoning, in: Hayes, J., u.a. (Hrsg.), Machine Intelligence, Vol. 9, New York 1979, S. 149 ff. Zhang, G., Patuwo, E.B. und Hu, M.Y., Forecasting with artificial neural networks: The State of the art. International Journal of Forecasting 14 (1998), S. 35 ff.
332
Janetzke, Falk
17.8 Anhang: Tabellarische Übersicht der im Beitrag erwähnten Systeme Tabelle 1 Systemname
Anwendung
Methoden
Quelle
ten-
A4 ALFA
m.-st. m.-st.
[85] [43]
sys-
AMIA
Methodenauswahl und -anwendung Erstellung und Diagnose von Abgangsprognosen (z. B. Wasserverbrauch) Prognosemethodenmodellierung und -anwendung Prognose Abgangsprognose von Gas
m.-st.
[6]
m.-st.
[81]
Methodenauswahl und -anwendung
m.-st. m.-st., DR
KlBereich Exper-
tem Crystal DEMI ELIED FOCA Forecast Pro Interest Rate Insight Macro*World Investor
m.-st. m.-st.
[83] [70] [30], [97] [35], [97]
Finanzprognose (z. B. Zinssatz) Finanzprognose (z. B. Aktien)
ökon. Mod. m.-st., DR
Management Advisor Merlin
Absatzprognose, Planung Lagerabgangsprognose
m.-st., DR m.-st, DR
[57]
Prognex RBF
Unternehmensbewertung
m.-st.
[77]
Methodenauswahl und -anwendung
m.-st.
Absatzprognose
m.-st, DR m.-st, DR DR
[4] [79] [58] [40]
Sales Forecaster SmartForecaster XPS ohne Namen
[35] [10] [32]
XPS ohne Namen
Absatzprognose Bewertung Kundenverhalten (Prognose Betrugsverhalten) Methodenauswahl Marketing, Methodenauswahl
m.-st. m.-st ?
[37]
XPS ohne Namen XPS ohne Namen XPS ohne Namen
Methodenauswahl
m.-st ?
[3]
Methodenauswahl und -anwendung
m.-st, DR
XPS ohne Namen XPS ohne Namen
Absatzprognose, Absatzplanung
m.-st, DR DR
[21] [83]
XPS ohne Namen XPS ohne Namen XPS ohne Namen
Wechselkursprognose Prognose akademischer Performance Prognose monatlicher Nachfrage nach Industrieprodukten Lagerabgangsprognose
DR DR m.-st.
[8] [52] [28]
KNN, DR
Wechselkursprognose Aktienprognose
KNN KNN
[12] [44] [46]
KNN KNN
[104] [55]
KNN
[8]
Hybridsystem ohne Namen PAFEX Hybridsystem ohne Namen Hybridsystem ohne Namen
Finanzprognose (z. B. Aktienkurs) verschieden (z. B. Finanz- und Absatzprognose) Finanzprognose, Planung für Warenhandel Absatzprognose (Zeitungen) Prognose Erfolg von Bauprojekten Prognose Strombedarf Prognose S&P 500 z. Trading von Futures
KNN, Fuzzy KNN
[62]
Hybridsystem ohne Namen Hybridsystem ohne Namen
Prognose Wechselkurse Prognose Verkauf
Hyb-
ATMES
ridsys-
FX Trader Interagierende KNN (ohne Namen) ISSS NeuroForecaster
teme
Absatzprognose auf dem Buchmarkt Methodenauswahl und -anwendung Methodenauswahl und -anwendung
Hybridsystem ohne Namen
frühzeitige Materialeinzelkostenprognose
KNN KNN KNN, GA KNN, GA Fuzzy
[79]
[71]
[2] [18] [92] [54] [38]
1
Der Beitrag der Kl zur betrieblichen Prognose
333
Abkürzungen KNN DR Charts m.-st. ökon.
Künstliches Neuronales Netz Daumenregeln (empirisches Prognoseverfahren) Charttechniken mathematisch-statistisch ökonometrisch
Tabelle 2 Kl-Bereich
Anwendung
Neuronale
Finanzprognose
Netze
Finanzprognose (DAX)
Topologie 1 Selbstorganisierende Karten Selbstorganisierende ' Karten: 37*37 Neuronen
Quelle [9] [95]
Finanzprognose (Zinssatz, Wechselkurs Dollar)
MLP: x-x-x
[7]
Finanzprognose (Unternehmensklassifikation)
MLP: X-4-4-X
[25]
Finanzprognose (Unternehmensbankrott)
MLP: 3-4-1
[27]
Finanzprognose (Unternehmensbankrott)
MLP: 5-X-1
[56]
Finanzprognose (Aktienkurs)
MLP: 3-3-1
[63]
Finanzprognose(Aktienkurs)
MLP: 10-10-10-1
[69]
Abgangsprognose (Wasserverbrauch)
MLP: x-x-x-1
[76]
Finanzprognose (Gewinnentwicklung)
MLP: 28-40-2
[86]
Finanzprognose (Unternehmensbankrott)
MLP: 19-10-1
[87]
Finanzprognose (Zinssatz)
MLP: X-4-X
[99]
Finanzprognose (Aktienkurs)
MLP: 10-16-9-1
[104]
Finanzprognose (Aktienkurs)
MLP: 4-2-2
[105]
Finanzprognose
MLP: x-x-x
Finanzprognose (Aktienindex) Abgangsprognose (Gasverbrauch, Fahrzeugersatzteile)
Fuzzy KNN MLP: x-x-x
[11] [72] [53]
Absatzprognose (Artikelabsatz im Supermarkt)
MLP: x-4-1
[89]
Prognose Wert von Fonds
MLP
[17]
Prognose Wert von Fonds
MLP: 7-X-1
[33]
Prognose Finanzindex
MLP: x-x-x
[39]
Prognose Kundenverhalten im Kreditkartenbereich
MLP: x-x-x
[61]
Prognose kurzfristiger Stromverbrauch
MLP: x-x-x
[91]
Prognose Hauspreis
MLP: x-x-x-1
[98]
Kombination Prognose
MLP: 3-X-X-1
[75]
Auswahl Prognoseverfahren
MLP: 11-X-3
[82]
Prognose Quartalszahlen
MLP: 4-X-1
[14]
Abkürzung und Erläuterung: X (Topologie) 3-3 (Topologie) 1 bis 2 (Topologie)
= nicht mit Bestimmtheit angebbar bzw. nicht bekannt = zwei Schichten mit je 3 Neuronenelementen = je nach Anwendung 1 bis 2 Neuronenelemente dieser Schicht
1
18 Monitoring von Prognosemodellen von Ulrich Küsters und Claudia Becker 18.1 Übersicht Frühwarnsysteme (Monitore) spielen in allen Bereichen der Betriebswirtschaftslehre eine wichtige Rolle, um kürzlich eingetretene, aber noch nicht diagnostizierte Entwicklungen und Ereignisse, die für ein Unternehmen von Bedeutung sind, möglichst präzise und frühzeitig zu erkennen. Frühwarnsysteme dienen damit aus betriebswirtschaftlicher Sicht vor allem dem Zweck, mithilfe geeigneter Maßnahmen rechtzeitig auf neue Entwicklungen zu reagieren. Beim Monitoring unterscheidet man zwischen drei unterschiedlichen Vergleichen: 1. 2. 3.
Plan versus Prognose, Plan versus Ist und Prognose versus Ist.
Plan-Prognose- und Plan-Ist-Vergleiche, auf die hier nicht weiter eingegangen wird, werden vor allem im Controlling eingesetzt; siehe dazu unter anderem die Literatur über Kennzahlensysteme wie [52]. Dieser Beitrag konzentriert sich hingegen auf Prognose-lst-Vergleiche mithilfe statistischer Monitore. Prognoseverfahren beruhen im Wesentlichen auf einer Fortschreibung der Muster der Vergangenheit. Dabei entstehen aufgrund von Zufallsschwankungen zwangsläufig Abweichungen zwischen Prognose und Ist, die eine Konsequenz der in der Betriebswirtschaftslehre unvermeidbaren nicht-deterministischen Systeme sind. Zur Modellierung dieser Unsicherheiten werden daher neben den Punktprognosen von Lageparametern oft auch die mit den Prognosen assoziierten Risiken mithilfe von Streuungsschätzern, Konfidenzintervallen und Dichteprognosen beschrieben. Systematische, d. h. nicht-zufällige Abweichungen zwischen Prognose und Ist weisen hier zum einen auf Prozessänderungen wie Niveau- oder Trendverschiebungen hin, denen man möglicherweise durch geeignete betriebswirtschaftliche Maßnahmen (z. B. Erhöhung der Werbeintensität bei Absatzeinbrüchen) begegnen kann. Damit weist das statistische Monitoring in Form von Prognose-Ist-Vergleichen zunächst einmal eine betriebswirtschaftliche Frühwarnfunktion auf, die in der Signalisierung von bereits eingetretenen, aber möglicherweise noch nicht erkannten Prozessänderungen besteht. Zum anderen führen Prozessänderungen unabhängig von den betriebswirtschaftlichen Konsequenzen und Gegenmaßnahmen aber auch zu Problemen bei der Nutzung eines Prognoseverfahrens. Ausreißer, seien es nun singulare, transiente oder auch permanente Effekte, wirken sich je nach Art in unterschiedlichem Ausmaß (a) auf die Modellidentifikation, (b) auf die Schätzung der Modellparameter, (c) auf die Verankerung, die Form und den Verlauf der Prognosefunktion sowie (d) auf die Bewertung der mit der Prognose assoziierten Risiken, also die Verteilung der Prognosefehler aus. Dabei beeinträchtigen singulare und transiente Prozessänderungen die Prognosefunktionen parametrischer Prognoseverfahren (z. B. exponentielle Glättung, Box-Jenkins-Modelle
336
Küsters, Becker
und dynamische Regressionen) meistens stärker als die Prognosefunktionen robuster Verfahren der Zeitreihenanalyse [31]. Sowohl aus betriebswirtschaftlicher als auch aus statistischer Sicht besteht die zentrale Aufgabe des Monitoring zunächst in einer Trennung von zufälligen und systematischen Abweichungen. Liegen systematische Abweichungen vor, so ist (1) eine präzise Diagnose des Zeitpunktes der Prozessänderung und (2) eine zuverlässige Klassifikation des Ausreißertyps erforderlich. Nach der Diagnose einer Prozessänderung bietet sich ein breites Spektrum an Handlungsalternativen an. Dieses reicht vom Ignorieren des Ausreißers über eine ausschließlich statistische Ausreißermodellierung im Prognoseverfahren bis zur Einleitung betriebswirtschaftlicher Gegenmaßnahmen. Singulare und auch transiente Prozessänderungen erfordern typischerweise geringere Korrekturen als Prozessänderungen mit permanenten Auswirkungen. Methodisch bieten sich vier grundsätzlich verschiedene Ansätze zur statistischen Berücksichtigung von Ausreißern und Strukturbrüchen an: 1.
Abbildung des zeitlich veränderlichen Risikos durch Volatilitätsmodelle; dieser Ansatz beschränkt sich im Wesentlichen auf Modelle zur Abbildung von risikorelevanten Ausreißern, die weitgehend mittelwertresistent sind, z. B. ARCH- und GARCH-Modelle [7].
2.
Robuste Modellierung von Zeitreihen, bei denen ausreißerresistente konditionale Erwartungswerte oder Mediane mithilfe nichtparametrischer Verfahren geschätzt werden [31].
3.
Modellierung von Ausreißern und Strukturveränderungen, die iterativ über Diagnose-, Korrektur-, Modellidentifikations- und Schätzschritte mithilfe parametrischer Modelle sequenziell berücksichtigt werden.
4.
Adaption, d. h. dynamisches Lernen von Prognosefunktionsparametern, die eine rasche Korrektur zentraler Parameter wie die Prognoseverankerung und die Anpassungsgeschwindigkeit an die Veränderung der Eigendynamik ermöglicht.
Dieser Beitrag konzentriert sich vor allem auf die beiden letzten Methodengruppen, da diese Ansätze durch die explizite Signalisierung von Ausreißern auch die betriebswirtschaftliche Funktion als Frühwarnsystem erfüllen. Diese Eigenschaft ist sowohl bei robusten Verfahren als auch bei Volatilitätsmodellen nicht unmittelbar vorhanden, obgleich robuste Schätzmethoden auch bei der parametrischen Ausreißermodellierung eine zunehmende Rolle spielen [6]. Abschnitt 18.2 gibt zunächst einen Überblick über die verschiedenen Ausreißertypen sowie deren Konsequenzen. Im Anschluss werden Methoden des Monitoring in zwei gängigen Prognoseverfahren vorgestellt: der exponentiellen Glättung in Abschnitt 18.3 und den Box-Jenkins-Modellen in Abschnitt 18.4. Bei den Monitoren für diese beiden Prognoseverfahren handelt es sich weitgehend um traditionelle und teilweise bereits seit den 60er Jahren bekannte Standard-Methoden, die insbesondere in den letzten Jahren kaum weiter entwickelt wurden. In den Schlussbemerkungen wird noch kurz auf einige weitere Entwicklungen eingegangen.
Monitoring von Prognosemodellen
337
Dieser Beitrag beschränkt sich auf das Monitoring skalarer Zeitreihen {;^i,;^2v.,;^r} ^'^ insgesamt T Beobachtungen. Die simultane Analyse mehrerer Zeitreihen, wie sie etwa in Produkthierarchien vorkommen, wird hingegen nicht behandelt, da die statistische Literatur bisher keine gängigen Lösungskonzepte aufzeigt. Der Zeitpunkt des Auftretens eines Ausreißers wird generisch mit r bezeichnet, obgleich natürlich mehrere Ausreißer auftreten können. Zur Vereinfachung der Nomenklatur werden alle Formen von Prozessänderungen, seien es nun singulare additive Ausreißer, temporäre Übergänge oder auch Strukturbrüche wie permanente Niveauverschiebungen generisch als Ausreißer bezeichnet, da die entsprechende angelsächsische Literatur alle Prozessänderungsarten unter dem Oberbegriff „outlier" behandelt. Die //-stufige Prognose für y^^^ vom Prognoseursprung t wird mit f^ [h) bezeichnet. 18.2 Ausreißertypen und ihre Konsequenzen 18.2.1 Ausreißertypen Eine allgemeine Klassifikation von Ausreißern ist schwierig, da die Definition modellabhängig ist. Während die Box-Jenkins-ARIMA-Methodologie einen umfassenden Rahmen zur Definition, Diagnose und Behandlung von Ausreißern liefert, findet man bei vielen anderen Prognoseverfahren meist nur einfache, heuristische und statistisch unzureichend modellierte Ansätze zum Umgang mit Ausreißern, die sich zudem auf wenige Ausreißerarten beschränken. Abbildung 1, die sich im Wesentlichen an [37] anlehnt, gibt einen Überblick über verschiedene Ausreißertypen, die sich in der dargestellten Vielfalt allerdings nur mithilfe von saisonalen Interventions- und Transferfunktionsmodellen (Box-Jenkins-SARIMAXModelle [8], [50]) mit überlagerten Volatilitätsmodellen (z. B. GARCH- oder Varianzbruch-Modelle) diagnostizieren und modellieren lassen. Die genaue parametrische Form der verschiedenen Ausreißertypen wird erst bei der Darstellung der zugehörigen Diagnoseverfahren in den Abschnitten 18.3 und 18.4 erläutert. Im Regelfall stellen Ausreißer entweder unbekannte oder im Rahmen der verwendeten Prognosemethodologie nicht modellierbare Kausaleffekte oder Strukturbrüche dar. Beispielsweise bewirkt eine Werbeaktion eine temporäre Absatzzunahme, deren Nachwirkung nach einiger Zeit abstirbt. Derartige Effekte sind zwar ohne Schwierigkeiten mit kontemporären und verzögerten Variablen in Regressionsmodellen abbildbar [27], erfordern aber eine Aufzeichnung aller wesentlichen Charakteristika der Werbeaktionen wie Zeitpunkte, Dauer und Intensitäten sowie die Zuordnung der Aktionen zu produkt-, artikel- und regionsspezifischen Zeitreihen in Produkthierarchien. Gerade an dieser Aufzeichnung und Zuordnung mangelt es aber in den meisten Unternehmen, sodass in der Praxis kaum eine Alternative zum datengesteuerten Diagnostizieren (Monitoring) besteht. Vor allem im Kontext der Box-Jenkins-Modelle entstand seit der bahnbrechenden Arbeit von Fox [22] im Jahre 1972 eine weit reichende Differenzierung von Ausreißerarten, obgleich die Monitore der exponentiellen Glättung zu Niveauverschiebungen deutlich älter sind [9]. In diesem Beitrag werden folgende Arten unterschieden:
338
Küsters, Becker Additiver Ausreißer mit co^o 20 = ^
Niveauverschiebung mit COLS,2O " ^
Transienter Übergang mit COTC,2O = 5 und 6 = 0,7
Reallokationsausreißer mit CORO2,2O = 5
Saisonaler Impuls mit COSP 20 ~ ^ ^^^ Periodizität s = 4
Trendänderung mit 0 j s 20 " 0-2
Innovationsausreißer in MA(3)-Fyozess mit ©10,20 = 5
Varianzerhöhung mit covc,2o = 2
Abb. 1: Ausreißertypen (mit r = 20 als Zeitpunkt des Auftretens des Ausreißers) 1.
Additiver Ausreißer (AO = Additive Outlier, Fox [22]): Der einfachste Ausreißertyp ist der additive Ausreißer. Dieser repräsentiert eine singulare Störung und bewirkt eine auf einen einzigen Zeitpunkt r beschränkte Veränderung des Niveaus der Zeitreihe. Beispielsweise führt ein nicht berichteter oder nicht protokollierter Produktionsausfall innerhalb eines Monats zu einem additiven Ausreißer.
2.
Niveauversciiiebung (LS = Level Shift, Tsay [57]): Während bei einem AO nur eine isolierte Beobachtung „vom üblichen Muster der Zeitreihe" abweicht, bewirkt ein Level Shift (LS) eine permanente Änderung des mittleren Niveaus auf einen neuen Wert ab dem Zeitpunkt r.
3.
Transienter Übergang (TC = Transient Change, Tsay [57]): Ein transienter Übergang bewirkt ähnlich wie ein Level Shift eine Änderung des Niveaus einer Zeitreihe, allerdings ist diese Änderung nicht permanent, sondern lediglich vorüberge-
Monitoring von Prognosemodellen
339
hend. Ein Beispiel für einen transienten Übergang ist der oben skizzierte Fall einer Werbeaktion, deren Wirkung mit zunehmendem Zeitabstand schwächer wird und gegen Null konvergiert. Mit transienten Übergängen kann man als Grenzfälle auch additive Ausreißer und Niveauverschiebungen abbilden. 4.
Reallokationsausreißer (RO = Reallocation Outlier, Wu, Hosking und Ravishanker [63]): Ein Reallokationsausreißer kann ebenso wie eine Niveauveränderung als eine Folge von mehreren zusammenhängenden additiven Ausreißern dargestellt werden. Zusätzlich weisen Reallokationsausreißer jedoch die besondere Eigenschaft auf, dass sich die Einzeleffekte dieser M additiven Ausreißer zu Null aufsummieren. Reallokationsausreißer entstehen oft durch eine in der Datenbasis nicht protokollierte Preiserhöhung, die im Monat r vor der Preiserhöhung zu vorgezogenen und im Folgemonat r + 1 zu verminderten Lagerhaltungskäufen im gleichen Umfang führt. Dieser Reallokationsausreißer über zwei Zeitpunkte wird mit R02 bezeichnet.
5.
Saisonaler Impuls (SP = Seasonal Pulse, Bell [5]): Ein saisonaler Impuls kann ebenfalls als additiver Ausreißer interpretiert werden, jedoch tritt dieser in regelmäßigen Abständen mit der Periodizität s auf. Saisonale Impulse erscheinen meistens nicht isoliert, sondern als plötzlich ab dem Zeitpunkt r auftretende Änderungen der deterministischen Saisonstruktur. Derartige Effekte werden manchmal durch organisatorisch bedingte Änderungen der Handelsgebaren oder Lieferzyklen verursacht.
6.
Trendänderungen (TS = Trend Shift): Deterministische Trendänderungen können sich in einer Umkehr des Trends, aber auch in Trendverstärkungen und Trendabschwächungen bemerkbar machen. Die Diagnose von Trendänderungen wurde nach unserem Kenntnisstand in der statistischen Literatur nur am Rande behandelt, allerdings verfügen Programmpakete wie Autobox 5.0 [1] über nicht dokumentierte Methoden zur Diagnose lokaler Trendänderungen\
Die Ausreißerarten 1 bis 6 verursachen entweder isolierte, temporäre oder permanente Veränderungen des Niveaus der Zeitreihe. Sie sind hinsichtlich ihrer Nettoeffekte modellunabhängig. Neben diesen Ausreißertypen werden in der Literatur noch zwei weitere Ausreißerarten behandelt, die sich lediglich indirekt über den modelltheoretisch nur in Box-Jenkins-Modellen und EnA^eiterungen formal vorhandenen Innovationsterm auswirken. 7.
Innovationsausreißer (10 = Innovational Outlier, Fox [22]): Innovationsausreißer beeinflussen nicht die Zeitreihe y^ direkt, sondern wirken sich indirekt über einen Puls auf die Innovationsterme des Box-Jenkins-Modells aus. Ihre Wirkung beschränkt sich nicht nur auf eine Veränderung der Zeitreihe zum Zeitpunkt r, sondern setzt sich dynamisch mit der gleichen Gedächtnisstruktur wie das zugrunde liegende ARIMA-Modell in den nachfolgenden Beobachtungen fort. Innovationsausreißer sind durch eine bloße Inspektion der Zeitreihe nicht zu erkennen.
1
In instationären ARIMA-Modellen kann man deterministische Trendänderungen durch eine Niveauverschiebung des Driftparameters der ersten Differenz modellieren und damit auch diagnostizieren. Allerdings fehlt immer noch ein Konzept zur Diagnose von deterministischen Trendänderungen in Modellen, die außer der Trendänderung eine stationäre ARMA-Fehlertermstruktur aufweisen.
340 8.
Küsters, Becker Varianzänderungen (VC = Variance Change, Tsay [57]): Hinsichtlich der Volatilität lassen sich zwei unterschiedliche Arten von Veränderungen unterscheiden. Neben Strukturbrüchen der Varianz^ werden insbesondere bei Kapitalmarktdaten dynamische Varianzveränderungen mithilfe von ARCH- oder GARCH-Modellen analysiert und modelliert. Analysiert man instabile Varianzprozesse mithilfe von Modellen, die lediglich eine Dynamik der konditionalen Erwartungswerte unter der Annahme konstanter Varianzen modellieren (z. B. Box-Jenkins-Modelle), so führt dies im Rahmen des Monitoring fast immer zu Serien von diagnostizierten Strukturbrüchen der Varianz.
In der Praxis sind die einzelnen Ausreißerarten diagnostisch nicht immer klar trennbar. Zum einen bestehen in Sonderfällen analytische Äquivalenzen zwischen verschiedenen Ausreißerarten. Beispielsweise ist ein transienter Übergang mit einer Gedächtnisrate von S = 0,7 nicht von einem Innovationsausreißer in einem autoregressiven Modell erster Ordnung mit einem Koeffizienten von ^ = 0,7 unterscheidbar. Zum anderen lassen sich Störungen insbesondere am Ende der Zeitreihe nur sehr schwer klassifizieren. Wird im Extremfall nur die letzte verfügbare Beobachtung als Ausreißer identifiziert ( r = r ) , so ist eine Ausreißerklassifikation unmöglich. Dementsprechend muss man bei automatischen Diagnoseverfahren inhaltlich begründete Voreinstellungen für die Ausreißermelde- und Bereinigungsprioritäten festlegen. 18.2.2 Konsequenzen der unzureichenden Berücksichtigung von Ausreißern Ausreißer können zu schwerwiegenden Konsequenzen in allen Phasen des Modellbildungs- und Prognoseprozesses führen. Dieser besteht im Wesentlichen (1) aus der Datenexploration, (2) der Modellidentifikation, (3) der Modellschätzung, (4) der Evaluation und (5) der Prognose, wobei die Phasen (2)-(4) iterativ wiederholt werden, bis keine weiteren Modellverbesserungen mehr möglich sind [8]. Die Auswirkungen von Ausreißern hängen sowohl vom Ausreißertyp, vom Zeitpunkt des Auftretens, als auch von der Stärke ab, wie nachfolgend exemplarisch verdeutlicht wird. 18.2.2.1 Auswirkungen auf die Modeilschätzung und -identifikation Die Konstruktion einer Prognosefunktion erfordert in einem ersten Schritt die Auswahl eines Modells und/oder Verfahrens, das den Datengenerierungsprozess (DGP) der Zeitreihe entweder explizit oder implizit adäquat abbildet. Für diesen Zweck stehen einerseits Werkzeuge der explorativen Datenanalyse [12] wie Autokorrelationsfunktionen und Season-Subseries-Plots, andererseits aber auch statistisch fundierte Modellspezifikationsmethoden wie Informationskriterien [15] und Unit-Root-Tests [3] zur Verfügung. Ist die Zeitreihe durch Ausreißer kontaminiert, so kann dies zu Fehlern bei der Identifikation des korrekten bzw. angemessenen Modells führen. Schwerwiegende Probbleme treten vor allem bei einer fehlerhaften Trennung von stationären und instationären Prozessen sowie bei letzteren zwischen deterministischen und stochastischen Instationaritäten auf.
^
In bayesianischen dynamischen linearen Modellen [62] werden beim Monitoring von Varianzen nur Erhöhungen betrachtet, da diese zu einer Reduktion der Prognosegenauigkeit führen. Volatilitätssenkungen werden hingegen üblicherweise ignoriert.
Monitoring von Prognosemodellen
341
Weiterhin können Ausreißer auch zu erheblichen Verzerrungen der Parameterschätzer führen. Meistens sind diese Verzerrrungen auch die Ursache für die oben erwähnten Modellidentifikationsfehler, da zahlreiche Identifikationswerkzeuge auf der Schätzung von tentativen Modellen beruhen. Am einfachsten lässt sich dies an einem autoregressiven Prozess erster Ordnung illustrieren, der zum einen mit einem AO und zum anderen mit einem LS kontaminiert wird. Hierzu nimmt man an, dass die Zeitreihe y^ durch einen stationären AR(1)-Prozess y^ =^yt-\ +^? generiert wird, wobei a^ eine Folge stochastisch unabhängiger, identisch normalverteilter Zufallsvariablen ist. Der Parameter ^ G ( - 1 , 1 ) ist der AR-Koeffizient erster Ordnung, wobei die Beschränkung des Wertebereichs die Stationarität des Prozesses sicherstellt. 1.
Ist die Zeitreihe durch einen AO im mittleren Bereich kontaminiert, so konvergiert der Parameterschätzer für (/> mit wachsender Größe des AO gegen Null [51]. Dies führt möglicherweise dazu, dass der AR(1)-Prozess irrtümlich als Folge stochastisch unabhängiger Zufallsvariablen identifiziert wird, sodass die Dynamik des Prozesses nicht zur Prognose genutzt werden kann.
2.
Tritt hingegen im mittleren Bereich der Zeitachse der Reihe ein LS auf, so strebt der Parameterschätzer für ^ mit wachsender Stärke der Veränderung gegen den Wert Eins [51]. Diese Verzerrung führt unter Umständen dazu, dass der mit Ausnahme der deterministischen Niveauverschiebung stationäre AR(1)-Prozess irrtümlich mithilfe von diagnostischen Tests (z. B. dem Dickey-Fuller-Unit-Root-Test [3]) als instationärer Random Walk und somit als l(1)-Prozess identifiziert wird.
Umgekehrt können Ausreißer in einer Zeitreihe ohne dynamische Struktur zur irrtümlichen Diagnose dynamischer Prozesse führen, obgleich eine Folge stochastisch unabhängiger Größen vorliegt. Ein Beispiel hierfür ist ein LS, der möglicherweise durch einen großen Autokorrelationskoeffizienten erster Ordnung zur Identifikation eines AR(1)-Modells führt. 18.2.2.2 Ausv\^irkungen auf die Prognosefunktion Neben den durch Ausreißer aufgrund verzerrter Schätzer verursachten Spezifikationsfehlern können aber selbst unter der Voraussetzung korrekt spezifizierter Modelle und erwartungstreuer bzw. konsistenter Schätzer Probleme durch eine inkorrekte Verankerung der Prognosefunktion sowie durch Vergrößerungen oder Verkleinerungen der Prognosevarianz entstehen. Abbildung 2 verdeutlicht exemplarisch die Auswirkungen einer Niveauveränderung und eines additiven Ausreißers in einem AR(1)-Modell auf die Prognosefunktion. Grafik 2a zeigt den ausreißerfreien Verlauf einer simulierten Zeitreihe y^ und die zugehörige Prognosefunktion /7^(//), also /looW für h = l,...,20 auf der Grundlage des geschätzten Autokorrelationskoeffizienten erster Ordnung. In Grafik 2b wird die Zeitreihe hingegen zum Zeitpunkt r = 40 durch einen LS überlagert. Identifiziert man als Modell einen l(1)-Prozess, so erhält man als Prognosefunktion den Random Walk fP{h) = yj, also /looW^J^ioo- Behält man hingegen die korrekte AR-Ordnung mit p = \ unter Vernachlässigung der deterministischen Niveauverschiebung bei, so erhält man die zum AR(1)Prozess gehörende Prognosefunktion fT^\h) = y + ^{yj-y), somit also fm{^)'^y^^iym -y)^ die gegen den Stichprobenmittelwert y der ersten 100 Beo-
342
Küsters, Becker
bachtungen konvergiert. Dieser liegt deutlich höher als das durchschnittliche Niveau der ersten 39 Beobachtungen, aber auch deutlich niedriger als das durchschnittliche Niveau der letzten 61 Beobachtungen. In diesem Fall würde die Identifikation des fehlerhaft spezifizierten Random-Walk-Modells zu genaueren Prognosen als die Identifikation der korrekten AR(1)-Modellordnung mit fehlender Verschiebung führen. Siehe dazu auch die Arbeit von Chen und Tiao [14], in der zwischen instationären ARIMAModellen und stationären ARMA-Modellen mit zufälligen Niveauverschiebungen (RLARMA = random level shift ARMA) unterschieden wird.
2a AR(1) ohne Ausreißer o _
LO
~"
-
fioo(h)
o -
'
1
1
1
1
1
I
20
40
60
80
100
120
2bAR(1)mitLS, COLS,4O = 5
2cAR(1)mitAO,coAo,4o = 5
Abb. 2: Auswirkungen von LS und AO in r = 40 auf die Prognose Abbildung 2c illustriert die Auswirkung eines AO, der zu der in Abbildung 2a dargestellten Zeitreihe zum Zeitpunkt r = 40 hinzugefügt wurde. Behält man die Identifikation als AR(1)-Modell bei, so wirkt sich lediglich die systematische Unterschätzung des Autokorrelationskoeffizienten erster Ordnung aus. Dies führt dazu, dass die Prognose-
Monitoring von Prognosemodellen
343
funktion fT^\h) = y + ^\yj^-y), also /ioo(^) = 3^ + ^^(3^ioo-^) rascher gegen den unkonditionalen Mittelwert y der Zeitreihe konvergiert. Eine fehlerhafte Identifikation der Zeitreihe als Folge stochastisch unabhängiger, identisch verteilter Zufallsvariablen führt hingegen zu einer inkorrekten Verankerung der Prognosefunktion auf den unkonditionalen Mittelwert durch fP(^h) = y , also /IOO^(/^) = ( X ) ! I ^ H / 1 Ö Ö ' sodass bereits die einund zweistufigen Prognosen mit erheblichen Fehlern behaftet sind. Die unmittelbaren Auswirkungen von Ausreißern auf die Prognosefunktion hängen erheblich davon ab, an welcher Position innerhalb der Zeitreihe der Ausreißer auftritt. Ausreißer am Ende der Zeitreihe wirken sich nur schwach auf den Parameterschätzer, aber erheblich auf die Prognosefunktion und deren Verankerung aus. Dies liegt zum einen an der unzureichenden Unterscheidbarkeit von Ausreißern. Zum anderen werden in fast allen Prognoseverfahren wie der exponentiellen Glättung und den ARIMAModellen die letzten Daten bei der Prognose stärker als weiter zurückliegende Datenpunkte gewichtet. 18.2.3 Maßnahmen zur Berücksichtigung von Ausreißern Identifizierte Ausreißer lassen sich mit vier unterschiedlichen Methoden bei der statistischen Prognostik berücksichtigen: 1.
Datenstutzung: Bei allen Prognoseverfahren besteht die Möglichkeit, den als Ausreißer diagnostizierten Datenpunkt und alle vorhergehenden Beobachtungen zu streichen und das Prognoseverfahren neu zu starten. Dies ist zum Beispiel nach einem Produktrelaunch sinnvoll, führt aber insbesondere bei gegenwartsnahen Ausreißern zu erheblichen Daten- und damit Informationsverlusten.
2.
Datensubstitution: Bei singulären und transienten Ausreißern mit temporärer Wirkung können die betroffenen Beobachtungen lokal durch Prognosen ersetzt werden. Bei einem AO etwa ersetzt man y^ durch die einstufige Prognose /-_i(l), während ein RO der Länge 3, der zum Zeitpunkt r auftritt, approximativ durch eine Ersetzung von y^^y^^^ und y^^2 durch /._i(l), / - i ( 2 ) und /-_i(3) eliminiert werden kann. Bei transienten Übergängen (TC) ist dies wegen des möglicherweise langen Gedächtnisses schwieriger. Die Datensubstitution führt zu einer Unterschätzung der Prognosevarianz, die aber bei langen Zeitreihen mit geringer Ausreißerzahl meistens vernachlässigt werden kann.
3.
Adaptive Parameteranpassung: Die Parameter eines Prognoseverfahrens können dynamisch in Abhängigkeit von der Ausreißerstärke angepasst werden und entsprechend rasch auf die Datenänderung reagieren. Beispielsweise wird die Adaptivität, d. h. die Anpassungsgeschwindigkeit des Systems an neue Daten, in der exponentiellen Glättung durch eine Veränderung der Glättungsparameter gesteuert. Werden die Glättungsparameter im Grenzfall gleich 1,0 gesetzt, so entspricht dies der Methode einer Datenkappung und einer Reinitialisierung des Algorithmus durch eine Random-Walk-Prognose.
4.
Ausreißerdiagnose und -modellierung: Ideal, aber aufwändig ist eine Einbettung der identifizierten Ausreißer in ein parametrisches Modell. Dieser Ansatz erfordert sowohl eine präzise Identifikation des Ausreißerzeitpunktes T als auch eine exak-
344
Küsters, Becker te Klassifikation des Ausreißertyps. Anschließend werden die Ausreißer mithilfe von Interventionseffekten in Box-Jenkins-Modelle [8], mit Ereignisindizes in Glättungsmodelle [56] oder mithilfe von Regressoren auch in frequentistische [30] und bayesianische [62] Strukturkomponentenmodelle eingebettet. Eine umfassende Modellierung aller Ausreißertypen ist bisher aber nur mit Interventionsfunktionsmodellen möglich.
18.3 Monitore in exponentiellen Glättungsmodellen 18.3.1 Diagnose additiver Ausreißer Exponentielle Glättungsmethoden [24] umfassen eine Gruppe von Ad-hoc-Verfahren, bei denen die Verfahrensauswahl ausschließlich explorativ und datengetrieben ohne eine explizite Referenz zu einem Datengenerierungsprozess stattfindet^. In Verbindung mit den tendenziell guten Ergebnissen bei Prognosewettbewerben hinsichtlich der durchschnittlichen Prognosegüte (z. B. [41], siehe auch den Beitrag zur Evaluation, Kombination und Auswahl von Prognoseverfahren in diesem Sammelband) hat dies dazu geführt, dass die exponentielle Glättung als robuste und annahmenarme Prognosemethode bewertet wird, obgleich die nicht explizit formulierten Annahmen [47] auch zu erheblichen Schwierigkeiten bei der Kalibration von Monitorschwellenwerten führen, wie in Abschnitt 18.3.3 skizziert wird. Traditionell beschränken sich Monitore in der exponentiellen Glättung auf die Diagnose von additiven Ausreißern und Niveauverschiebungen. Konzeptionell wurden die Monitore übenA/iegend für die einfache exponentielle Glättung erster Ordnung unter Verwendung einfachster Datengenerierungsprozesse entwickelt. In der Praxis werden die verschiedenen Monitore jedoch häufig auch auf komplexere Modelle angewandt. Jedoch ist nach wie vor unklar, inwieweit die für die einfache exponentielle Glättung kalibrierten Schwellenwerte auch auf komplexere Modelle aus der Pegels-Gardner-Familie [24] wie das Holt-Winters-Modell mit multiplikativer Saison anwendbar sind [47]. Die einfache exponentielle Glättung erster Ordnung wird für nicht-saisonale Zeitreihen ohne deterministische Trends benutzt und weist eine konstante Prognosefunktion auf. Als Prognosewert f^{h) für y^^^ wird für alle Prognosehorizonte h der geglättete Mittelwert L^ verwendet. Dieser wird als gewichteter Durchschnitt der aktuellen und aller vergangener Beobachtungen berechnet, wobei die Gewichtung ex definitione mit zunehmendem Zeitabstand exponentiell abnimmt:
Bei exponentiellen Glättungsverfahren mit additiven Komponenten (z. B. beim Holt-Winters-Modell mit additiver Saison) ist die Äquivalenz zu SARIMA-Modellen mit restringierten Parametern seit vielen Jahren bekannt [48]. Für Glättungsverfahren mit multiplikativer Saison steht aber erst seit 1997 ein durch Ord, Koehler und Snyder [49] entwickeltes formales statistisches Modell in Form eines nichtlinearen Zustandsraummodells mit einem skalaren Fehlerterm zur Verfügung. Allerdings beschränken sich die darauf basierenden Arbeiten bisher auf klassische Prognoseinferenz wie die Schätzung von Prognosekonfidenzintervallen. Monitore wurden auf der Grundlage dieses Konzepts bisher noch nicht entwickelt.
Monitoring von Prognosemodellen
345
Der in der Regel auf das Intervall (0,l] restringierte Glättungsparameter a wird manchmal gesetzt, meistens aber geschätzf^'^. Zur Identifizierung von isolierten additiven Ausreißern wird meistens der gewöhnliche tTest verwendet. Dieser Test überprüft für die laufende Beobachtung y^ implizit die Nullhypothese der Unverzerrtheit des Prognosefehlers {H^ :^^ =0) zum Zeitpunkt t gegen die Alternativhypothese einer signifikanten Abweichung des Fehlers von Null {H^ \e^^^). Die Teststatistik lautet
L= - ^ '
RSE,
mit RSE, = A p ^ ^ ^ '
V
t
als empirische Standardabweichung der ersten t Beobachtungen. Dabei ist e^ = y^ - f^_^(V) der einstufige Prognosefehler. Überschreitet der Absolutbetrag \t^\ einen a priori gewählten Schwellenwert, so wird ein Signal generiert, das auf einen AO hinweist. Oft wird der Schwellenwert unter Vorgabe eines Signifikanzniveaus a als entsprechendes (l-ci:/2)-Quantil t^^a/ij-i der /-Verteilung mit t-l Freiheitsgraden festgelegt. Die Ho-Hypothese, dass die Beobachtung y^ keinen AO darstellt, wird somit verworfen, wenn gilt:
Streng genommen setzt die Anwendung des ^Tests voraus, dass die Residuen e^ eine Folge stochastisch unabhängiger, identisch normalverteilter Zufallsvariablen ist. Dies ist etwa dann der Fall, wenn der wahre DGP zu einem korrekt spezifizierten ARIMA(0,1,1)-Modell korrespondiert und der wahre Moving-Average-Parameter 6 bzw. ein konsistenter Schätzer in der Glättungsformel über a = l-d eingesetzt wird. Bei anderen Prozessen führt das Verfahren der exponentiellen Glättung hingegen oft zu autokorrelierten Fehlertermen. Dies ist insbesondere dann häufig der Fall, wenn der Glättungsparameter a nicht optimiert, sondern a priori festgelegt wird [47]. Fehlerterme können auch autokorreliert sein, wenn a zwar geschätzt wird, das Modell aber beispielsweise aufgrund einer Niveauverschiebung fehlspezifiziert wurde. Diese Autokorrelation wird bei Gardner [23] auch zur LS-Diagnose, die im nächsten Abschnitt skizziert wird, genutzt. 18.3.2 Diagnose von Niveauverschiebungen Wird eine Zeitreihe, die ohne Störung gut durch eine einfache exponentielle Glättung prognostiziert werden kann, durch einen LS gestört, so hängt die AnpassungsgeDie Schätzung kann in Verbindung mit dem Monitoring zu Problemen führen, da einige theoretische Konzepte (z. B. Trigg's Monitor, siehe Abschnitt 18.3.2) zumindest in der Grundform eine Identität der potenziell unterschiedlichen Glättungsparameter im Monitor- und Prognosemodell unterstellen. Alle zeitreihenbasierten Prognoseverfahren sowie die zugehörigen Monitore müssen mithilfe geeigneter Startwerte initialisiert werden. Bei der exponentiellen Glättung benötigt man etwa einen Startwert für das Niveau U in ^ = 0, um die Rekursionsformeln anwenden zu können. Typische Startwerte bei der einfachen exponentiellen Glättung sind etwa Lo=yi oder Lo=y , wobei die Komplexität und Vielfalt dieser Startwertroutinen mit wachsender Methodenkomplexität ebenfalls zunimmt. Startwertalgorithmen sind fast immer methoden- und programmspezifisch, sodass auf die entsprechende Literatur verwiesen wird (siehe z. B. [8], [24], [30], [36] und [62]).
346
Küsters, Becker
schwindigkeit des Verfahrens nach Auftreten der Abweichung nicht nur von der Stärke des Ausreißers, sondern auch vom Wert des Glättungsparameters a ab. Je größer a ist, desto höher ist die Adaptivität des Verfahrens, wie Abbildung 3 zeigt:
CM
CO H
CO H
ft(h|a=0,3)
'^ H
ft(h|a=0,1) CN H
0
20
40
60
80
100
Abb. 3: Anpassungsgeschwindigkeit der einstufigen Prognosefunktion der exponentiellen Glättung erster Ordnung bei einer Niveauverschiebung Die Diagnose von LS in exponentiellen Glättungsmodellen basiert auf der Verwendung von Abweichungssignalen, die ihren Ursprung in der statistischen Qualitätskontrolle haben [45]. Nicht modellierte LS machen sich dadurch bemerkbar, dass die einstufigen Prognosefehler systematisch in eine Richtung weisen. Eine einfache Technik zur Identifikation dieser systematischen Abweichungen sind CUSUM-Statistiken, bei denen die kumulierte Summe der Prognosefehler auf eine systematische Abweichung von Null überprüft wird. Bei der von Brown [9] entwickelten und auch als einfaches CUSUM bezeichneten Statistik C^ wird die kumulierte Summe der einstufigen Prognosefehler CUSUM^ zum Zeitpunkt / mit der geglätteten mittleren Abweichung MAD^ als Variationsschätzer normiert und durch folgende Vorschrift aktualisiert: CUSUM^ =e,+ CUSUM^_^ = Y^e, i=\
MAD, =a\e^\ + (l- a)MAD^_^
c,=
CUSUM, MAD.
Der MAD, wird hier als geglättetes Variationsmaß benutzt, da für normalverteilte Fehlerterme s zwischen der Standardabweichung a und dem MAD approximativ die
Monitoring von Prognosemodellen
347
Beziehung cr^ ^1,25-AMD^ gilt [46]. Zur Kalibration der Schwellenwerte werden t- oder Normalverteilungsapproximationen herangezogen. Ein wesentlicher Nachteil von Brown's Q ist das lange Gedächtnis, da bereits geringfügige Abweichungen immer wieder zu einem Überschreiten der Kontrollgrenzen führen, sobald Q ein bestimmtes Niveau erreicht hat. Darüber hinaus können anfänglich „gute" Prognosen auch zur Folge haben, dass der MAD^ gegen Null konvergiert, während die kumulierte Fehlersumme CUSUM^ nahezu unverändert bleibt. Auch dies bewirkt permanent große Signalwerte für Q. Das geglättete Fehlersignal 7; von Trigg [59] vermeidet den Nachteil des langen Gedächtnisses von C^, indem auch die Fehlerkumulation nicht wie bei CUSUM^ gleichgewichtet, sondern mithilfe einer exponentiell abnehmenden Gewichtung durch den geglätteten Fehlersummenterm E^ ersetzt wird: Ef = ae^ + (1 - o^)Et-i MAD^ =a\e\ + r t
{\-a)MAD^_
E, MAD,\
Ein anderer Ansatz zur Vermeidung eines langen Gedächtnisses besteht in der Stutzung der Fehlersumme mithilfe der Backward-CUSUM Statistik S^^^ von Harrison und Davies [28]. Dabei wird das Gedächtnis des Prozesses durch eine festgelegte Anzahl von / rückwärts gerichteten Perioden begrenzt: /-i j=o
wobei durch / eine Obergrenze der maximal rückwärts zu inspizierenden einstufigen Prognosefehler festgelegt wird. Harrison und Davies [28] empfehlen 1 = 6. Tritt eine Niveauverschiebung zum Zeitpunkt t-i, also vor genau / Perioden auf, so entsteht zwischen den kumulativen Fehlersummen S^j und S^^^^ ein Sprung, der deutlich über die durchschnittliche Variation von e^ hinausgeht. Daher schlagen Harrison und Davies einen linearen Verlauf der Schwellenwerte L^ vor: L^ =o''CO'{i + Ä)
Eine Niveauverschiebung wird immer dann signalisiert, wenn Is^} den Wert L^ überschreitet. Dabei ist a ein Schätzer der Standardabweichung der Prognosefehler, während ü) und Ä Konstanten darstellen, die wegen der unbekannten Verteilung von S^j mithilfe von Simulationen ermittelt werden. Neben diesen auf kumulativen Fehlersummen basierenden Abweichungssignalen existieren noch weitere Monitore, die in der exponentiellen Glättung verwendet werden. Das Autokorrelationssignal von Gardner [23] wurde zur Diagnose von negativ und positiv korrelierten Fehlertermsequenzen konstruiert. Diese Sequenzen weisen nicht nur bei unmodellierten Niveauverschiebungen, sondern auch bei anderen Fehlspezifikationsformen (etwa bei inkorrekt geschätzten oder gesetzten Glättungsparametern) auto-
348
Küsters, Becker
korrelierte Muster auf. Daher eignet sich das Autokorrelationssignai von Gardner weniger zur Identifikation von Niveauverschiebungen, sondern vielmehr als allgemeiner Test zur Diagnose von Spezifikationsfehlern, vergleichbar zur Ljung-Box-Pierce-Statistik[17]. Als Glättungsparameter a der Monitore wird oft der gleiche Wert wie in der exponentiellen Glättung benutzt, obgleich man in der Literatur (z. B. [42] und [25]) auch Hinweise auf die Vorteile unterschiedlicher Glättungsparameter für Prognose- und Monitormodell findet. Identische Glättungsparameter in Prognosemodell und Monitor sind problematisch. Zum einen ist eine a priori Festlegung von Glättungsparametern mehr oder weniger willkürlich, zum anderen verzerren Ausreißer fast immer die Schätzer von Glättungsparametern. Bei Glättungsmodellen mit mehreren Glättungskonstanten, wie etwa dem Holt-Winters-Modell, dürfte es auch schwierig sein, zu begründen, warum man als Monitorkonstante die Glättungskonstante des lokalen Niveaus und nicht die Konstante einer anderen Komponente verwendet. Tabelle 1 fasst die in [20] und [23] angegebenen Vor- und Nachteile der vorgestellten Abweichungssignale zusammen. Abweichungssignal
Vorteile Nachteile
Brown's [9] einfaches CUSUM C,
- Monitorqualität unabhängig vom Glättungsparameter a - aufgrund Normierung unabhängig von Varianz der Zeitreihe - einfach berechenbar
Trigg's [59] geglättetes Signal Tt
- aufgrund Normierung unabhängig von Varianz der Zeitreihe - einfach berechenbar
- langes Gedächtnis - exzeptionell „gute" Prognosen führen zu Fehlalarmen - geringe Effizienz bei unabhängigen Fehlertermen - für hohe oc-Werte ungeeignet - Verteilung und damit Schwellenwerte abhängig von a
- hohe Sensitivität Backward CUSUM Stj von Harrison - ermöglicht Diagnose des Zeitpunkts der Prozessänderung und Davies [28] - modelltheoretisch begründbar
- aufwändige Berechnung - unterstellt konstante Varianz der Zeitreihe - schwierige Kalibration der Schwellenwerte - benötigt relativ große Stichproben
Autokorrelationssignal von Gardner [23]
- eignet sich allgemein zur Diagnose von Modellspezifikationsfehlern - unabhängig von Varianz der Zeitreihe - eignet sich zur Diagnose sowohl positiver als auch negativer Autokorrelationen - einfach berechenbar
- bei fehlspezifizierten Glättungsmodellen keine saubere Trennung zwischen Fehlspezifikation und Niveauverschiebung möglich - insensitives Signal bei permanentem Vorzeichenwechsel aufeinanderfolgender Fehlerterme (negative Autokorrelation)
Tab. 1: Bewertung unterschiedlicher Monitore in der exponentiellen Glättung 18.3.3 Kalibration von Schwellenwerten Typischerweise wird bei den oben skizzierten Monitorstatistiken ein Signal generiert, sobald der Absolutbetrag einen a priori vorgegebenen Schwellenwert C überschreitet. Die Konstruktion der Schwellenwerte lehnt sich entweder an die Theorie der Signifikanztests oder an das Konzept durchschnittlicher Lauflängen aus der Qualitätskontrolle an.
Monitoring von Prognosemodellen
349
Die Kaiibration der Schwellenwerte C auf der Grundlage von Signifikanztests beruht auf der Kenntnis der Verteilungen der Monitorstatistiken Q , 7J und S^j unter der Annahme eines ausreißerfreien Prozesses. Steht die Verteilung unter dieser Nullhypothese zur Verfügung, so wird durch das Signifikanzniveau definiert, wie viele Signale durchschnittlich generiert werden dürfen, wenn kein Ausreißer vorliegt. Dieser Ansatz konzentriert sich somit auf eine maximale Kontrolle der Fehlalarme und somit auf den Fehler erster Art (ÖT -Fehler). Der Fehler zweiter Art (y9 -Fehler), der aufgrund der NichtSignalisierung tatsächlich vorhandener Ausreißer entsteht, wird bei der Konstruktion der Schwellenwerte hingegen vernachlässigt. Bei der signifikanztestbasierten Kalibration von Schwellenwerten ist zu beachten, dass Tests für jeden Zeitpunkt durchgeführt werden und somit ein multiples Testproblem vorliegt. Daher ist eine Korrektur des Signifikanzniveaus (etwa auf Basis der Bonferroni-Ungleichung) erforderlich. Beim Konzept der mittleren Lauflänge (ARL = average run length) wird hingegen der Zusammenhang zwischen Schwellenwert, Ausreißerstärke und der ARL, definiert als durchschnittliche Dauer vom Ausreißerzeitpunkt r bis zum Diagnosezeitpunkt /, analysiert^. Diese Zusammenhangsprofile werden typischenA/eise mithilfe von Simulationen ermittelt und können zur Festlegung von Schwellenwerten benutzt werden, indem zu einem Ausreißer mit vorgegebener Stärke eine Maximaldauer bis zur Diagnose vorgegeben wird. Natürlich weist auch eine derartige Schwellenwertwahl eine Irrtumswahrscheinlichkeit a (Fehlalarmrate) und eine „Missing Hit-Rate" ß auf. Zur exakten Kalibration der Schwellenwerte benötigt man beim signifikanztheoretischen Ansatz die Kenntnis der Verteilung der diversen Signalstatistiken unter der Annahme einer korrekten Spezifikation eines Modells ohne Ausreißer. Bei der Festlegung von Schwellenwerten mithilfe des Lauflängen-Konzeptes sind darüber hinaus auch die Verteilungen unter der Annahme wohl definierter Ausreißerkonstellationen, also die Verteilungen unter lokalen Alternativen [18] erforderlich. Beide Ansätze können bei klassischen Glättungsmethoden nicht exakt realisiert werden, da es sich bei nahezu allen exponentiellen Glättungsverfahren nicht um modellgestützte Verfahren mit wohl definiertem Datengenerierungsprozess, sondern nur um algorithmische Vorschriften, die für eine Vielfalt von Prozessen genutzt werden, handelt. Daher wurden die meisten Schwellenwerte nur approximativ unter der Annahme einfachster Datengenerierungsprozesse kalibriert. Trigg [59] und Brown [10] etwa unterstellen als Datengenerierungsprozess für y^ stationäre, unkorrelierte und normalverteilte Prozesse mit konstantem Mittelwert. Dieses Konzept kann heuristisch zwar damit begründet werden, dass nicht-informative Fehlersequenzen idealerweise eine derartige Struktur aufweisen. Auf der anderen Seite ist aber zu beachten, dass man für Folgen stochastisch unabhängiger, identisch normalverteilter Zufallsvariablen den arithmetischen Mittelwert als optimale Prognose verwenden kann; die exponentielle Glättung erster Ordnung ist hingegen eine für stochastisch abhängige ARIMA(0,1,1)-Prozesse optimale Prognose (im Sinne von MMSE). Insofern handelt es sich bei derartig berechMcCIain [42] unterscheidet hier für den Fall eines fehlenden Ausreißers (äquivalent einem Ausreißer der Stärke Null) zwischen zwei ARLs: ARL1 bezeichnet die durchschnittliche Länge zwischen zwei Fehlalarmen, während ARL2 die durchschnittliche Länge zwischen einem Bezugspunkt und einem Fehlalarm angibt. Zwischen beiden ARLs können sich Unterschiede in der Größenordung bis zu 100 % ergeben! Die in Abschnitt 18.3.3 angegebene Definition von Gardner [23] stimmt mit der ARL2 überein.
350
Küsters, Becker
neten Schwellenwerten immer nur um heuristische Ersatzlösungen mit größtenteils ungeklärten statistischen Eigenschaften. In der Praxis werden anstelle der theoretisch kalibrierten Schwellenwerte nahezu immer Schwellenwerte verwendet, die mithilfe von Simulationsstudien ermittelt werden. Allerdings ist bei den mithilfe von Simulationsstudien kalibrierten Werten unklar, ob die Verteilung invariant gegenüber alternativen Datengenerierungsprozessen ist. Bei einigen Monitorstatistiken, wie etwa Trigg's geglättetem Fehlersignal, wird bereits aufgrund theoretischer Überlegungen eine Abhängigkeit vom Glättungsparameter deutlich; insbesondere große o:-Werte führen auch zu erheblichen Abweichungen von der im Regelfall verwendeten Normalverteilungsapproximation, wie die in Abbildung 4 wiedergegebene simulierte und bimodale Verteilung der Monitorstatistik 7; für a = 0,5 unter der //Q-Hypothese, dass keine Niveauveränderung vorliegt, zeigt. An der überlagerten Normalverteilungsdichte kann man hier auch den Approximationsfehler erkennen, wobei allerdings darauf hingewiesen werden muss, dass die Normalverteilungsapproximation für kleine a-Werte (etwa 0,1) deutlich besser ist.
00
03 i_
CD
D) O -I—» CO
X
B
o
m
m
>1M
b ^
CM
O
NN
M
-«
"T
-1.0
-0,5
0
0.5
1,0
Abb. 4: Simulierte Verteilung von Trigg's Signal T^ mit a = 0,5 unter der Annahme, dass keine Niveauverschiebung vorliegt (Zeitreihenlänge r = 100 nach Stutzung der ersten 20 Beobachtungen, Anzahl der Replikationen r = 100.000) Präzise Schwellenwerte lassen sich nur durch theoretische Herleitungen der exakten und/oder asymptotischen Verteilungen der Monitorstatistiken für spezifische Glättungsalgorithmen unter Zuhilfenahme einschränkender Annahmen über den Datengenerierungsprozess berechnen; siehe dazu auch [43].
Monitoring von Prognosemodellen
351
18.3.4 Verfahren zur Berücksichtigung identifizierter Ausreißer Um die negativen Auswirkungen von Ausreißern und Niveauverschiebungen auf die ex ante Prognosefunktion exponentieller Glättungsverfahren zu vermeiden, müssen die identifizierten Ausreißer durch geeignete Verfahren berücksichtigt werden. Bei additiven Ausreißern zum Zeitpunkt t = T kann die Beobachtung y^ durch die einstufige Prognose /^_i(l) mit Prognoseursprung r - 1 ersetzt werden, es sei denn, es liegen realwissenschaftlich begründete Hinweise für die Existenz einer anders gearteten und anders korrigierbaren Störung vor. Bei einer Niveauverschiebung kann man hingegen - wie bereits in Abschnitt 18.2.3 beschrieben - alle vorhergehenden Daten löschen und das System ab dem Zeitpunkt t = T neu initialisieren. Darüber hinaus hat der Anwender die Möglichkeit, durch eine manuelle Adaption der Glättungsparameter auf die Veränderung zu reagieren. Durch ein temporäres Hochsetzen der Parameter der exponentiellen Glättung wird erreicht, dass die aktuellen Beobachtungen stärker gewichtet werden und somit die Veränderung schneller berücksichtigt („erlernt") wird (vgl. Abbildung 3). Diese Vorgehensweise ist etwa beim Monitoring in bayesianischen dynamischen linearen Modellen, die eine bayesianische Verallgemeinerung exponentieller Glättungsmodelle mit additiven Effekten darstellen, über eine Änderung der Diskontfaktoren als Lernratenparameter üblich (siehe [62] und [35]). Wegen der meist großen Anzahl an Prognosen und somit an generierten Warnsignalen kann die Menge der vorzunehmenden manuellen Eingriffe aber rasch ansteigen. Aus diesem Grund wurden adaptive Verfahren entwickelt, bei denen die Glättungsparameter automatisch angepasst werden. Nachfolgend werden fünf ausgewählte adaptive Varianten kurz skizziert. Trigg und Leach [60] beschreiben ein adaptives Glättungsverfahren für die exponentielle Glättung erster Ordnung, wobei das oben skizzierte geglättete Fehlersignal T^ von Trigg [59] verwendet wird. Dabei wird der Glättungsparameter a im exponentiellen Glättungsmodell erster Ordnung nach Vorliegen einer neuen Beobachtung y^ unabhängig von der Existenz eines Monitorsignals mit der Vorschrift cc = \Tt\ adaptiv angepasst, sodass größere Prognosefehler zu einem höheren a-Wert und damit zu einer höheren Anpassungsgeschwindigkeit führen. Der ör-Wert zur Berechnung der Signalstatistik T^ wird hingegen konstant gehalten. Das Verfahren von Trigg und Leach weist eine hohe Sensitivität gegenüber einmalig auftretenden zufälligen Impulsen auf. Um eine höhere Stabilität des Glättungsparameters a zu erreichen ohne zugleich die Reaktionsgeschwindigkeit des Signals bei einem Level Shift erheblich zu reduzieren, setzt Shone [54] den Glättungsparameter nach Signalisierung einer Abweichung gleich dem Trackingsignal der vorangegangenen Periode, d. h. ö: = |r^_i|. Die Logik der Shone'schen Modifikation liegt darin, dass beim Vorliegen einer einmaligen zufälligen Schwankung in / - l ein hoher Glättungsparameter a keine große Auswirkungen besitzt, wenn die Zeitreihe zum Zeitpunkt / wieder als ungestörter Prozess verläuft und somit wieder einen kleinen Prognosefehler nahe Null aufweist. Whybark [66] erhöht hingegen den Glättungsparameter nicht durchgängig adaptiv, sondern lediglich in zwei Fällen:
352
Küsters, Becker
1.
Der Prognosefehler der aktuellen Periode überschreitet die 4-fache Standardabweichung; dies entspricht oft einem additiven Ausreißer.
2.
Sowohl der Prognosefehler der aktuellen als auch der vergangenen Periode überschreiten die 1,2-fache Standardabweichung und weisen das gleiche Vorzeichen auf; dies korrespondiert möglicherweise zum Beginn eines LS.
Bei der Generierung eines Ausnahmesignals wird der Glättungsparameter für eine Periode auf einen sehr hohen und für die darauffolgende Periode auf einen moderat hohen Wert gesetzt. Diese Technik berücksichtigt somit die verschiedenen Eigenschaften von additiven Ausreißern und Niveauveränderungen. Die adaptive Anpassung nach Dennis [21] basiert auf dem Konzept der mittleren Lauflänge, die als die Anzahl aufeinanderfolgender Prognosefehler mit gleichem Vorzeichen definiert wird. Überschreitet die Lauflänge einen Grenzwert N, wird der Glättungsparameter ausgehend vom einem Startwert a^ um eine kleine positive Konstante A erhöht. Die Erhöhung endet, wenn a Eins beträgt. Der Monitor wird auf den Wert a^ reinitialisiert, wenn die Lauflänge durch einen Vorzeichenwechsel wieder auf Null gesetzt wird. Chow [16] erstellt konkurrierende Prognosen auf Basis einer Reihe unterschiedlicher Glättungsparameter. Als Glättungsparameter wird derjenige Wert ausgewählt, der die höchste Prognosegüte, gemessen an der mittleren absoluten Abweichung MAD^, aufweist. Auf diese Weise wird bei einem Strukturbruch automatisch derjenige Glättungsparameter ausgewählt, der eine hohe Adaptivität gewährleistet. 18.3.5 Probleme der Monitore der exponentiellen Glättung Die Monitore der exponentiellen Glättung weisen drei grundsätzliche Probleme auf: Erstens wurden die meisten Monitore nur für die exponentielle Glättung erster Ordnung hergeleitet, obgleich die Familie der exponentiellen Glättungsmodelle mit der PegelsGardner-Familie einschließlich Erweiterungen wie gedämpfte Trends [24] und Ereignisindizes [56] weitaus umfangreicher ist''. Zweitens wurden Schwellenwerte in der Regel nur auf der Grundlage der statistischen Verteilungen einfacher, häufig inkorrekter Ersatzmodelle und ohne Beachtung des wahren, zugrunde liegenden Datengenerierungsprozesses kalibriert^. Drittens kann man nur zwischen isolierten additiven Ausrei-
Dieses Problem wurde auch durch diverse Arbeiten in der Literatur thematisiert. McKenzie [43] leitet etwa eine Korrektur der Monitorstatistiken von Batty [4] für verallgemeinerte exponentielle Glättungsmodelle mit additiven Komponenten her. Allerdings unterstellen auch diese und vergleichbare Arbeiten einschränkende Annahmen hinsichtlich des zugrunde liegenden DGP. Darüber hinaus werden Approximationen für Quotienten von stochastisch abhängigen Zufallsvariablen verwendet, die letztlich nur eine Approximation der Varianzen, nicht aber eine exakte Herleitung der Verteilung der Monitorstatistiken ermöglichen. So unterstellt zum Beispiel Trigg [59], dass die Zeitreihe durch yt = Lt + at abgebildet wird, wobei at eine Folge stochastisch unabhängiger, identisch normalverteilter Zufallsvariablen mit konstantem Mittelwert 0 und konstanter Varianz a^ ist, d. h. a, - N(0,G2) . In diesem Fall würde man als optimalen Schätzer aber nicht den statistisch ineffizienten exponentiell geglätteten Mittelwert I , , sondern den Mittelwert über alle Beobachtungen y als effizienten Schätzer wählen. Der exponentiell geglättete Mittelwert I , hingegen ist ein optimaler Schätzer für einen ARIMA(0,1,1)-Prozess, in dem stochastische Abhängigkeiten vorliegen [47]. Residuen von ARIMA(0,1,1)-Modellen weisen bei kor-
Monitoring von Prognosemodellen
353
ßern und Niveauverschiebungen differenzieren, obgleich nicht nur aus statistisch-modelltheoretischer, sondern auch aus inhaltlicher Sicht andere Ausreißerformen denkbar und sinnvoll sind (z. B. Reallokationsausreißer, saisonale Pulse, transiente Übergänge). Derartige Differenzierungen sind bisher aber nur mithilfe von expliziten Ausreißermodellen, wie sie im nächsten Abschnitt für ARIMA-Modelle (Box-Jenkins-Modelle) skizziert werden, möglich. 18.3.6 Monitore in Strukturkomponentenmodellen Frequentistische [30] und bayesianische [62] Strukturkomponentenmodelle stellen statistisch begründete Erweiterungen der exponentiellen Glättungsmodelle dar. Auch Strukturkomponentenmodelle gehen von einer Zerlegung der Zeitreihe in einzelne Komponenten wie Niveau, Trend, Saison und irreguläre Komponente aus, können darüber hinaus aber auch durch Regressoren zur Abbildung von Kausaleffekten benutzt werden. Strukturkomponentenmodelle werden über Zustandsraummodelle (State Space Models) abgebildet, die eine Schätzung des laufenden Zustands rekursiv aus dem Zustand der Vorperiode und der aktuellen Daten mithilfe des Kalman-Filters^ ermöglichen. Monitore in frequentistischen Strukturkomponentenmodellen wurden bisher nur ansatzweise entwickelt [33]. Der Monitormechanismus in bayesianischen dynamischen linearen Modellen basiert auf einem Vergleich der Güte eines Standardmodells mit Alternativmodellen, die so konstruiert werden, dass sie bestimmte Abweichungen gegenüber dem Standardmodell modellieren. Als Vergleichskriterien werden so genannte einfache und kumulative Bayes-Faktoren als Verhältnis der Likelihood zweier Modelle in Kombinationen mit Lauflängen venA/endet; siehe [62] und [35]. 18.3.7 Softwarepakete Zahlreiche Programme mit exponentiellen Glättungsmodellen enthalten Monitore als Frühwarnsysteme, wobei die oben skizzierten Monitore und hier insbesondere die Statistik Tt von Trigg [59] dominieren. In einer 1998 durchgeführten Untersuchung [36] konnten die Systeme DrPro-^-^, Force4, FuturMaster, microTrend & microForecast, Smart Forecast, Time Trends, Minitab, TurboSpringStat, Adapta-DLS-FBS, Demand Solutions, Logol, Peer Planner, System A3, Beta und Microfit identifiziert werden, die in irgendeiner Form einen Monitor enthielten. Allerdings wurde aus dieser Untersuchung auch deutlich, dass die genaue Funktionsweise nicht in allen Fällen offen gelegt wurde. In Verbindung mit der bereits beschriebenen Problematik der Kalibration und Wahl geeigneter Schwellenwerte muss daher mit erheblichen Qualitätsunterschieden zwischen den verschiedenen Implementationen gerechnet werden, die eine routinemäßige Nutzung nur nach einer genauen Prüfung zulassen.
rekter Spezifikation allerdings die Eigenschaften einer Folge stochastisch unabhängiger, identisch verteilter Zufallsvariablen auf, sodass der Monitor T, auf diese Residuen anwendbar ist. Die Anwendung des Kaiman-Filters beschränkt sich nicht auf Strukturkomponentenmodelle. In der modernen Zeitreihenanalyse werden zahlreiche andere Modelle, unter anderem auch ARIMAX-Modelle, mithilfe einer Zustandsraumrepräsentation über den Kaiman-Filter geschätzt, da dieser unter anderem eine einfache Berücksichtigung fehlender Beobachtungen erlaubt.
354
Küsters, Becker
18.4 Monitore in Box-Jenkins-IVIodellen 18.4.1 Modelldefinition Im Gegensatz zur exponentiellen Glättung wird bei Box-Jenkins-Modellen ein expliziter Datengenerierungsprozess unterstellt, der durch unterschiedliche Ausreißerarten (einschließlich der in Abschnitt 18.2 dargestellten permanenten Strukturbrüche) additiv überlagert wird. Konzeptionell basiert die Diagnose von Ausreißern auf der Grundidee, dass eine Serie von K Ausreißern zu unbekannten und daher zu diagnostizierenden Zeitpunkten ri,...,r^ durch parametrische Effekte, deren dynamische Verlaufsformen der Interventionsanalyse entnommen werden, modelliert wird. Als DGP der unverschmutzten Zeitreihe y^ wird ein ARIMA(p,d,q)-Modell zugrunde gelegt^^:
Der Lag-Operator B und der Differenzenoperator V werden durch die Eigenschaften By^=y^_^ und V =(l-5) definiert. Das autoregressive Polynom (j){B)^\-(j\B-(t)2B^-...-(j)pB^ weist eine Ordnung von p auf, während das MovingAverage-Polynom e{B)^\-e^B-e^B^ -.„-e^B"^ die Ordnung q besitzt. Die Konstante c wird zur Parametrisierung von Mittelwerten und deterministischen Trends (für d>^) verwendet. Es wird unterstellt, dass sich die unverschmutzte Zeitreihe y^ durch die Wahl einer hinreichend großen Differenzenordnung d (typischerweise J = 0, 1 oder 2) in eine schwach stationäre Zeitreihe ^"^y^ transformieren lässt. Dementsprechend wird unterstellt, dass die möglicherweise komplexen Nullstellen der Polynome ^(5) und 6{E) außerhalb des Einheitskreises liegen. Die Wahl der ARIMA(p,d,q)-Ordnung erfolgt im Rahmen der Modellidentifikationsphase mithilfe von Spezifikationstests und -Werkzeugen wie z. B. Unit-Root-Tests und wird in diesem Beitrag nicht mehr weiter verfolgt. Siehe [3], [8], [15], und [19]. Bei der Ausreißermodellierung unterstellt man, dass sich die beobachtete Zeitreihe z^ additiv aus der durch ein ARIMA-Modell generierten unkontaminierten Zeitreihe y^ und i^ Ausreißern zusammensetzt. Die Nettoeffekte dieser iC Ausreißer zu den Zeitpunkten {ri,r2,....,r^} werden mithilfe der Summe X^=iA(^'^^'^^) abgebildet:
strukturell entspricht dies einem klassischen Interventionsfunktionsmodell; siehe [8] und [50]. Im Gegensatz zu Interventionsmodellen sind jedoch bei der Ausreißerdiagnostik (a) weder die Anzahl K der Ausreißer, (b) noch die Zeitpunkte {7-1,^2,....,r^} des Auftretens der Ausreißer, (c) noch die Ausreißertypen /^(/,r^,ty^), noch (d) die Einflussstärken co^ der Ausreißer a priori bekannt. Daher müssen diese vier Merkmale im Rahmen des Monitoring diagnostiziert werden. Die K Funktionen f^{t,T^,co^)^(D^^^{B)I]^ beschreiben in Abhängigkeit der bereits in Abschnitt 18.2.1 dargestellten Ausreißertypen die dynamische Struktur der zeitlichen
^^
Die Erweiterung der Diagnostik auf saisonale SARIMAX-Modelle mit saisonalen Differenzenbildungen und exogenen Variablen ist ohne Probleme möglich, wird in diesem Beitrag wegen der umfangreicheren Notation aber nicht behandelt.
Monitoring von Prognosemodellen
355
Ausreißerauswirkungen, die mithilfe der aus der Interventionsanalyse bekannten LagPolynome ^ ( 5 ) repräsentiert werden. Dabei signalisiert die Dummy-Variable//S ob ein Ausreißer zum Zeitpunkt t = Tj^ vorliegt {^' =1) oder nicht {^' =0). Dabei werden zwei Arten von Indikatorvariablen ^^' unterschieden. Durch die Puls-Funktion P^' wird der Effekt einer temporären Intervention repräsentiert, während die Stufen-Funktion S^^' eine permanente Änderung anzeigt: pn ^,
[l für/ = r^ lo sonst
und S'/ =
Tj^ 10 sonst
Dabei gilt die Beziehung(l-^)*?^^^ =S^^' -Sj!^^ ^P^', sodass man einen LS in einer instationären Zeitreihe y^ der Ordnung Eins 1(1) auch durch einen AO in der einmal differenzierten Zeitreihe Vy^ der Ordnung Null 1(0) repräsentieren kann. Tabelle 2 zeigt die funktionale Form verschiedener Ausreißertypen exemplarisch für das MA(1)-Modell y^ =a^-6a^_^ sowie für die allgemeine ARIMA(p,d,q)-Form. Ausreißereffekt f,^{t,Tj^,coj^)
Typ
>;,~MA(1)
y^ ~ ARIMA(p,d,q)
AO
(^ÄO.k f ü r r = r i
0>AO.kPl'
LS
(^Ls.k f ü r / > r ; t
^LS.k^!"
TC
RO
^rc,* • ^''^'
für ^ > r^ mit (0 < ^ < 1)
^ÄO,M
für
t = T,^
(^ROM
für
t = Ti^+\
(ORO,kM-\^-YZ=l^RO,k,m SP
für
ß'B.*(' + l - ^ * ) f ü r ^ > r ,
10
co,o.,
f ü r t = T,
-co,oye
für / = r , + l
Z-im=0 RO,k,mU
/-r^+M-l
COgPI^ für / = t^,T,^+S,T^ + 2s,...
TS
^^'* \-SB
®.F,t^'*"'mit / = 0,1,2,... ©„_,(?+1-7^5;*
Tab. 2: Ausreißereffekte in ARIMA-Modellen Ein Varianzausreißer VC bewirkt im Gegensatz zu den anderen Ausreißerarten keine Verschiebung der konditionalen Lage, sondern eine zeitabhängige Veränderung der konditionalen Streuung der Zeitreihe über den Innovationsterm a^: ia^
für t < Tj^
Ut'^ck
für t>T^
mit coyf^j^ > 0 .
356
Küsters, Becker
Für das oben angegebene Beispiel des MA(1)-Modells verändert sich der Datengenerierungsprozess einer durch einen Varianzausreißer gestörten Zeitreihe zu a^+6a^_^ z,=^a^cOyf^+6a^_^
für tT^
Monitoring von Prognosemodellen
357
umformen, wobei e^ die Residuensequenz des kontaminierten ARIMA-Modells für die beobachtete Zeitreihe z^ ist. Deutlich ersichtlich wird, dass die Residuen e^ der Zeitreihe nicht nur zum Zeitpunkt des Auftretens r^ des Level Shift, sondern auch in den nachfolgenden Perioden t > TJ^ beeinflusst werden. Dabei hängt der dynamische Effekt nicht nur von der Stärke coj^^j^, sondern auch von der Form von TI^B) und damit vom Gedächtnis des ARIMA-Modells der unkontaminierten Zeitreihe y^ ab. Unter Verwendung der Definition jc^ =;z-(5)5'/"* als unabhängige und e^ als abhängige Variable erhält man als Kleinsten-Quadrate Schätzer für ^^^. den Ausdruck
Im Beispiel des MA(1)-Modells gilt
7=0
Zur Diagnose eines Ausreißers wird die Hypothese H^: co,^=0 mithilfe des KleinstenQuadrate-Schätzers ^^ getestet. Weicht der Schätzer signifikant von Null ab, überschreitet also der Absolutbetrag der Teststatistik \
—
^
^Var(4)
eine vom Anwender gesetzte Kontrollgrenze, so wird ein Abweichungssignal generiert. Somit lautet die Teststatistik Ä^s,k 2:ur Diagnose eines Level Shift im Fall eines MA(1)Modells ^
ks,k -
/,
2
t
, mit VarK,^,) = — ^ ,
wobei die Varianz der unkontaminierten Residuen a^ in der Praxis durch einen Schätzer ersetzt wird. Die Berechnung der Teststatistik unterstellt, dass sowohl der Zeitpunkt des Auftretens eines Ausreißers als auch dessen Typ bekannt sind. Dies ist faktisch nicht der Fall. Aus diesem Grund werden zur Identifikation von Ausreißern die Teststatistiken Ä^yp^i^ ZU jedem möglichen Zeitpunkt berechnet. Überschreitet das Maximum der Absolutbeträge aller Teststatistiken in /^ einen vorgewählten kritischen Wert, so wird ein Ausreißer der Kategorie Typ zum Zeitpunkt r^ ^t^ diagnostiziert. In der Literatur findet man mehrere Vorgehensweisen zur Diagnose und Behandlung von Ausreißern in Box-Jenkins ARIMA-Modellen ([11], [13], [26], [51] und [57]). Die iterative Bestimmung potenzieller Ausreißer auf Basis korrigierter Residuen stellt den gemeinsamen Kern aller Verfahren dar. Unterschiede ergeben sich im Wesentlichen hinsichtlich der Schätzung der ARMA-Modellparameter und der Ausreißerstärken sowie der Anordnung und Wiederholung diverser Identifikations- und Schätzzyklen.
358
Küsters, Becker
Bei der iterativen Ausreißerdiagnose werden in einem ersten Durchlauf die Teststatistiken aller möglichen Ausreißerarten für alle logisch zulässigen Ausreißerzeitpunkte berechnet und mit den vorgegebenen Schwellenwerten verglichen. Wird ein Ausreißer identifiziert, werden die Residuen um den Nettoeffekt der Ausreißerauswirkung bereinigt. Anschließend wird die Ausreißeridentifikation erneut auf die korrigierten Residuen angewandt, ohne jedoch die ARMA-Modellparameter neu zu schätzen. Diese Prozedur wird solange wiederholt, bis sich in den korrigierten Residuen keine Ausreißermuster mehr finden lassen. Ergebnis ist eine Liste potenzieller Ausreißerzeitpunkte, denen bereits Typ und Stärke zugeordnet sind. Hinsichtlich der weiteren Vorgehensweise unterscheiden sich die diversen Verfahren. Chang, Tiao und Chen [11] kombinieren die tentativ identifizierten Ausreißer mit dem anfänglich identifizierten ARMA-Modell zu einem Interventionsfunktionsmodell, in dem Ausreißereffekte und ARMA-Modellparameter in einem zweitem Schritt simultan geschätzt werden. Anschließend wird das Verfahren auf Basis revidierter ARMA-Modellschätzer wiederholt, bis keine weiteren Ausreißer mehr identifiziert werden. Bei Tsay [57] wird die beobachtete Reihe hingegen zunächst um die tentativ identifizierten Ausreißereffekte bereinigt und zur Neuschätzung der ARMA-Modellparameter verwendet. Anschließend wird die iterative Ausreißerdiagnose erneut durchlaufen. Auch dieses Verfahren wird solange wiederholt, bis keine zusätzlichen Ausreißer mehr diagnostiziert werden. Beide Verfahren erlauben zwar eine Revision der ARMA-Modellparameter, allerdings werden die identifizierten Ausreißer nicht auf ihre Signifikanz hin überprüft. Mögliche Konsequenzen sind daher neben einer Einbettung insignifikanter Ausreißer auch Fehlklassifikationen der Ausreißertypen, die sich etwa durch die Verwendung verzerrter Schätzer aufgrund der anfänglich identifizierten und als ausreißerfrei angenommenen ARMA-Startmodelle ergeben können. Zur Vermeidung dieser Probleme werden bei dem Verfahren von Chen und Liu [13] die Effekte der potenziellen Ausreißer in einer Regression der ARMA-Residuen gemeinsam geschätzt und insignifikante Ausreißer entfernt. Anschließend werden die ARMA-Modellparameter auf Basis der um die signifikanten Ausreißereffekte korrigierten Zeitreihe neu geschätzt, bevor das Verfahren auf der Grundlage bereinigter Residuen und Beobachtungen wiederholt wird. Der iterative Ein- und Ausschluss potenzieller Ausreißer ermöglicht daher auch eine Revision der Ausreißerzeitpunkte und -typen. Diese Methoden sowie darauf basierende Varianten wie [26] unterscheiden sich vor allem durch die genaue Anordnung und Verschachtelung der Diagnose- und Schätzzyklen, wobei sich zusätzliche Differenzierungen durch den Einsatz automatischer Modellidentifikationsverfahren ergeben. Bei allen Verfahren wird ein relativ einfaches und robustes ARIMA-Modell als Startmodell ausgewählt, damit möglichst alle wichtigen Effekte des Datengenerierungsprozesses einschließlich möglicher Instationaritäten abgebildet werden. Ziel hierbei ist, dass die geschätzten Residuen nur noch die auf Ausreißer bzw. Strukturbrüche zurückzuführenden Effekte enthalten. SCA PC-Expert [53] identifiziert das Startmodell mithilfe einer Filtermethode nach Liu [40].
Monitoring von Prognosemodellen
359
Zur Verbesserung der schwierigen Trennbarkeit zwischen verschiedenen Ausreißertypen wurden neben der oben enA/ähnten robusten Schätzung nach [6] auch diverse Varianten entwickelt. Balke [2] augmentierte das Veri'ahren von Tsay [57] durch die Durchführung einer Ausreißerdiagnostik in einem ARIMA(0,0,0)-Modell, um die Güte der Diagnose von LS zu verbessern. Balkes Modifikation weist aber den Nachteil auf, dass transiente Übergänge (TC) aus der Diagnose ausgeschlossen sind, sodass Ausreißer lediglich innerhalb der eingeschränkten Menge {AO, 10, LS} zulässig sind [61]. 18.4.3 Software-Pakete Im kommerziellen Bereich existieren seit ca. 14 Jahren die beiden Softwarepakete SCA PC'Expert ([39], [53]) und Autobox [1] zur automatischen Schätzung, Modellidentifikation und Prognose saisonaler ARIMA-Modelle. Beide Systeme enthalten auch eine simultane Ausreißerdiagnostik und -Schätzung für diverse Ausreißertypen; einen Vergleich dieser beiden Systeme zum Stand 1995, der hinsichtlich der Diagnostik nach wie vor weitgehend aktuell ist, findet man in [34]. Darüber hinaus liegen mehrere akademische, nichtkommerzielle Implementationen automatischer Modellidentifikation- und Schätzveri'ahren mit Ausreißerdiagnosemodulen für saisonale Box-Jenkins Modelle vor. Siehe dazu unter anderem das Programm TSE [44], das Programm TRAMO/ SEATS [26] und das in der Programmiersprache GAUSS implementierte Programm SAMSON [55]. Ein mit SAMSON geschätztes Beispiel findet man in [37]. 18.4.4 Beurteilung Die vorgestellten Monitormechanismen in den Box-Jenkins Transferfunktions- und Interventionsmodellen sind sehr flexible Werkzeuge, mit denen man eine Vielzahl unterschiedlicher Ausreißertypen diagnostizieren und im Modell als Interventionseffekte einbetten kann. Zudem findet sowohl die Modellbildung als auch die Ausreißeridentifikation unter Einbezug einer Vielfalt potenziell möglicher Datengenerierungsprozesse, nämlich der Menge aller SARIMA-Modelle, statt. Im Unterschied zu den Monitoren in exponentiellen Glättungsmodellen ist diese Vorgehensweise damit methodisch und statistisch fundiert. In der Praxis haben sich diese Verfahren und zugehörigen Softwarepakete aber aus drei Gründen nur sehr selten durchgesetzt: 1.
Die Modelle sind konzeptionell komplex.
2.
Aufgrund unzureichender Schnittstellen ist die Integration in Planungssysteme schwierig.
3.
Die Verfahren und existierende Programme weisen eine unzureichende Robustheit gegenüber Ausnahmesituationen auf.
Siehe dazu unter anderem [34] und [36]. Ferner ist die Wahl der Schwellenwerte ebenso wie bei den Monitoren der exponentiellen Glättung häufig mehr oder weniger willkürlich, da die exakten finiten Verteilungen der Teststatistiken unbekannt sind. Daher kann man implizite Signifikanzniveaus auch nicht exakt berechnen. Ebenfalls ungeklärt sind die Probleme, die aufgrund der Tatsache auftreten, dass bei der Ausreißerdiagnostik in der Regel multiple Ausreißer bzw. Strukturbrüche identifiziert werden. Diese multiplen Testprobleme sind wegen der hohen Korrelationen zwischen den Ausreißerdiagnosestatistiken schwer beherrschbar. Aus praktischer Sicht kann man sich
360
Küsters, Becker
allerdings auf diverse Simulationsstudien wie [13] stützen, die für Zeitreihen mittlerer Länge in der Größenordnung um 7 = 100 eine Wahl der Schwellenwerte zwischen 3,0 und 4,0 nahe legen. Durch die teilweise ähnlichen dynamischen Effekte unterschiedlicher Ausreißertypen tritt auch das Problem auf, dass Ausreißertypen oft verwechselt, d. h. fehlklassifiziert werden. Dies wird insbesondere dann sichtbar, wenn bei einem inkrementellen Anwachsen der Zeitreihe (durch sukzessive Datenaugmentation) die Diagnoseroutine zwar zum gleichen Zeitpunkt wie in der vorhergehenden Iteration einen Ausreißer signalisiert, aber den Ausreißertyp ändert. Zu diesem Problemfeld existieren bisher nur wenige experimentelle Analysen [38]. Praktisch vermeidbar sind diese Zuordnungsfehler nur durch eine Einschränkung der Diagnoseroutinen auf eine reduzierte Menge von Ausreißertypen, etwa AO, LS, RO über zwei Zeitpunkte, SP und evtl. TC mit festem Gedächtnisparameter (z. B. S = 0,1), obgleich dies natürlich a priori Wissen über die Art der sachlogisch möglichen Ausreißer erfordert. Die Ausreißerdiagnostik ist hochgradig von den typischerweise verwendeten automatischen Modellidentifikationsverfahren, die ebenfalls eine weitgehende Konfiguration (z. B. hinsichtlich der Signifikanzniveaus der Modellidentifikationsstatistiken, der UnitRoot-Tests etc.) erfordern, abhängig. Daher ist die Nutzung der iterativen und simultanen Ausreißerdiagnostik in Box-Jenkins-Modellen auch eine Kunst, die viel Erfahrung bei der Wahl problemgerechter Voreinstellungen erfordert. Methodisch sind diese Abhängigkeiten jedoch geringer als bei den Monitoren der exponentiellen Glättung. 18.5 Schlussbemerkungen In diesem Beitrag wurden ausgewählte Monitortechniken für zwei wichtige Prognosemethoden, die exponentielle Glättung als Hauptvertreter heuristisch basierter Strukturkomponentenmodelle und die Box-Jenkins-Modelle als Hauptvertreter statistisch begründeter Verfahren in ihren Grundzügen skizziert. Einige Aspekte, die im Folgenden kurz aufgelistet werden, wurden dabei vernachlässigt: 1.
Bei zeitlich und sachlich fein aufgelösten Zeitreihen (etwa bei produktspezifischen täglichen Absatzzeitreihen) ist der Einbezug von Regressoren in Form von Kalendereffekten, Werbemaßnahmen etc. nahezu unverzichtbar. Exponentielle Glättungsmodelle verfügen hier nur über wenige Erweiterungen zur Einbettung von Regressoren. Box-Jenkins-Modelle wurden hingegen in Form von Transfer- und Interventionsfunktionsmodellen [8] zu dynamischen Regressionsmodellen [50] erweitert, sodass die in Abschnitt 18.4 dargestellte Ausreißeranalyse auch mit diesen Modellen kombiniert werden kann; für ein Beispiel siehe [37].
2.
Nahezu jedes zeitreihenanalytische Verfahren muss in einer geeigneten und fast immer methodenspezifischen Weise initialisiert und konfiguriert werden. Dies betrifft vor allem (a) die Wahl der Startwerte bei nichtlinearen Schätzverfahren z. B. für die Maximum-Likelihood-Schätzung in ARIMA-Modellen, (b) die Initialisierung von Komponenten z. B. für Niveau und Trend in exponentiellen Glättungsmodellen, (c) die Konfiguration von automatischen Modellsuchverfahren z. B. durch eine Festlegung des Signifikanzniveaus und der Augmentationsordnung in Dickey-Fuller-Unit-Root-Tests, (d) die Konfiguration von Monitoren z. B. durch Festlegung
Monitoring von Prognosemodellen
361
der Schwellenwerte, der maximalen Lauflängen und der zulässigen Ausreißertypen als auch (e) die Entscheidung, wie Prognoseverfahren und Monitorstatistiken nach der Generierung eines Signals reinitialisiert werden. Auf der Ebene einzelner Entscheidungen stehen oft fundierte Empfehlungen zur Verfügung, die entweder mit theoretischen Argumenten oder mithilfe von Simulationsstudien untermauert werden können. Beispielsweise findet man durchaus asymptotisch begründete Resultate über die Wahl der Augmentationsordnung von Unit-Root-Tests. Das Zusammenwirken aller Komponenten, insbesondere bei mit Ausreißern und Strukturbrüchen kontaminierten Zeitreihen, wurde bisher aber nur sehr unzureichend untersucht. 3.
Unabhängig von den oben beschriebenen Konfigurationsproblemen muss man bei Anwendung der Monitore auf lange Zeitreihen und bei Produkthierarchien mit zahlreichen Zeitreihen konstruktionsbedingt eine Vielzahl von Fehlsignalen in Kauf nehmen. Unter Verwendung eines zu einem Signifikanzniveau von 1 % korrekt kalibrierten Monitors muss ein Absatzplaner bei der Analyse der wöchentlichen Zeitreihen einer Produkthierarchie mit 1000 Artikeln durchschnittlich mit ca. 10 wöchentlichen Signalen rechnen, obgleich keine Ausreißer vorliegen!'•'' Grundsätzlich wünschenswert und denkbar wäre hier eine Kopplung der Monitore mehrerer verbundener Zeitreihen. Erste Ansätze existieren für vektorielle ARMA-Modelle [58]. Voraussetzung für eine praktische Nutzung in Produkthierarchien sind aber simultane Komponentenmodelle, deren Entwicklung sich noch in den Anfängen befindet.
4.
Die in diesem Beitrag behandelten Konzepte wurden vielfach verfeinert und modifiziert. Beispielsweise entwickelte Kirkendall [33] in der Tradition des ursprünglich von Harrison und Stevens [29] entwickelten mehrstufigen bayesianischen Modells mit den vier Systemzuständen (1) Standard, (2) additiver Ausreißer, (3) Niveauveränderung und (4) Trendänderung einen Monitor für AO und LS in exponentiellen Glättungsmodellen. Diese Erweiterungen fanden aber aufgrund der formalen Komplexität (z. B. bayesianische Modellmischungen) bisher noch keinen Einzug in die Praxis.
Zahlreiche Zeitreihen enthalten Ausreißer bzw. Strukturbrüche mit singulären, temporären oder permanenten Auswirkungen auf die Prognosefunktion. Idealerweise wird man zwar möglichst genaue Informationen über Ausnahmesituationen sammeln und diese in einer strukturierten Form mithilfe von Kausaleffekten in dynamische Regressionsmodelle einbetten. In der Praxis lässt es sich aufgrund der Informationsdefizite jedoch kaum vermeiden, Ausreißer zu diagnostizieren und in einer angemessenen Art und Weise statistisch zu berücksichtigen. Für diesen Zweck eignen sich die in diesem Beitrag skizzierten Verfahren. Zur Robustifizierung der Parameterschätzer und der zugehörigen Diagnoseverfahren wird man in Zukunft aber vermutlich stärker als bisher Verfahren der robusten Statistik einsetzen, um die hochgradigen Abhängigkeiten der Ausreißerklassifikation von den Modellidentifikations- und Schätzmethoden zu reduzieren. Durch den Einsatz computerbasierter Verfahren, insbesondere zur Simulation von
''''
Eine einfache, wenn auch theoretisch nicht begründete Lösung besteht darin, nur die über die statistische Erwartung hinausgehenden Ausreißer nach abnehmender Stärke zu inspizieren. Generiert der Monitor im oben angegebenen Beispiel etwa 15 Signale, so wäre nach diesem Ansatz eine Inspektion der 5 stärksten Ausreißer erforderlich.
362
Küsters, Becker
Quantilen unter vielfältigen Datengenerierungsprozessen, lässt sich das Problem der Fehlsignale zwar nicht eliminieren; allerdings kann man mit diesen Verfahren ein genaueres Bild über die relativen Risiken der Diagnoseverfahren gewinnen. Dieser Aufsatz konzentriert sich fast ausschließlich auf die systematische Untersuchung von Prognose-Ist-Vergleichen mithilfe statistischer Monitore. Die in der Einleitung erwähnten Plan-Ist-Vergleiche wurden hingegen ausgeklammert, da diese typischerweise als rein betriebswirtschaftliche Kennzahlensysteme realisiert werden. Allerdings wurden durch Wu [64] sowie Wu, Hosking und Doli [65] drei statistisch begründete Monitortechniken für Plan-lst-Vergleiche entwickelt. Mit diesen als WINEGLASS, SIHIPWRECK und OUTLOOK bezeichneten Monitoren kann man untersuchen, (a) ob die monatlichen Absätze noch mit dem Jahresziel vereinbar sind, (b) ob bei einem hinter Plan zurückliegenden Absatz noch eine Chance besteht, das Jahresziel zu erreichen und (c) mit welchen Zufallsschwankungen man bei den auf der Basis von Monatsdaten hochgerechneten Jahresendwerten rechnen muss. Leider wurde dieser hochinteressante Ansatz bisher noch nicht weiterentwickelt, obgleich gerade aufgrund der häufigen Verwechslung zwischen den Konzepten „Prognose" und „Plan" in der Praxis ein erheblicher Bedarf an derartigen Instrumenten besteht. Danksagung Die Arbeit von Claudia Becker wird großzügig von der Maximilian-Bickhoff-Universitätsstiftung, bei der wir uns herzlich bedanken, gefördert. Weiterhin bedanken wir uns bei Bernhard Brandel, Oliver Vogt und Tobias Wintz für hilfreiche Kommentare zu einer Vorversion dieses Beitrags. Für alle Fehler und Unzulänglichkeiten sind jedoch wir verantwortlich. 18.6 Literatur [I] [2] [3] [4] [5]
[6]
[7] [8] [9] [10] [II]
Automatic Forecasting Systems Inc. (AFS), Autobox 5.0 for Windows, User's Guide and Reference Guide, P.O. Box 563, Hatboro, PA 19040, http://www.autobox.com, 2002. Balke, N.S., Detecting level shifts in time series, Journal of Business and Economic StatisticsH (1993), S. 81 ff. Banerjee, A., Dolado, J., Galbraith, J.W. und Hendry, D.F., Co-Integration, Error-Correction, and the Econometric Analysis of Non-Stationary Data, Oxford 1993. Batty, M., Monitoring an Exponential Smoothing Forecasting System, Operational Research Quarterly 20 (1969), S. 319. ff Bell, W., A Computer Program for Detecting Outliers in Time Series, American Statistical Association, Proceedings of the Business and Economic Statistical Section (1983), S. 634 ff. Bianco, A.M., Garcia Ben, M., Martinez, E.J. und Yohai, V.J., Outlier Detection in Regression Models with ARIMA Errors using Robust Estimates, Journal of Forecasting 20 (2001), S. 565 ff. Brooks, C, introductory econometrics for finance, Cambridge 2002. Box, G.E.P., Jenkins, G.M. und Reinsei, G.C., Time Series Analysis, Forecasting and Control, Englewood Cliffs 1994. Brown, R.G., Statistical Forecasting for Inventory Control, New York 1959. Brown, R.G., Smoothing, Forecasting and Prediction, New York 1963. Chang, I., Tiao, G.C. und Chen, C, Estimation of Time Series Parameters in the Presence of Outliers, Technometrics 30 (1988), S. 193 ff.
Monitoring von Prognosemodellen [12] [13] [14]
[15] [16] [17] [18] [19]
[20] [21] [22] [23] [24] [25] [26]
[27] [28]
[29] [30] [31]
[32] [33] [34]
[35]
363
Chatfield, C , Time-Series Forecasting, Boca Raten 2001. Chan, C. und Liu, M.L., Joint Estimation of Model Parameters and Outlier Effects in Time Series, Journal of the American Statistical Association 88 (1993), S. 284 ff. Chen, C. und Tiao, G.C., Random Level-Shift Time Series Models, ARIMA Approximations, and Level-Shift Detection, Journal of Business and Economic Statistics 8 (1990), S. 83 ff. Chol, B., ARMA Model Identification, New York 1992. Chow, W.M., Adaptive Control of the Exponential Smoothing Constant, Journal of Industrial Engineering 5 (1965), S. 314 ff. Cromwell, J.B., Labys, W.C. und Terraza, M., Univariate Tests for Time Series Models, Thousand Oaks 1994. Davidson, R. und MacKinnon, J.G., Estimation and Inference in Econometrics, New York 1993. DeGooijer, J.G., Abraham, B., Gould, B. und Robinson, L., Methods for Determining the Order of an Autoregressive-Moving Average Process: A Survey, International Statistical Review3(1985), S. 301 ff. DeLurgio, S.A., Forecasting Principles and Applications, New York 1998. Dennis, J.D., A Performance test of a run-based adaptive exponential forecasting technique, Production and Inventory Management 19 (1978), S. 43 ff. Fox, A.J., Outliers in Time Series, Journal of the Royal Statistical Society Series B 34 (1972), S. 350 ff. Gardner, E.S., Automatic Monitoring of Forecast Errors, Journal of Forecasting 2 (1983), S. 1 ff. Gardner, E.S., Exponential Smoothing: The State of the Art, Journal of Forecasting 4 (1985), S. 1 ff. Gardner, E.S., CUSUM vs Smoothed-Error Forecasting Monitoring Schemes: Some Simulation Results, Journal of the Operational Research Society 36 (1985), S. 43 ff. Gömez, V. und Maravall, A., Automatic Modeling Methods for Univariate Series, in: Pena, D., Tiao, G.G. und Tsay, R.S. (Hrsg.), A Course in Time Series Analysis, New York 2001, S. 171 ff. Hanssens, D.M., Parsons, L.J. und Schultz, R.L., Market Response Models: Econometric and Time Series Analysis, 2. Aufl., Boston 2001. Harrison, P.J. und Davies, O.L., The Use of Cumulative Sum (CUSUM) Techniques for the Control of Routine Forecasts of Product Demand, Operations Research 12 (1964), S. 325 ff. Harrison, P.J. und Stevens, C.F., Bayesian forecasting, Journal of the Royal Statistical Society38(1976), S. 205ff. Harvey, A.C., Forecasting, structural time series models and the Kaiman filter, Cambridge 1989. Heiler, S., Nonparametric Time Series Analysis: Nonparametric Regression, Locally Weighted Regression, Autoregression and Quantile Regression, in: Pena, D., Tiao, G.C. und Tsay, R.S. (Hrsg.), A Course in Time Series Analysis, New York 2001, S. 308 ff. Jun, D.B., On Detecting and Estimating a Major Level or Slope Change in General Exponential Smoothing, Journal of Forecasting 8 (1989), S. 55 ff. Kirkendall, N.J., Monitoring for Outliers and Level Shifts in Kaiman Filter Implementations of Exponential Smoothing, Journal of Forecasting 11 (1992), S. 543 ff. Küsters, U., Software Review: Autobox 3.0 and SCA PC-Expert. The Forum, Joint Newsletter of the International Association of Business Forecasting and the International Institute of Forecasters 8 (1995), S. Iff. Küsters, U., Subjektive Interventionen und Prozeßänderungsdiagnostik in bayesianischen Prognosemodellen, Woinzach 1996.
364 [36] [37]
[38]
[39]
[40] [41]
[42] [43] [44] [45] [46] [47] [48] [49]
[50] [51] [52] [53]
[54] [55]
[56] [57] [58]
Küsters, Becker Küsters, U. und Bell, M., The Forecasting Report: A Comparative Survey of Commercial Forecasting Systems, Höhenkirchen und Brookline, MA 1999. Küsters, U., Scharffenberger, U. und Steffen, J.P., Outlier Diagnostics in ARMAX Models, in: Faulbaum, F. und Bandilla, W. (Hrsg.), SoftStat'95 - Advances in Statistical Software 5, Stuttgart 1996, S. 569 ff. Küsters, U. und Steffen, J.P., Outlier Recognition Time Paths in SARIMAX models: a case study. Diskussionsbeitrag der Katholischen Universität Eichstätt, Wirtschaftswissenschaftliche Fakultät Ingolstadt Nr. 72, ISSN 0938-2712, 1996. Liu, L.M., Hudak, G.B., Box, G.E.P., Muller, M.E. und Tiao, G.G., Forecasting and Time Series Analysis using the SCA Statistical System, Volume 1, Scientific Computing Associates Corp., P.O. Box 4692, Oak Brook, lllionois 60522, USA 1992. Liu, L.M., Identification of Seasonal ARIMA Models Using a Filtering Method, Communications in Statistics 18 (1989), S. 2279 ff. Makridakis, S., Andersen, A., Carbone, R., Fildes, R., Hibon, M., Lewandowski, R., Newton, J., Parzen, E. und Winkler, R., The accuracy of extrapolation (time series) methods: Results of a forecasting competition, Journal of Forecasting 1 (1982), S. 111 ff. McCIain, J.O., Dominant Tracking Signals, International Journal of Forecasting 4 (1988), S. 563 ff. McKenzie, E., The Monitoring of Exponentially Weighted Forecasts, Journal of the Operational Research Society 29 (1978), S. 449 (Erratum in Band 31 (1980), S. 960). Melard, G. und Pasteeis, J.M., Automatic ARIMA modelling including interventions, using time series expert Software, International Journal of Forecasting 16 (2000), S. 497 ff. Montgomery, D.C., Introduction to Statistical Quality Control, New York 1991. Montgomery, D.C., Johnson, L.A. und Gardiner, J.S., Forecasting and Time Series Analysis, 2. Aufl., New York 1990. Newbold, P. and Bos, T., On exponential smoothing and the assumption of deterministic trend plus white noise. International Journal of Forecasting 5 (1989), S. 523 ff. Newbold, P. und Bos, T., Introductory Business and Economic Forecasting, Cincinnati 1994. Ord, J.K, Koehler, A.B. und Snyder, R.D., Estimation and Prediction for a Class of Dynamic Nonlinear Statistical Models, Journal of the American Statistical Association 92 (1997), S. 1621 ff. Pankratz, A., Forecasting with dynamic regression models, New York 1991. Pena, D., Outliers, Influential Observations and Missing Data, in: Pena, D., Tiao, G.C. und Tsay, R.S. (Hrsg.), A Course in Time Series Analysis, New York 2001, S. 136 ff. Reichmann, T., Controlling mit Kennzahlen und Managementberichten, München 1993. Scientific Computing Associates Corp. (SCA), Modeling and Forecasting Time Series using SCA-Expert Capabilities, 913 W. Van Buren Street, Suite 3H, Chicago, Illinois 60607-3528, http://www.scausa.com, 1993 Shone, M.L., Viewpoints: Exponential smoothing with an adaptive response rate, Operational Research Quarterly 18 (1967), S. 318 ff. Steffen, J.P. und Küsters, U., SAMSON - Ein Programm zur automatischen Prognose von saisonalen Box-Jenkins Modellen, Diskussionsbeiträge der Katholischen Universität Eichstätt, Wirtschaftswissenschaftliche Fakultät Ingolstadt, Nr. 115, ISSN 0938-2712, 1999. Stellwagen, E.A. und Goodrich, R.L., Forecast Pro XE, Business Forecast Systems Inc., 68 Leonard Street, Belmont, MA 02178 USA, 1993. Tsay, R.S., Outliers, Level Shifts, and Variance Changes in Time Series, Journal of Forecasting 7 (1988), S. 1 ff. Tsay, R.S., Pena, D. und Pankratz, A.E., Outliers in multivariate time series, Biometrika 87 (2000), S. 789 ff.
Monitoring von Prognosemodellen [59] [60] [61] [62] [63] [64] [65] [66]
365
Trigg, D.W., Monitoring a forecasting System, Operational Research Quarterly 15 (1964), S. 271 ff. Trigg, D.W. und Leach, A.G., Exponential smoothing with an adaptive response rate, Operational Research Quarterly 18 (1967), S. 53 ff. Vaage, J., Detection of Outliers and Level Shifts in Time Series: An Evaluation of Two Alternative Procedures, Journal of Forecasting 19 (2000), S. 23 ff. West, M. und Harrison, P.J., Bayesian Forecasting and Dynamic Models, 2. Aufl., New York 1997. Wu, L.S.-Y., Hosking, J.R.M. und Ravishanker, N., Reallocation Outliers in Time Series, Journal of the Royal Statistical Society Series C 42 (1993), S. 301 ff. Wu, L.S.-Y., Business planning under uncertainty: Quantifying variability, The Statistician37(1988), S. 141 ff. Wu, L.S.-Y., Hosking, J.R.M. und Doli, J.M., Business planning under uncertainty. Will we attain cur goal? International Journal of Forecasting 8 (1992), S. 545 ff. Whybark, D.C., A comparison of adaptive forecasting techniques, The Logistics and Transportation Review 8 (1973), S. 13 ff.
19 Evaluation, Kombination und Auswahl betriebswirtschaftlicher Prognoseverfahren von Ulrich Küsters 19.1 Überblick Prognoseprobleme in der betriebswirtschaftlichen Praxis sind sehr vielfältig. Das Spektrum reicht von hochfrequenten Prognosen im Energiesektor (z. B. Bedarfsprognosen in 15 Minuten Abständen) und in Kapitalmärkten (z. B. Kurse) über die kurz- und mittelfristige Prognose von Absätzen und Umsätzen in umfangreichen Produkthierarchien bis zur Prognose langfristiger Entwicklungen wie etwa dem Bedarf nach Gesundheitsdienstleistungen bis 2030 (z. B. für die Krankenhausbedarfsplanung einer Region). Dementsprechend unterschiedlich sind auch die für die verschiedenen Anwendungen entwickelten Prognoseverfahren und die dahinter stehenden Auswahlprozesse. Idealerweise wird die Selektion einer Prognosemethodologie in einen strukturierten Prozess eingebettet [69], in dem man ausgehend von einer Stärken-Schwächen-Analyse der bisher benutzten Verfahren, von den Informationsgrundlagen und von einer genauen Bedarfsanalyse einen Migrationspfad entwickelt, der die Prognosequalität unter Beachtung von Kosten-Nutzen-Aspekten iterativ verbessert. Innerhalb dieses Prozesses spielt neben der präzisen Evaluation der Leistungsfähigkeit der bisher benutzten Verfahren (Track Records) auch eine Prüfung der potenziell nutzbaren Daten und Verfahren sowie deren Prognosegenauigkeit und Umsetzbarkeit eine wichtige Rolle. In der Literatur werden verschiedene Vorgehensweisen beschrieben, mit denen Prognoseverfahren in der Praxis ausgewählt werden. Armstrong [5] identifiziert sechs Strategien, die von der Auswahl nach (1) Bequemlichkeit, (2) Marktpopularität, (3) grundlegenden strukturellen Kriterien wie wahrgenommene Genauigkeit, Flexibilität und Kosten, (4) statistischen Kriterien wie die gemessene Prognosegenauigkeit, (5) einer Analyse der Leistungsfähigkeit in der Vergangenheit bis (6) zur Auswahl eines Verfahrens aufgrund einer Meta-Analyse der Leistungsfähigkeit in vergleichbaren Situationen (z. B. in Prognosewettbewerben) reichen. In diesem Beitrag werden ausgewählte Methoden zur Bewertung, Kombination und Auswahl von Prognoseverfahren diskutiert. Aufgrund der Vielfalt unterschiedlicher Prognoseverfahren, die die Vielfalt betriebswirtschaftlicher Prognoseprobleme widerspiegelt, ist diese Auswahl natürlich subjektiv. Inhaltlich konzentriert sich dieser Beitrag vor allem auf die für die Verfahrensauswahl wichtige statistische Evaluation der Prognosegenauigkeit (Abschnitt 19.2), die Kombination von Prognosen (Abschnitt 19.3) und die Rolle von Prognosewettbewerben (Abschnitt 19.4). Weiterhin werden auf der Grundlage einer kurzen Darstellung struktureller Merkmale und Anforderungskataloge einige subjektive Hinweise zur Auswahl von Prognoseverfahren gegeben (Abschnitt 19.5). Durch die Beschränkung auf zeitreihenbasierte Ansätze werden einige Methoden nicht berücksichtigt. Dazu gehören etwa Prognoseverfahren aufgrund von Analogien, querschnittsbasierte Conjoint-Analysen sowie beurteilende Prognosemethoden wie Delphi.
368
Küsters
Die besonderen Probleme der Evaluation und Auswahl von Verfahren zur Prognose von Kapitalmarktdaten und deren Umsetzung in Transaktionsregeln werden ebenfalls weitgehend ausgeklammert, obgleich die hier beschriebenen Ansätze der Prognoseevaluation zumindest teilweise in diesem Segment anwendbar sind. Damit schließt sich dieser Beitrag an die Tradition der von Mertens und Backert [67] bzw. Hüttner [46] verfassten Vorgängerartikel in der vierten [65] bzw. fünften [66] Auflage dieses Sammelbands an, die sich ebenfalls auf zeitreihenbasierte Ansätze vor allem im Absatzbereich konzentrieren. Die in diesem Aufsatz behandelten Themen werden in mehreren Beiträgen ausführlich im Sammelband von Armstrong [4] dargestellt. In Diebold und Lopez [28], in der Monographie von Granger und Newbold [42] sowie im Sammelband von Clements und Hendry [22] werden einige Themenfelder dieses Beitrags vor allem aus ökonometrischer Sicht behandelt. Die kommentierte Bibliographie von Giemen [21] gibt einen ausführlichen Überblick über Kombinationsverfahren. 19.2 Evaluation der Prognosegenauigkeit 19.2.1 Grundlagen der Evaluation Sowohl Praktiker als auch Theoretiker nennen in Befragungen (siehe u.a. [15] und [5]) fast durchweg eine hohe Genauigkeit als wichtigstes Kriterium zur Auswahl von Prognoseverfahren und Systemen, obwohl auch eine Reihe praktischer Kriterien, auf die in Abschnitt 19.5 kurz eingegangen wird, als wichtig erachtet werden. Dementsprechend zentral ist eine genaue Beschreibung, was unter Prognosegenauigkeit verstanden wird und wie diese gemessen werden kann. Aus methodischer Sicht können Prognosen einer Zeitreihe y^ mit t = l,2,... mit fünf unterschiedlichen Genauigkeitsgraden formuliert werden, die jeweils unterschiedliche Evaluationstechniken erfordern: 1.
Punktprognosen y^ von Lagemaßen wie konditionale Mediane und Erwartungswerte, als Grenzfall auch Punktprognosen anderer Parameter der Prognoseverteilung wie die konditionale Varianz (gelegentlich auch Quantile).
2.
Intervallprognosen [i^^^^j^^^] zu einer vorgegebenen Intervallwahrscheinlichkeit \-a mit p(y^ G[j)^^,j)^^]j = l - a ; die unter (1) genannten Quantile sind hier ein Spezialfall.
3.
Wahrscheinlichkeitsprognosen von Ereignissen, z. B. der Wahrscheinlichkeit P(y^ =1), dass ein Kredit Not leidend wird. Siehe dazu auch den Beitrag von Krämer (Kapitel 23) in diesem Sammelband.
4.
Ereignisprognosen in diskreter Form, z. B. in Form einer konkreten Aussage, dass ein Kredit Not leidend wird, d. h. j ) ^ = l . Zu dieser Gruppe gehören auch Richtungsprognosen der Form Ay^ =y^ -y^_^ >0 (hoch versus runter), wie sie etwa zur Steuerung von Handelsstrategien verwendet werden.
5.
Dichteprognosen f{y^) der Dichte f(y^) der zu prognostizierenden Variablen;;^, aus denen die Formen 1 bis 3 abgeleitet werden können und aus denen sich mit-
Evaluation von Prognoseverfahren
369
hilfe einer Entscheidungsvorschrift auch Ereignisprognosen der Form (4) herleiten lassen. Typischerweise werden bedingte Prognosen für y^ durch eine Konditionierung der Prognose y^ auf die Historie [y^,...,y^_^] erstellt, wobei zusätzlich auch erklärende Variablen jc^,x^_i,... einbezogen werden können. Die Form der Prognose hängt einerseits vom Bedarf eines Nutzers, andererseits aber auch von der Datenlage und den im Unternehmen verfügbaren bzw. nutzbaren Standard-Software-Paketen und Prognoseverfahren ab. Idealerweise lässt sich aus der Nutzerperspektive eine Kosten- oder Risikofunktion Riy^^y^) angeben [38], mit der die mit den ökonomischen Konsequenzen von Fehlprognosen verbundenen Kosten beschrieben werden. Die Wahl der Risikofunktion wird von den Entscheidungen beeinflusst, die mithilfe der Prognosen erstellt werden (etwa die Festlegung von Sicherheitsbeständen auf der Grundlage von Lage- und Streuungsprognosen in Verbindung mit Verteilungsannahmen). In der Praxis ist es oft schwer, die aus zu hohen bzw. zu niedrigen Punktprognosen resultierenden Kosten (z. B. durch Lagerüberbestände, Verschrottung und Kundenabwanderungen) genau zu beschreiben. Daher begnügt man sich fast immer mit statistischen Ersatzkriterien. Idealerweise wird man auch Dichteprognosen generieren, da sich diese im Regelfall weitaus besser als Punkt- und Intervallprognosen zur optimalen Steuerung nutzen lassen. Allerdings benötigt man für genaue Prognosen der konditionalen Dichten relativ lange Zeitreihen, wie man sie im Regelfall nur bei Energie-, Kapitalmarkt- und Scannerdaten findet. Außerdem ist das statistische Instrumentarium der Dichteschätzung [88] und deren Evaluation noch nicht durchgängig entwickelt; dementsprechend selten findet man Anwendungen im Bereich der betriebswirtschaftlichen Prognostik. Der überwiegende Teil der nachfolgenden Ausführungen beschränkt sich auf die Bewertung der Güte von Punktprognosen mithilfe des Prognosefehlers e^=yf-y^, definiert als Differenz zwischen der Beobachtung y^ und der Punktprognose y^ =f^_^(^h) vom Prognoseursprung t-h mit Horizont h. Manchmal wird auch ein aus diesen beiden Konstituenten zusammengesetztes Risikomaß Riy^.y^) verwendet, das möglicherweise als betriebswirtschaftliche Kostenfunktion oder mit negativem Vorzeichen als Nutzenfunktion interpretiert werden kann. Die Evaluation von Wahrscheinlichkeits-, Ereignis-, Intervall-, Richtungs- und Dichteprognosen wird unten nur kurz skizziert. 19.2.2 Differenzierungsmerkmale von Evaluationsmaßen Die in der Literatur vorgeschlagenen Prognoseevaluationsmaße und zugehörigen Informationsbasen lassen sich durch folgende Merkmale unterscheiden: 1.
Die Vorschrift zur Berechnung der Prognose y^, die von vier Faktoren abhängt: • • • •
Dem Prognoseverfahren und dessen Implementation. Dem Prognoseursprung t-h bzw. dem Prognosehorizont h. Dem Verfahren zur Schätzung der Prognosefunktionsparameter 0 und damit des Parameterschätzers 6. Der zur Schätzung von 6 benutzten Informationsbasis / , die üblicherweise aus der Historie {y^,...,y^_f^} bis zum Prognoseursprung t-h, manchmal aber auch aus der gesamten Zeitreihe {y^,...,yj^}, besteht. Hinzu treten möglicherweise weitere Informationen wie Regressoren x^.
370
Küsters Zur Verdeutlichung dieser Abhängigkeiten wird die Prognose y^ manchmal durch f^_^(h\3j) dargestellt. Variationen der bei der Schätzung der //-stufigen Prognosefunktion genutzten Informationen (Daten) / führen hier zu erheblichen Unterschieden.
2.
Unmittelbar werden die Prognosefehler ef_^(h) = yf -f^_^{h\0J) meistens nur grafisch als Zeitreihe inspiziert. Zur analytischen Bewertung der Güte findet hingegen im Regelfall eine Mittelwertbildung über mehrere Prognosefehler statt, mit der das durch eine Fehlprognose implizierte Risiko (idealerweise in Form einer betriebswirtschaftlich begründeten Kostenfunktion) geschätzt wird. Diese Mittelwertbildung erfordert drei weitere Festlegungen: •
Die Operationalisierung der Abweichung durch eine Risikofunktion R{y^,y^), mit der etwa festgelegt wird, ob Abweichungen nach unten und nach oben gleich gewichtet werden, und ob diese relativ oder absolut, proportional oder quadratisch in das Maß eingehen etc. EnA/eiterte Maße wie der RAE (relative absolute error) beziehen das Risikobewertungsmaß auch auf ein BenchmarkVerfahren; beispielsweise verwendet das Maß U2 von Theil (siehe [59]) die naive Random Walk-Prognose f^{h) = yj als Bezugspunkt (Benchmark).
•
Die Festlegung, ob Durchschnittsmaße über unterschiedliche Prognoseursprünge t in ft.hih) bei konstantem Horizont h, über unterschiedliche Horizonte h bei konstantem Prognoseursprung t und/oder über sachlich unterschiedliche Zeitreihen k berechnet werden.
•
Eine Entscheidung, mit welcher mathematischen Operation eine Durchschnittsbildung durchgeführt wird. Neben Standardformeln wie dem arithmetischen Mittel und dem Median werden auch andere Varianten wie geometrische und getrimmte Mittelwerte verwendet.
Eine weitere Alternative besteht in der Ermittlung von Durchschnittsrängen einzelner Methoden. Zur Notation: Unterschiedliche Methoden (Prognoseverfahren) werden von m = l,...,M, unterschiedliche Zeitreihen von k = \...,K, unterschiedliche Horizonte von h = l,...,H und unterschiedliche Ursprünge von t = \,...,T indiziert. Die ultimative Prognosegenauigkeit eines Verfahrens und der im Rahmen der Verfahrensanwendung genutzten Szenarien und Zusatzinformationen (z. B. Regressoren) kann nur ex post nach Beobachtung der zu den einzelnen Prognosen gehörenden Werte bewertet werden. Allerdings wird diese ex post Evaluation, die auch als TrackRecord-Analyse oder retrospektive Evaluation bezeichnet wird, eher selten vorgenommen. Meistens wird eine der im nächsten Abschnitt beschriebenen Prognosesimulationen durchgeführt. 19.2.3 Untersuchungsdesigns Bei der Evaluation der Genauigkeit von Prognoseverfahren lassen sich drei Untersuchungsdesigns unterscheiden: 1.
Die Berechnung der Anpassungsgüte innerhalb einer Zeitreihe auf Grundlage von ex post Prognosen.
Evaluation von Prognoseverfahren
371
2.
Die retrospektive Analyse eines Track Records einer ex ante berechneten Prognose in einer realen Entscheidungssituation.
3.
Die Festlegung der Funktionsform und Parametrisierung der Prognosefunktion mithilfe einer Prognosesimulation auf der Grundlage einer unvollständigen, gestutzten Zeitreihe (Kalibrationsstichprobe, within-sample), wobei die Bewertung der Prognosegüte ausschließlich auf den nicht zur Kalibration genutzten, aber bereits verfügbaren Daten einer Teststichprobe (out-of-sample) beruht.
Im Folgenden werden die wichtigsten Gestaltungsmerkmale dieser Designs anhand Abbildung 1 diskutiert, bevor auf die konkrete Berechnung der Fehlerevaluationsmaße eingegangen wird. Ausgangspunkt ist dabei eine Zeitreihe {y^,y2,...,y^,y^+i,...,yr} der Länge T. Kalibrationsstichprobe (Umfang N)
r
Teststichprobe (Umfang T-N)
A.
Statische Simulation (h=1,...,T-N)
r
h=4
h=3 h=2 h=1
j ^
C^
^^^J^ h=2 h=2 h=2
t = 1, 2,
N, N+1, N+2, N+3,
Prognosezeitraum (Länge H)
r C^ Kr^>
A.
Dynamische (rollierende)Simulation (hier h=2 fix, Ursprung t variierend)
T, T+1, T+2,
T+H
Abb. 1: Kalibrationsstichprobe, Teststichprobe und Prognosezeitraum Die drei oben genannten Fälle können wie folgt präzisiert werden: 1.
Ex post Evaluation cfer Anpassungsgüte.' Nutzung der gesamten Stichprobe sowohl zur Festlegung des Prognoseverfahrens bzw. der Prognosefunktion f^(h\dj) für /==!,...,r als auch zur Schätzung 6 des Parameters 0, d.h. I = {y^,...,yrj.]. Bei dieser Vorgehensweise wird nicht die Prognosefähigkeit, sondern nur die Anpassungsgüte gemessen, wobei diverse empirische Studien zeigten, dass eine hohe Anpassungsgüte in vielen Fällen nicht mit einer hohen ex ante Prognosegenauigkeit der evaluierten Prognosemethode m assoziiert werden kann [6].
2.
Retrospektive ex post Evaluation einer realen ex ante kalkulierten Prognosefunktion (Track-Record'Analyse): Hier wird fj^{h\dj) außerhalb der Zeitreiheninformationsbasis [y^,...,yj,] zum Zeitpunkt T (als Prognoseursprung) für verschiedene Horizonte h = l,...,H zur realen Prognose noch nicht verfügbarer Datenpunkte {yT+i-'-^yT+n] genutzt und an einem nach T + H liegenden Zeitpunkt zur retrospektiven Bewertung der realisierten Abweichungen zwischen yj^^^ und fj{h\6J) ausgewertet. Im Rahmen eines strukturierten Kontrollprozesses ist diese Inspek-
372
Küsters tion des Track Records als Wegbeschreibung zwischen „Prognose" und „Ist" zur Erfassung der bisher realisierten Prognosequalität sehr sinnvoll. Für die Entscheidungsfindung, welches Verfahren sich aus einer Menge konkurrierender Verfahren am besten eignet, lässt sich diese Technik aber nur nutzen, wenn die Zeitreihe bereits zum Prognoseursprung T mit mehreren konkurrierenden Verfahren prognostiziert wurde; ansonsten eignet sich dieser Ansatz nur zur isolierten Bewertung der Vergangenheit.
3.
Prognosesimulation mit Kalibrations- und Teststichprobe: Hier wird der Fall 2 simuliert, indem die Prognosefunktion f^{h\6J) zunächst auf der Grundlage der Kalibrationsstichprobe festgelegt und geschätzt wird, d. h., zur Auswahl der Prognosefunktion, zur Schätzung der Parameter 6 als auch zur Berechnung der Prognosen wird ausschließlich die Informationsbasis I^=[y^,y^,...,y^] einschließlich möglicherweise zugehöriger Regressoren x^ genutzt. Anschließend berechnet man ausgehend vom Prognoseursprung A^ die Punktprognosen yN+h=fN(^\^N^^N) für alle Horizonte h = l,...,T-N. Dabei ist ö^ der Schätzer für 0 auf der Grundlage der Informationsbasis Ij^.
Aus praktischer Sicht ist Fall 3 wegen der enormen Bedeutung für die fallspezifische Auswahl von Prognoseverfahren, der allgemeinen Bewertung von Methoden im Rahmen der im Abschnitt 19.4 skizzierten Prognosewettbewerbe sowie zur empirischen Schätzung von Prognosekonfidenzintervallen [96] am interessantesten. Bei statischen Prognosesimulationen kann man nur in einem beschränkten Umfang Durchschnittswerte mehrerer Fehler ermitteln. Eine oft praktizierte Durchschnittsbildung erfolgt über mehrere unterschiedliche Prognosehorizonte bei festem Ursprung A^, was oft der Situation einer jährlichen Unternehmensplanung mit festem Prognoseursprung (etwa im Planungsmonat September) für alle zu prognostizierenden Monatsdaten des Folgejahres entspricht. Eine andere Form der Durchschnittsbildung, wie sie auch bei allen bekannteren und in Abschnitt 19.4 skizzierten Prognosewettbewerben praktiziert wurde, mittelt die zu einem festen Prognosehorizont h und zu einem festen Ursprung N korrespondierenden Fehler e\^\^(h) = y\!j\^ - fj^'\h) bzw. abgeleitete, gewichtete Größen über mehrere Zeitreihen /. Eine wichtige Variante von Fall 3 ist die dynamische Prognosesimulation, bei der die Kalibrationszeitreihe /^ =[y^,y2,...,y^} sukzessiv um jeweils eine Beobachtung {y^+i, dann y^^^ etc.) zu lM^i={y\^y2^-^yN^yN+i} etc. bis zu Ij^_^={y^,y2,...,y^,...,yr.x} erweitert wird. Aus jeder Informationsbasis I^ entsteht dann eine Serie von Prognosen ff(h\3^J^) mit variierenden Parameterschätzern 4 ^^^ variierenden Prognoseursprüngen t = N,N + l,...,T-\ sowie variierenden Horizonten h = \,...,T-t, die bereits bei einer einzigen Zeitreihe Rückschlüsse auf die Prognosegüte des Verfahrens für unterschiedliche Horizonte ermöglicht, da insgesamt T-N einstufige, T-N-\ zweistufige Prognosefehler usw. für eine Durchschnittsbildung zur Verfügung stehen. In der Ökonometrie [62] wird die zugehörige Schätzmethode als rekursive Schätzung bezeichnet. Charakteristische Varianten der dynamischen Prognosesimulation sind unter anderem ([85], [50]):
Evaluation von Prognoseverfahren
373
1.
Die Verwendung rollierender Fenster bei den Informationsbasen IuK..,N^k ={yuk^yi^k^'"^yN^'"^yN^k]. sodass die Anzahl der zur Schätzung verwendeten Beobachtungen auf N fixiert wird. Diese Form wird als rollierende Schätzung bezeichnet.
2.
Die Fixierung der Modellfamilie und Modellparametrisierung (etwa der ARIMA(p,d, q)-Modellordnung bei Box-Jenkins-Modellen) und der auf der Informationsbasis [y^,...,yj^] geschätzten Parameter O^, sodass lediglich eine sukzessive Datenaugmentation durch y^^x.'-.yj^^k ©rfolQt; dies wird als fixe Schätzung bezeichnet.
3.
Beschränkung der Fixierung auf Modellfamilie und Modellparametrisierung; neben der Datenaugmentation erfolgt aber eine Parameterneuschätzung (9^^^ auf Grundlage des erweiterten Datensatzes bis zur Beobachtung j ; ^ ^ ^ .
4.
Ausschließliche Fixierung der Modellfamilie, sodass neben einer Datenaugmentation und einer Parameterneuschätzung auch ein Wechsel der Modellparametrisierung (z. B. durch Wechsel der ARIMA(p,d,q)-Modellordnungen) zulässig ist. Dies ist faktisch nur mithilfe automatischer Modellidentifikationsverfahren möglich ([87], [75]).
5.
Potenziell vollständiger Modellwechsel bei Hinzutreten neuer Beobachtungen. Diese Vorgehensweise ist insbesondere bei der Prognose und Prognosesimulation kurzer, aber rasch anwachsender Zeitreihen (z. B. bei Neuprodukten) sinnvoll, da man bei Erreichen einer kritischen Datenmasse naive Verfahren durch statistisch basierte, aber datenhungrigere Verfahren ablösen kann.
Nicht alle Prognoseverfahren lassen sich mit den bisher skizzierten Methoden evaluieren. Zum einen erfordert die Anwendung einer Prognosesimulation eine hinreichende Zeitreihenlänge, um eine Partitionierung in Kalibrations- und Testzeitreihe zu ermöglichen. Zum anderen ist es bei beurteilenden Verfahren sehr schwierig, die Informationsbasis Ij^ des Beurteilers auf den Kalibrationsdatensatz I^ zu beschränken, wenn der Beurteiler die zur Evaluation zu nutzenden Beobachtungswerte des Testdatensatzes bereits kennt. Bei der Verwendung erklärender Größen x^ in Regressionsmodellen tritt das Problem hinzu, dass die Prognosefunktionen f^{h\6Jf,x^^^,x^^^_^,...) auch von den Werten der Regressoren x^^i^,x^^^_^,... abhängen, die bereits im Testzeitraum liegen und damit zum Evaluationszeitpunkt t unbekannt sind. Eine Ausnahme findet man nur bei verzögerten Variablen x^_^, deren Verzögerung L größer oder gleich h ist. Bei der Prognosesimulation kann man hinsichtlich der Werte dieser Regressoren x^^^ drei Fälle unterscheiden: die Regressorwerte werden (a) als bekannt angenommen, (b) mithilfe anderer Verfahren durch einen Wert x^^^ prognostiziert oder (c) innerhalb eines Szenarios als Annahme gesetzt. Bei a priori bekannten Regressoren wie Kalender- und Ferieneffekten sowie bei unternehmensintern plan- und steuerbaren Größen wie dem Zeitpunkt von Verkaufsmessen bestehen zwischen (a) und (b) keine Unterschiede. Marktbezogene, insbesondere makroökonomische Einflüsse sind jedoch nur schwierig prognostizierbar. Um bei einer Evaluation zwischen der Qualität des Regressionsmodells als Vorhersageverfahren und der Güte der Prognose der exogenen Variablen zu differenzieren, werden die Evaluationsauswertungen zum einen auf der Grundlage der im Testdatensatz realisierten Größen x^^^, zum anderen aber auch auf Grundlage prog-
374
Küsters
nostizierter Werte x^^^ separat durchgeführt. Durch diese Unterscheidung kann man untersuchen, ob sich die in der Praxis manchmal beobachtete unzureichende Genauigkeit komplexer regressionsanalytischer Verfahren auf eine unzureichende Qualität der Prognose der Regressoren oder auf eine unzureichende Modellgüte zurückführen lässt. Ergebnis einer Track-Record-Analyse, einer Prognosesimulation oder auch einer ex post Analyse der Residuen ist immer eine Sequenz von Paaren {yj.yj) oder Prognosefehlern ej=yj-yj als Differenz zwischen Beobachtung yj und Prognose j)^ (bzw. Anpassungswert). Der Index j kann sowohl über unterschiedliche Zeitpunkte t (Prognoseursprünge), unterschiedliche Prognosehorizonte h, unterschiedliche Zeitreihen k (etwa aus einer Produkthierarchie oder einer Stichprobe eines Prognosewettbewerbs), in seltenen Fällen aber auch über verschiedene Methoden m sowie über Kombinationen dieser vier Indizes t,h,k,m variieren. Diese Sequenzen werden mithilfe der im nächsten Abschnitt beschriebenen Methoden zu skalaren Gütemaßen zusammengefasst. 19.2.4 Prognoseevaluationsmaße (Gütemaße) 19.2.4.1 Grundsätzliche Hinweise In der Literatur findet man immer wieder emotional geführte Diskussionen über den Sinn einzelner Prognoseevaluationsmaße [16], die teilweise darauf zurückgeführt werden können, dass Durchschnittsbildungen über bestimmte Indexmengen (etwa unterschiedliche Zeitreihen) bei einigen Abweichungsmaßen nicht sinnvoll sind. Beispielsweise kann der mittlere quadratische Fehler, definiert durch
MSE{d)=-^f^{y,-f,_,(l\d)f auf dem gesamten Datensatz durchaus als sinnvolles Anpassungsmaß sowie als Grundlage zur Schätzung des Parameters 0 herangezogen werden, auch wenn der MSE sehr sensitiv auf Ausreißer reagiert. Eine Durchschnittsbildung über unterschiedliche Zeitreihen k = l,...,K etwa durch
MSE=^j:{y^'^-f:^\i)f ist hingegen nur dann sinnvoll, wenn alle Zeitreihen eine gemeinsame Skala und/oder eine inhaltlich vergleichbare bzw. verrechenbare Dimension (z. B. wertmäßiger Umsatz) aufweisen. Im Idealfall besteht zwischen dem benutzten Prognoseevaluationsmaß und den mit Fehlprognosen verbundenen Kosten ein expliziter Zusammenhang. Überhöhte Prognosen können bei Ersatzteillagern kurzfristig zu zusätzlichen Lagerhaltungs-, Kapitalbindungs- oder Verschrottungskosten und mittelfristig zu Überschusskapazitäten (etwa durch zu große Lagerhallen oder Fertigungskapazitäten) führen, während zu geringe Prognosen unmittelbar zu entgangenen Gewinnen, zu Sonderkosten aufgrund von Eil-
Evaluation von Prognoseverfahren
375
bestellungen oder Kleinserienfertigungen und mittelbar auch zu Kundenabwanderungen führen können. Nun ist eine präzise Bewertung dieser durch Fehlprognosen verursachten Kosten in der Praxis durchweg schwierig. Einerseits fehlen oft geeignete Kennzahlen aus Kostenrechnung und Controlling, andererseits ist die Bewertung eines Kundenverlustes aufgrund der notwendigen Abschätzung des Kundenrestwertes schwierig. Auch können sich Effekte über mehrere Perioden (bzw. Zeitpunkte) möglicherweise kumulieren, in anderen Fällen aber ausgleichen. Diese Schwierigkeiten führen gerade bei logistischen Fragestellungen in Materialwirtschaft und Produktion dazu, dass man Serviceniveaus entweder in Mengen (z. B. Auslieferung von mindestens 95 % des Volumens aller Bestellungen einer Periode) oder Perioden (z. B. in maximal 5 % aller Lieferperioden ist das Lager ausverkauft) festlegt. Diese Praxis impliziert aber, dass im Kern nicht die Punktprognosen entscheidungsrelevant sind, da sich diese auf Lagemaße wie Erwartungswerte beziehen. Vielmehr müssen die entscheidungsrelevanten Quantile auf der Grundlage von Punktprognosen und Prognosekonfidenzintervallen evaluiert werden. Die Evaluation dieser entscheidungsrelevanten Größen im betriebswirtschaftlichen Umfeld beschränkt sich bisher auf Track-Record-Analysen, wenn man von den ersten Ansätzen im Rahmen der unten kurz skizzierten Intervall- und Dichteprognosen absieht. Die Auswahl, über welche Indizes (Zeitpunkte bzw. Ursprünge, Horizonte, Zeitreihen etc.) gemittelt wird, hängt im Wesentlichen vom oben beschriebenen Untersuchungsdesign sowie von der inhaltlichen Fragestellung ab. Darüber hinaus müssen noch zwei weitere Designentscheidungen getroffen werden, bevor numerische Evaluationsmaße berechnet werden können: 1.
Die Festlegung der Schätzfunktion, mit der die Mittelungsoperation vorgenommen wird.
2.
Die Festlegung der Risiko- bzw. Kostenfunktionskomponente R(yj,yj) pro Beobachtungs-Prognose-Paar (yj,yj), mit der Eigenschaften wie Verzerrung und Variation entweder in absoluten oder relativen Maßeinheiten abgebildet werden. Relative Maßeinheiten beziehen sich entweder auf die zu prognostizierende Einheit oder auf die Prognosequalität eines Referenzverfahrens (Benchmark-Prognose).
Neben den überwiegend benutzten Durchschnitten in Form von arithmetischen Mittelwerten, Medianen etc. findet man auch Auszähloperationen wie „Prozent-besser", Anteile der Wendepunktfehler etc. Einige Gütemaße beziehen sich auf ein Referenzverfahren wie etwa der Random Walk-Prognose und beschreiben somit die relative Prognosegüte im Vergleich zum Referenzverfahren. Andere, referenzlose Maße liefern hingegen absolute Zahlen, aus denen Ränge für die unterschiedlichen Methoden ermittelt werden können. 19.2.4.2 Evaluationsmaße ohne Referenz zu einem Benchmark Tabelle 1 enthält eine Auflistung ausgewählter Fehlermaße und ihrer primären Eigenschaften, wie sie in zahlreichen Arbeiten beschrieben werden ([82], [9], [54], [59] und
376
Küsters
[6]). Die Definitionen beschränken sich zunächst auf den arithmetischen Mittelwert als Mittelungsoperation, der allerdings durch andere Arten der Durchschnittsbildung ersetzt werden kann. Der durchaus wichtige Aspekt, ob über verschiedene Zeitreihen /, Ursprünge t, Horizonte h oder Methoden m gemittelt wird, wird in Tabelle 1 zunächst vernachlässigt, weiter unten aber noch diskutiert.
ü O) (f)
.9 "CD i—
0 Q.
0 Sl CD LL
O
JD
0
|'^12 berücksichtigt der PT-Test hingegen nur systematische Abweichungen in der Diagonalen der Kontingenztabelle zwischen der Prognose und dem Ist, während der j^-Test auch auf die für Prognosezwecke irrelevanten systematischen Abweichungen in den Nebendiagonalen reagiert. Die Verallgemeinerung für mehr als zwei Kategorien ist vor allem für die Bewertung von Handelsstrategien (z. B. kaufen, halten, verkaufen) von Bedeutung, während der oben beschriebene Test vor allem für Richtungsprognosen (1=hoch, 0=runter) benutzt wird. Der KS und der PT-Test lassen sich auch zur Beurteilung von Trendwendeindikatoren verwenden. Allerdings findet man in der Literatur [97] auch auf Trendwendeprognosen spezialisierte Maße. Ein Wendepunkt zum Zeitpunkt t ist durch das Ereignis
Evaluation von Prognoseverfahren
l{yt-i;^/^i)} v{U_i
383
>yt)^{yt'?,«'>'/,o] werden traditionell nur durch die Analyse der Abweichungen des empirischen Überdeckungsgrades Anzahl! V, GDA ,, , ,, ^ K mit dem konstruktiv vorgegebenen Niveau l-a innerhalb der Teststichprobe entweder deskriptiv oder mithilfe eines Anteilswerttests verglichen. Allerdings wird bei diesem Vergleich nur die durchschnittliche, also nichtkonditionale Überdeckung analysiert. Christoffersen [20] konnte nun nachweisen, dass die konditionalen Intervallprognosen D^ |/^_i, gegeben die Historie I^_^ bis einschließlich Zeitpunkt t-l bei einer korrekten Modellspezifikation, eine Sequenz stochastisch unabhängiger Bernoulli-verteilter Zufallsvariablen mit Parameter \-a darstellt. Auf dieser Grundlage wurden LikelihoodRatio-Tests entwickelt, mit denen sich prüfen lässt, (a) ob die Intervalle auch konditional kalibriert sind, (b) ob eine Verletzung auf eine unzureichende nichtkonditionale Kalibration der Intervalle zurückzuführen ist oder (c) ob eine Verletzung der stochastischen Unabhängigkeit vorliegt. 19.2.7 Tests auf Prognoseäquivalenz Unterschiedliche Evaluationsmaße führen meistens zu unterschiedlichen Rangreihenfolgen der zur Auswahl stehenden Prognoseverfahren; daher werden diese Rangunterschiede auch gelegentlich mithilfe nichtparametrischer Tests auf Signifikanz geprüft.
384
Küsters
Meistens ist nicht unmittelbar ersichtlich, ob numerisch unterschiedliche Evaluationsmaße konkurrierender Methoden noch als Zufallsschwankungen oder bereits als systematische Abweichungen interpretiert werden können. Daher wurden zur Überprüfung der Zufälligkeitsannahme statistische Signifikanztests entwickelt. Die einfachsten Tests vergleichen lediglich die Varianzen of^^ und cr^^2) der Prognosefehler e^^"^ und ^p^ zweier unverzerrter Prognoseverfahren m = 1,2 über die Identität
E[[^Ke^^]{4'-e^^]) =
2
_
2
Damit kann man etwa durch Anwendung des Fisher-Tests mithilfe des Produkt-Moment-Korrelationskoeffizienten zwischen den beiden Reihen ef^-^f^ und ^^^^^+ep^ durch Prüfung der Nullhypothese p = 0 testen, ob sich die Varianzen systematisch unterscheiden. Dieses Verfahren wird als Morgan-Granger-Newbold bzw. MGN-Test [42] bezeichnet. Dieses auf Varianzen und Kovarianzen beruhende Testverfahren unterstellt (a) quadratische Risikofunktionen, (b) unverzerrte Prognosefunktionen sowie (c) normalverteilte und (d) unkorrelierte bzw. unabhängige Fehler. Dementsprechend wurden Erweiterungen und Modifikationen entwickelt, um diese Voraussetzungen abzuschwächen. Die Annahme (d) der Unabhängigkeit der Prognosefehler ist insbesondere bei mehrstufigen Prognosefehlern kritisch. Folgen von einstufigen Prognosefehlern e^=e^_^(\) = y^-f^_^{\) sind bei korrekter Spezifikation zwar stochastisch unabhängig. Mehrstufige Prognosefehler e^_^(h) = y^ - f^_f^(h) weisen hingegen selbst bei korrekter Spezifikation von besten linearen Prädiktoren (MMSE) in ARMA-Modellen eine Abhängigkeitsstruktur in Form von M A ( Ä -1)-Prozessen auf. Beim MR-Test von Meese und Rogoff [63] wird die Annahme der Unabhängigkeit daher aufgegeben, indem in der MGN-Testgröße des Korrelationskoeffizienten von e^^^-e^^^ und ef^+^f^ die auf der Bartlett-Formel für abhängige Zufallsvariablen beruhende Varianz bzw. Standardabweichung zur Normierung verwendet wird, um Autokorrelation zu berücksichtigen. Diebold und Mariano [29] schwächen neben der Aufgabe der Unabhängigkeit (d) auch die Annahmen (a)-(c) nochmals erheblich ab. Zum einen kann man beim Diebold-Mariano-Test (DM-Test) weitgehend beliebige, also nichtquadratische Risikofunktionsdifferenziale benutzen. Damit können nicht nur die Unterschiede verschiedener Prognoseverfahren auf Grundlage der oben angegebenen Evaluationsmaße wie dem MAPE, sondern auch Unterschiede zwischen betriebswirtschaftlichen Entscheidungsfunktionen (etwa ökonomische Erträge unterschiedlicher Handelsstrategien) auf Zufälligkeit der Abweichungen geprüft werden. Zum anderen lässt sich die fehlende Unabhängigkeit zwischen Risikofunktionsfolgen - ähnlich wie beim MR-Test - durch einen Varianzschätzer berücksichtigen, der formal der Bartlett-Formel entspricht, aber spektralanalytisch über Rechteckfenster geschätzt wird. Darüber hinaus findet man auch nichtparametrische Tests (z. B. Rangtest und Wilcoxon-Test), bei denen die Annahme der Normalverteilung aufgegeben werden kann. Bei Fehlen der Gültigkeit der Normalverteilungsannahme führt dies zu einer Signifikanzniveau-Korrektur, bei Gültigkeit der Normalverteilungsannahme aber zu einem Güteverlust, wie man anhand von Simulationsergebnissen erkennen kann.
Evaluation von Prognoseverfahren
385
Bei nichtparametrischen Tests kann man stochastische Abhängigkeiten mehrstufiger Prognosefehler e^ (h) am einfachsten durch Anwendung der Bonferroni-Korrektur berücksichtigen. Bei dieser Technik wird die stochastisch abhängige Sequenz der zu evaluierenden Fehlerterme {^i,^2'---'%} ^^ q = h-l Teilsequenzen {^1,^1+^,^1+2^,."}, 1^2.^2+^,^2+2^'-} bis \^e^,e2^,e^^,..}j aufgeteilt, sodass jede Teilsequenz approximativ eine Folge stochastisch unabhängiger Zufallsvariablen darstellt. Anschließend wird jede Teilsequenz separat zum Niveau a* =a/q geprüft. Sobald einer der Tests zu einem signifikanten Ergebnis führt, wird die Nullhypothese abgelehnt. Die oben skizzierten MGN-, MR- und DM-Tests weisen gemeinsam das Problem auf, dass die Herleitungen der asymptotischen Testverteilungen davon ausgehen, dass der wahre Parameter bekannt ist. Faktisch muss man aber anstelle der wahren und unbekannten Parameter einen Schätzer in die Testvorschriften einsetzen. Die durch diesen Schätzfehler entstehenden Konsequenzen (unter anderem Verzerrungen des Signifikanzniveaus) wurden von McCracken und West sowohl analytisch als auch mithilfe von Simulationen für Kleinste-Quadrate-Schätzer untersucht und beschrieben; siehe dazu die Zusammenfassung in [62]. Diese Untersuchungen zeigen, dass die Größenordnung der Störung des Signifikanzniveaus vom Evaluations- bzw. Differenzialmaß, vom Schätzverfahren (fest, rollierend, rekursiv) sowie vom Verhältnis der zur Parameterschätzung zur Verfügung stehenden Datenpunkten A^ (within-sample size) zum maximalen Prognosehorizont H (out-of-sample size) abhängt. Beispielsweise reduziert ein kleiner Wert für HIN die Konsequenzen der Parameterunsicherheit. Außerdem existieren Sondersituationen (z. B. die quadratische Risikofunktion MSE), bei denen die Parameterunsicherheit asymptotisch, d. h. bei großem Stichprobenumfang fortfällt. In den anderen Fällen kann man asymptotisch korrekte Tests mithilfe der bei West und McCracken [93] und McCracken [61] hergeleiteten Varianzschätzer verwenden. In der Regel stehen mehr als zwei Prognoseverfahren als Alternativen zur Verfügung, sodass bei der simultanen Anwendung mehrerer Paarvergleiche ein multiples Testproblem entsteht. Beim multiplen, sequentiellen Testen mehrerer Hypothesen auf der Grundlage eines Datensatzes unterscheidet sich das faktische Signifikanzniveau des zusammengesetzten Tests erheblich vom nominalen Signifikanzniveau. Dies macht sich in der Praxis dadurch bemerkbar, dass man bei einer Vielzahl von Tests auf einem konventionellen Signifikanzniveau (etwa 1 % oder 5 %) immer irgendeinen signifikanten Unterschied entdeckt, der aber möglicherweise nur auf Zufall zurückzuführen ist. Besonders gravierend wird dieses Problem beim Einsatz von Regressionsmodellen, bei denen durch den Ein- und Ausschluss von Regressoren in Abhängigkeit von einer Modellselektionstrategie eine sehr große Anzahl konkurrierender Prognosemodelle geschätzt werden. Im Prinzip kann man auch hier die oben skizzierte Technik einer Bonferroni-Korrektur anwenden; allerdings steht die Anzahl der im Rahmen der Modellselektion zu prüfenden Modelle nicht a priori fest, sodass es schwierig wird, ein korrigiertes Signifikanzniveau festzulegen. Ein für zahlreiche Modellselektionsmethoden anwendbarer Test wurde von White [95] entwickelt. Dieser so genannte Data-Snooping-Test ist ein asymptotischer Signifikanztest, mit dem geprüft wird, ob sich die beste der zur Disposition stehenden Methoden signifikant von einem Referenzverfahren (Benchmark) unterscheidet. Im Rahmen der Prognoseevaluation wird man als Benchmark eine relativ einfache Prognosefunktion, die absolut unverzichtbare Effekte (z. B. Trend, Saison sowie dominante Regressoren
386
Küsters
und Dynamik) enthält, benutzen. Weiterhin wird man eine Risikofunktion wählen, die die Konsequenzen der betriebswirtschaftlichen Entscheidungsfunktion (z. B. einer Handelsstrategie) möglichst gut abbildet. Praktische Erfahrungen im Rahmen der Prognoseevaluation liegen bisher, wenn man von der Arbeit von White [95] und der Anwendung in Sullivan u.a. [84] absieht, kaum vor. 19.2.8 Evaluation von Dichteprognosen Diebold, Günther und Tay [26] entwickelten ein Verfahren zur Evaluation einer Sequenz konditionaler Dichteprognosen fy^\i^^{yt I^M)» das darauf beruht, dass bei einer korrekten Modellspezifikation die mittels
transformierte Sequenz [z^,...,z^] eine Folge stochastisch unabhängiger, auf dem Intervall [0,l] gleichverteilter Zufallsvariablen darstellt. Daher kann man mithilfe klassischer Verteilungstests wie den Kolmogorov-Smirnov- und Cramer-von-Mises-Tests und grafischen Hilfsmitteln wie Q-Q-Plots, Histogrammen und Kernschätzern prüfen, ob die transformierte Sequenz {^J^^j ^ mit dieser Verteilungsannahme verträglich ist. Das Verfahren lässt sich vor allem im Kontext von Volatilitätsmodellen wie GARCH-Modellen auf der Grundlage langer Zeitreihen von Kapitalmarktdaten nutzen. Taylor [89] und Lopez [52] beschreiben weitere Verfahren zur Evaluation von Volatilitätsprognosen. Im Rahmen der klassischen, güterorientierten betriebswirtschaftlichen Prognose findet man nur selten (etwa im Energiesektor) hinreichend lange Zeitreihen. Diebold, Hahn und Tay [27] entwickelten auf der Grundlage der von Rosenblatt hergeleiteten multivariaten Integraltransformation eine Methode, mit der man nicht nur eine Evaluation, sondern auch eine Rekalibration der Dichteprognose durchführen kann, sofern die Annahme der konditionalen Unabhängigkeit nicht verletzt wird. Damit lassen sich Abweichungen von der Gleichverteilung der z^-Folge approximativ korrigieren. 19.3 Kombination von Prognosen 19.3.1 Grundlegende Verfahren Die Kombination von Prognoseverfahren ist immer dann ratsam, wenn nach Anwendung substantieller Kriterien immer noch mehrere Prognoseverfahren mit unterschiedlichen Punktprognosen zur Auswahl stehen, ohne dass ein eindeutiger Favorit identifiziert werden kann. Dabei sind auch die in Abschnitt 19.5 genannten und jenseits der Prognosegenauigkeit stehenden Kriterien zu beachten. Bei mehreren der im nächsten Abschnitt beschriebenen Prognosewettbewerbe konnte die Erfahrung gemacht werden, dass die Kombination von Prognosen unterschiedlicher Verfahren im Durchschnitt zu einer Verbesserung der Prognosegenauigkeit führt; siehe [72], [55] und [58]. Dies widerspricht zwar der Theorie der Zeitreihenanalyse, nach der ein korrektes und mithilfe von Selektionsverfahren identifiziertes Modell optimal im Sinne minimaler MSE ist. In der Praxis ist eine Fehlspezifikation aufgrund zu kurzer
Evaluation von Prognoseverfahren
387
Zeitreihen, der Existenz von Strukturbrüchen, der geringen Güte von Tests und anderer Modellselektionswerkzeuge aber kaum vermeidbar. Der Nutzen der Prognosekombination beruht im Wesentlichen auf der Annahme, dass verschiedene Prognoseverfahren die Eigenschaften einer Zeitreihe unterschiedlich ausnutzen, sodass eine Kombination wie bei der Portfoliooptimierung nach Markowitz zu einer Reduktion des Risikos führt. Bei einer linearen Prognosekombination wird eine neue Punktprognose durch
aus einer Menge lyl^\...,yl^A von M Prognosen berechnet, wobei Unterschiede durch die Wahl der Konstanten Ä^ und der Gewichte {/ly,/l2,...,Äj^} entstehen. In der Literatur findet man eine Vielzahl von Kombinationsverfahren, die sich grob in vier Gruppen einteilen lassen: 1.
Die „naive" Kombination durch Berechnung des arithmetischen Mittelwertes mit Ä^=l/M und /lo=0.
2.
Die varianzoptimale Lösung nach Bates und Granger [12], bei der die Gewichte unter Fortlassen der Konstanten ( ^ =0) und der Restriktion M m=\
SO gewählt werden, dass die Varianz vly^^A der Prognosekombination y^^^ minimiert wird. 3.
Die Regressionslösung nach Granger und Ramanathan [44], bei der der Gewichtsvektor mithilfe des Kleinste-Quadrate-Schätzers durch Regression der zu prognostizierenden Variablen y^ auf alle Prognosekomponenten yl^\...,y^^^ berechnet wird.
4.
Regelbasierte Ansätze nach Collopy und Armstrong [23], bei denen unterschiedliche Prognoseverfahren mit Gewichten kombiniert werden, die mithilfe eines Regelwerkes (im Sinne eines Expertensystems) in Abhängigkeit von den Eigenschaften der Zeitreihe festgelegt werden. Expertensysteme werden auch im Beitrag von Janetzke und Falk (Kapitel 17) in diesem Sammelband behandelt.
Einen Überblick über die ersten drei Methodengruppen findet man in Diebold und Lopez [28]; Armstrong [7] betont in seinem Übersichtsaufsatz hingegen die praktische Ausgestaltung der ersten Methode der Gleichgewichtung. Die kommentierte Bibliographie von Giemen [21] zeigt die weit zurückliegenden Ursprünge der Kombination von Prognosen auf.
388
Küsters
19.3.2 Kombination durch Varianzminimierung Der varianzminimierende Ansatz unterstellt unverzerrte Einzelprognosen und erfordert die Verwendung von Schätzern der Varianzen und Kovarianzen der einzelnen Komponentenprognosen. Deutlich ersichtlich wird dies an der Varianz
al =2? '(j1+{\-Xf 'CJI-\-2'X\\-X)'P'C7^
-cr^
der auf die Gewichtssumme 1,0 beschränkten positiven Kombination zweier Prognosekomponenten yf^ und ^P^ mit den Varianzen a^ und a] und der Korrelation p. Offensichtlich nimmt die Varianz crl der kombinierten Prognose bei der Wahl von
(Tj + -^ ^
c B
5i
Z to >
n
n-h
n-h
k-m
k-l
-
m-l (X)
0
0 t^
0
SM
0 0 CQ >
CO i5
1
1
(/) c
o o CD
'W 2^ "0 CO 0 O
1 "^ ^ C O)^ >. 0 O
Q Q^ E
^
Datenverfügbarkeit • Anzahl der Zeitreihen • Zeitreihenlänge 1 • Kausale Regressoren möglich • Subjektive Bewertungen
X
• Sporadische Reihen
X
•
X
-
X
Fehlende Werte zulässig
Prognostische Ratimenbedingungen 1 • Anwendbarkeit trotz Marktunsicherheiten und häufiger Strukturbrüche 1 • Nutzbarkeit von Wissen über Wirkungszusammenhänge 1 Prognoseanforderungen
n-m
n-m
n-m
1
m-l X
1 X
-
-
(X)
-
(X)
(X)
X
(X)
-
(X)
-
-
-
(X)
-
(X)
-
X
X
(X)
•
Prognosegenauigkeit
?
n-m
m
?
n
?
•
Implementationsabhängigkeit
h
n
h
m
n
m
•
Regressorenaktualität
na
na
na
na
da
da
•
Interpretierbarkeit
e
e
e-m
s
m
s
•
Implementationskomplexität
V
e
e-m
m
e
s
•
Datenkomplexität
V
e
e
e
m
s
•
Ausreißerresistenz
?
-
V
(X)
(X)
(X)
• Numerische Stabilität • Zusatzinformationen über Regressorstärke
na
h
V
n
m
n
na
-
-
-
X
X
• Kumulierte Prognose
na
(X)
X
X
X
•
na
-
(X)
X
X
X
(X)
X
X
X
Prognosekonfidenzintervalle
• Theoretische Grundlage
V
Institutionelle Rahmenbedingungen
\
•
Herstellungskosten
V
n
n-m
n-h
n
m-h
•
Datenbeschaffungskosten
V
n
n
n-m
m-h
h
Wartungskosten Statistisch-methodische Kompetenzanforderungen • Fachlich-inhaltliche Kompetenzanforderungen • Verfahrensverfügbarkeit in Prognosesystemen • Verfahrensverfügbarkeit in Planungssystemen
V
n
n-m
n-m
n-m
h
V
n
n-m
m
m
h
m-h
n
n
n
m
h
na
m
h
m-h
h
n
na
h
m
n
m
n
• •
1
Legende: n=niedrig, m=mittel, h=hoch, k=kurz, l=lang, ?=unklar, umstritten oder situationsabhängig, na=nicht anwendbar, da=datenabhängig, e=einfach, s=schwierig, v=variabel, X=ja, - =nein, (X)=eingeschränkt (über Sonderimplementationen oder Zusatzkonstruktionen)
Tab. 3: Strukturelle Auswahlkriterien für ausgewählte Verfahrensgruppen
400
Küsters
In der Praxis ist es empfehlenswert, nach einer kriteriengesteuerten Vorauswahl alle verbleibenden und potenziell als praktikabel und effektiv wahrgenommenen Kandidaten mithilfe einer Prognosesimulation hinsichtlich ihrer Genauigkeit und anderer Leistungsmerkmale zu analysieren, da Prognosewettbewerbe nur unzureichende Hinweise liefern können. Dabei ist aber immer zu beachten, dass das Verfahren der Prognosesimulation nur dann nutzbar ist, wenn keine erheblichen Strukturbrüche am Ende der Zeitreihe vorliegen. Erwähnenswert ist noch, dass alle in diesem Beitrag skizzierten Prognoseevaluationsmaße auf einem Vergleich der vertikalen Distanz zwischen Beobachtung und Prognose zu einem Zeitpunkt t beruhen. Granger und Jeon [40] entwickelten kürzlich ein weiteres Maß, mit dem die Güte einer Prognose hinsichtlich der horizontalen Prognosegenauigkeit im Sinne von zeitlich stabilen Verschiebungen zwischen vor- und nachlaufenden Indikatoren (leads und lags) und der zu prognostizierenden Größe evaluiert werden kann. Über den praktischen Einsatz dieses horizontalen Maßes, das explizit nicht als Ersatz, sondern als Ergänzung zu vertikalen Maßen konzipiert wurde, ist mit Ausnahme der Anwendung von Granger und Jeon [41] auf Konsumentenpreisindizes als Indikatoren der Inflationsrate bisher nur wenig bekannt. Danksagung Ich bedanke mich bei Michael Bell, Bernhard Brandel, Anja Küsters, Peter Mertens, Susanne Rässler, Oliver Vogt und Tobias Wintz für hilfreiche Kommentare zu verschiedenen Vorversionen dieses Beitrags. Andrea BartI und Marga Stein danke ich für technische Unterstützung bei der Formatierung dieses Manuskriptes. Für alle Fehler und Unzulänglichkeiten bin ich jedoch verantwortlich. 19.7 Literatur [I] [2]
[3] [4] [5] [6] [7] [8] [9] [10] [II]
Adya, M., Corrections to ruie-based forecasting: findings from a replication, International Journal of Forecasting 16 (2000), 8. 125 ff. Adya, M., Collopy, F., Armstrong, J.S. und Kennedy, M., Automatic Identification of time series features for ruIe-based forecasting, International Journal of Forecasting 17 (2001), 8. 143 ff. Andrews, R.L., Forecasting Performance of structural time series models, Journal of Business and Economic Statistics 12 (1994), S. 129 ff. Armstrong, J.S. (Hrsg.), Principles of Forecasting - A Handbook for Researchers and Practitioners, Norwell, MA2001. Armstrong, J.S., Selecting Forecasting Methods, in: [4], S. 365 ff. Armstrong, J.S., Evaluating Forecasting Methods, in: [4], S. 443 ff. Armstrong, J.S., Combining Forecasts, in: [4], S. 417 ff. Armstrong, J.S., Adya, M. und Collopy, F., Ruie-Based Forecasting: Using Judgement in Time-Series Extrapolation, in: [4], S. 259 ff. Armstrong, J.S. und Collopy, F., Error measures for generalizing about forecasting methods: Empirical comparisons, International Journal of Forecasting 8 (1992), S. 69 ff. Armstrong, J.S. und Collopy, F., Causal forces: Structuring knowledge for time series extrapolation, Journal of Forecasting 12 (1993), S. 103 ff. Balkin, S. D., The value of nonlinear models in the M3-Competition, International Journal of Forecasting 17 (2001), S. 545 ff.
Evaluation von Prognoseverfahren [12] [13] [14] [15]
[16] [17] [18] [19] [20] [21] [22] [23]
[24] [25] [26]
[27]
[28]
[29] [30] [31] [32]
[33] [34]
401
Bates, J.M. und Granger, C.W.J., The Combination of Forecasts, Operational Research Quarterly20(1969), S. 451 ff. Box, G.E.P., Jenkins, G.M. und Reinsei, G.C., Time Series Analysis, Forecasting and Control, Englewood Cliffs 1994. Brier, G.W., Verification of forecasts expressed in terms of probability, Monthly Weather Review 78 (1950), S. 1 ff. Carbone, R. und Armstrong, J.S., Evaluation of Extrapolative Forecasting Methods: Results of a Survey of Academicians and Practitioners, Journal of Forecasting 1 (1982), S. 215 ff. Chatfield, C, Apples, Oranges and Mean Square Error, International Journal of Forecasting 4 (1988), S. 515 ff. Chatfield, C , Time-Series Forecasting, Boca Raten 2001. Chatfield, C. und Yar, M., Prediction intervals for multiplicative Holt-Winters, International Journal of Forecasting 7 (1992), S. 31 ff. Chong, Y.Y. und Hendry, D.F., Econometric evaluation of linear macro-economic models, Review of Economic Studies 53 (1986), S. 671 ff. Christoffersen, P.F., Evaluating Interval Forecasts, International Economic Review 39 (1998), S. 841 ff. Clemen, R.T., Combining forecasts: A review and annotated bibliography. International Journal of Forecasting 5 (1989), S. 559 ff. Clements, M.P. und Hendry, D.F. (Hrsg.), A Companion to Economic Forecasting, Oxford 2002. Collopy, F. und Armstrong, J.S., Ruie-based forecasting: Development and Validation of an expert System approach to combining time series extrapolations, Management Science 38 (1992), S. 1394 ff. Dalrymple, D.J., Sales Forecasting Practices - Results from a United States survey, International Journal of Forecasting 3 (1987), S. 379 ff. Diebold, F., Forecast combination and encompassing: reconciling two divergent literatures, International Journal of Forecasting 5 (1989), S. 589 ff. Diebold, F.X., Günther, T.A. und Tay, A.S., Evaluating Density Forecasts with Applications to Financial Risk Management, International Economic Review 39 (1998), S. 863 ff. Diebold, F.X., Hahn, J. und Tay, A.S., Multivariate Density Forecast Evaluation and Calibration on Financial Risk Management: High Frequency Returns on Foreign Exchange, The Review of Economics and Statistics 81 (1999), S. 661 ff. Diebold, F.X. und Lopez, J.A., Forecasting Evaluation and Combination, in: Maddala, G.S. und Rao, CR. (Hrsg.), Statistical Methods in Finance, Handbook of Statistics Vol. 14, Amsterdam 1996, S. 241 ff. Diebold, F.X. und Mariano, R.S., Comparing Predictive Accuracy, Journal of Business and Economic Statistics 13 (1995), S. 253 ff. Durbin, J. und Koopman, S.J., Time Series Analysis and State Space Methods, Oxford 2001. Fandel, G., Francois, P. und Gubitz, K.M., PPS- und integrierte betriebliche Softwaresysteme: Grundlagen, Methoden, Marktanalyse, Berlin 1997. Fandel, G. und Francois, P., IT-gestützte Entscheidungen bei der Einführung von PPSSystemen, in: Jahnke, B. und Wall, F. (Hrsg.), IT-gestützte betriebswirtschaftliche Entscheidungsprozesse, Wiesbaden 2001, S. 271 ff. Fildes, R. und Makridakis, S., The Impact of Empirical Accuracy Studies On Time Series Analysis and Forecasting, International Statistical Review 63 (1995), S. 289 ff. Gardner, E.S., The Strange Case of the Lagging Forecasts, Interfaces 14 (1984), S. 47 ff.
402 [35] [36] [37] [38] [39] [40] [41] [42] [43] [44] [45] [46] [47] [48] [49] [50] [51] [52] [53] [54] [55]
[56]
[57] [58] [59]
Küsters Gardner, E.S., Exponential smoothing: The State of the art, Journal of Forecasting 4 (1985), S. 1 ff. Goodrich, R.L., Commercial Software in the M3 Competition, International Journal of Forecasting 17 (2001), S. 560 ff. Goodwin, P. und Lawton, R., On the asymmetry of the Symmetrie MAPE, International Journal of Forecasting 15 (1999), S. 405 ff. Granger, C.W.J., Prediction with a Generalized Cost of Error Function, Operational Research Quarterly 20 (1969), S. 199 ff. Granger, C.W.J., Invited Review: Combining Forecasts - Twenty Years Later, Journal of Forecasting 7 (1989), S. 167 ff. Granger, C.W.J. und Jeon, Y., A time-distance criterion for evaluating forecasting models. International Journal of Forecasting 19 (2003), S. 199 ff. Granger, C.W.J. und Jeon, Y., Comparing forecasts of Inflation using time distance, International Journal of Forecasting 19 (2003), S. 339 ff. Granger, C.W.J. und Newbold, P., Forecasting Economic Time Series, 2. Aufl., San Diego 1986. Granger, C.W.J. und Pesaran, M.H., Economic and Statistical Measures of Forecast Accuracy, Journal of Forecasting 19 (2000), S. 537 ff. Granger, C.W.J. und Ramanathan, R., Improved Methods of Combining Forecasts, Journal of Forecasting 3 (1984), S. 197 ff. Greene, W.H., Econometric Analysis, 5. Aufl., Upper Saddle River, NJ 2003. Hüttner, M., Vergleich und Auswahl von Prognoseverfahren für betriebswirtschaftliche Zwecke, in: [66], S. 349 ff. Hyndman, R., It's time to move from ,what' to ,why'. International Journal of Forecasting 17(2001), S. 537 ff. Kahn, KB., Benchmarking Sales Forecasting Performance Measures, The Journal of Business Forecasting (1998/1999), S. 19 ff. Koehler, A.B., The asymmetry of the sAPE measure and other comments on the M3Competition, International Journal of Forecasting 17 (2001), S. 570 ff. Küsters, U. und Bell, M., The Forecasting Report: A Comparative Survey of Commercial Forecasting Systems, Höhenkirchen und Brookline, MA 1999. Lewis, CD., Demand forecasting and inventory control: A Computer aided learning approach, Cambridge, UK 1997. Lopez, J.A., Evaluating the Predictive Accuracy of Volatility Models, Journal of Forecasting 20 (2001), S. 87 ff. Mahmoud, E., The Evaluation of Forecasts, in: Makridakis, S. und Wheeiwright, S.C. (Hrsg.), Handbook of Forecasting: A Manager's Guide, New York 1987, S. 504 ff. Makridakis, S., Accuracy measures: theoretical and practical concerns. International Journal of Forecasting 9 (1993), S. 527 ff. Makridakis, S., Andersen, A., Carbone, R., Fildes, R., Hibon, M., Lewandowski, R., Newton, J., Parzen, E. und Winkler, R., The accuracy of extrapolation (time series) methods - Results of a forecasting competition, Journal of Forecasting 1 (1982), S. 111 ff. Makridakis, S., Chatfield, C , Hibon, M., Lawrence, M.J., Mills, T., Ord, K und Simmons, L.F. (1993), The M2-Competition: a real time judgementally based forecasting study (with comments), International Journal of Forecasting 9 (1993), S. 5 ff. Makridakis, S. und Hibon, M., Accuracy of forecasting: an empirical investigation, Journal of the Royal Statistical Society, Series A 142 (1979), S. 97 ff. Makridakis, S. und Hibon, M., The M3-competition: results, conclusions and implications. International Journal of Forecasting 16 (2000), S. 451 ff. Makridakis, S., Wheeiwright, S.C. und Hyndman, R.J., Forecasting, Methods and Applications, 3. Aufl., New York 1998.
Evaluation von Prognoseverfahren [60] [61] [62] [63] [64] [65] [66] [67] [68] [69] [70] [71] [72]
[73] [74]
[75] [76] [77] [78] [79] [80] [81] [82]
[83]
[84] [85]
403
Mariano, R.S., Testing Forecast Accuracy, in: [22], S. 284 ff. McCracken, M.W., Robust out-of-sample inference, Journal of Econometrics 99 (2000), S. 195 ff. McCracken, M.W. und West, K.D., Inference about Predictive Ability, in: [22], S. 299 ff. Meese, R.A. und Rogoff, K., Was it real? The exchange rate-interest differential relation over the modern floating-rate period, Journal of Finance 43 (1988), S. 933 ff. Mentzer, J.T. und Kahn, K.B., Forecasting Technique Familiarity, Satisfaction, Usage and Application, Journal of Forecasting 14 (1995), S. 465 ff. Mertens, P. (Hrsg.), Prognoserechnung, 4. Aufl., Würzburg 1981. Mertens, P. (Hrsg.), Prognoserechnung, 5. Aufl., Heidelberg 1994. Mertens, P. und Backert, K., Vergleich und Auswahl von Prognoseverfahren für betriebswirtschaftliche Zwecke, in: [65], S. 339 ff. Mincer, J. und Zarnovitz, V., The evaluation of economic forecasts, in: Mincer, J. (Hrsg.), Economic Forecasts and Expectations, New York 1969, S. 3 ff. Moon, M.A., Mentzer, J.T. und Smith, CD., Conducting a sales forecasting audit, International Journal of Forecasting 19 (2003), S. 5 ff. Newbold, P. und Bos, Th., Introductory Business and Economic Forecasting, 2. Aufl., Cincinnati 1994. Newbold, P., Agiakloglou, C. und Miller, J., Adventures with ARIMA Software, International Journal of Forecasting 10 (1994), S. 573 ff. Newbold, P. und Granger, C.W.J., Experience with Forecasting Univariate Time Series and the Combination of Forecasts, Journal of the Royal Statistical Society, Series A 137 (1974), S. 131 ff. Newbold, P. und Harvey, D.I., Forecast Combination and Encompassing, in: [22], S. 268 ff. Ord, J. K., Koehler, A. B. und Snyder, R. D., Estimation and prediction for a dass of dynamic nonlinear Statistical models, Journal of the American Statistical Association 92 (1997), S. 1621 ff. Ord, K. und Lowe, S., Automatic Forecasting, The American Statistician 50 (1996), S. 88 ff. Pankratz, A., Forecasting with dynamic regression models, New York 1991. Pesaran, M.H. und Skouras, S., Decision-Based Methods for Forecast Evaluation, in: [22], S. 241 ff. Pesaran, M.H. und Timmermann, A., A Simple Nonparametric Test of Predictive Performance, Journal of Business and Economic Statistics 10 (1992), S. 461 ff. Rycroft, R., Microcomputer Software of interest to forecasters in comparative review: Updated again. International Journal of Forecasting 15 (1999), S. 93 ff. Sanders, N.R. und Manrodt, K.B., Forecasting Practices in US Corporations: Survey Results, Interfaces 24 (1994), S. 92 ff. Sanders, N.R. und Manrodt, K.B., Forecasting Software in Practice: Use, Satisfaction, and Performance, Interfaces 33 (2003), S. 90 ff. Schwarze, J., Statistische Kenngrößen zur Ex-post-Beurteilung von Prognosen (Prognosefehlermaße), in: Schwarze, J. (Hrsg.), Angewandte Prognoseverfahren, Herne/ Berlin 1980, S. 317 ff. Schwarze, J. und Weckerle, J. (Hrsg.), Prognoseverfahren im Vergleich: Anwendungserfahrungen und Anwendungsprobleme verschiedener Prognoseverfahren, TU Braunschweig 1982. Sullivan, R.A., Timmermann, A. und White, H., Data-snooping, technical trading ruie Performance, and the bootstrap, Journal of Finance 54 (1999), S. 1647 ff. Tashman, L.J., Out-of-sample tests of forecasting accuracy: an analysis and review, International Journal of Forecasting 16 (2000), S. 437 ff.
404 [86] [87] [88] [89] [90]
[91] [92] [93] [94] [95] [96]
[97] [98]
[99]
Küsters Tashman, L., The M3-Competition and forecasting Software. International Journal of Forecasting 17 (2001), S. 578 ff. Tashman, L.J. und Leach, M.L., Automatic Forecasting Software: A Survey and Evaluation, International Journal of Forecasting 7 (1991), S. 209 ff. Tay, A.S. und Wallis, K. F., Density forecasting: A survey, Journal of Forecasting 19 (2000), S. 235 ff. Taylor, J.W., Evaluating Volatility and Interval Forecasts, Journal of Forecasting 18 (1999), S. 111 ff. Taylor, J.W. und Bunn, D.W., Investigating improvements in the accuracy of prediction intervals for combinations of forecasts: A Simulation study. International Journal of Forecasting 15(1999), S. 325 ff. Theil, H., Applied Economic Forecasting, Amsterdam 1966. Webby, R. und O'Connor, M., Judgemental and Statistical time series forecasting: a review of the literature. International Journal of Forecasting 12 (1996), S. 91 ff. West, K.D. und McCracken, M.W., Regression-based tests of predictive ability. International Economic Review 39 (1998), S. 817 ff. West, M. und Harrison, J., Bayesian Forecasting and Dynamic Models, 2. Aufl., New York 1997. White, H., A reality check for data snooping, Econometrica 68 (2000), S. 1097 ff. Williams, W.H. und Goodman, M.L., A Simple Method for the Construction of Empirical Confidence Limits for Economic Forecasts, Journal of the American Statistical Association 66 (1971), S. 752 ff. Winker, P., Empirische Wirtschaftsforschung, Berlin 1997. Winkihofer, H., Diamantopoulos, A. und Witt, S.F., Forecasting practice: a review of the empirical literature and an agenda for future research, International Journal of Forecasting 12(1996), S. 193 ff. Yokum, J.T. und Armstrong, J.S., Beyond accuracy: Comparison of criteria used to select forecasting methods. International Journal of Forecasting 11 (1995), S. 591 ff.
20 Modellgestützte Marktanteilsprognose auf Basis von Paneldaten von Raimund Wildner 20.1 Problemstellung Marketing und Vertrieb sind laufend mit der Frage konfrontiert, wie eine Veränderung im Marketing-Mix den Marktanteil beeinflusst. Wie haben sich Preis und Marktanteil entwickelt? Das mag interessant sein. Für das Management wesentlicher ist jedoch die Frage, welche Auswirkung eine Preiserhöhung um 5 % auf den Marktanteil haben wird, oder besser noch, welcher Preis den Deckungsbeitrag der Marke optimiert. Die Beantwortung solcher Fragen versprechen Marketing-Mix-Modelle. Unabhängig von der vorhandenen Datenbasis liegt dabei stets das gleiche Prinzip zugrunde: Zunächst wird rechnerisch die Verbindung zwischen den Einflussgrößen (im Falle von Marketing-Mix-Modellen die Marketing-Mix-Variablen wie z. B. Preis, Distribution oder Handelsaktionen) und einer Ergebnisgröße (im Falle von Marktanteilsprognosen der Marktanteil) ermittelt. Dazu sind Hypothesen erforderlich, die in mathematische Gleichungen umgesetzt werden. Diese Gleichungen enthalten Parameter, die mithilfe mathematisch-statistischer Verfahren geschätzt werden. Die Qualität der Schätzung wird dann nach inhaltlichen und statistischen Aspekten geprüft. Ist sie akzeptiert, so lassen sich damit im Wesentlichen drei Typen von Fragen beantworten, die jeweils durch ein Beispiel repräsentiert werden sollen: 1.
Analyse: Was hat den Anstieg des Marktanteils bewirkt? Sehr häufig haben sich zwischen zwei Perioden (z. B. vom 1. Quartal zum 2. Quartal eines Jahres) sehr viele Einflussgrößen gleichzeitig verändert. Marketing-Mix-Modelle erlauben es, die Veränderung im Marktanteil auf diese Einflussfaktoren aufzuteilen.
2.
Simulation: Was wäre, wenn der Preis um 5 % erhöht würde? In das Modell lassen sich geänderte Werte für die Einflussvariablen eingeben und über die Modellgleichungen erhält man eine Schätzung für die Auswirkung der Änderung. Dabei ist es möglich, nur eine Variable zu verändern (z. B. wie in der Beispielfrage der Preis) oder auch alle Einflussgrößen gleichzeitig, sodass ganze Szenarios auf ihre Auswirkungen überprüft werden können.
3.
Prognose: Welcher Marktanteil ist bei dem geplanten Marketing-Mix zu erwarten? Wird ein künftig geplanter Marketing-Mix eingegeben, so wird die Simulation zur Prognose. Für die Konkurrenzaktivitäten sind dabei Annahmen zu treffen. Werden verschiedene Szenarios für die Konkurrenz eingegeben, so erhält man verschiedene Prognosen, die einen Prognosetunnel aufspannen.
In diesem Beitrag wird das „Modelling" mit Paneldaten untersucht. Dabei wird der Schwerpunkt auf die Prognosefähigkeit gelegt. Paneldaten existieren im Wesentlichen für die Märkte der Güter des täglichen Bedarfs (Handelspanels von IRI in Nürnberg und Nielsen in Frankfurt, Verbraucherpanels von GfK in Nürnberg und Nielsen), für Textil (GfK), Finanzanlagen (GfK), Reisen (GfK) sowie für Gebrauchsgüter wie z. B. Unterhaltungselektronik, Foto, Brillen, Haushaltsausstattung, Baumarktartikel, Spielwaren und Uhren (jeweils GfK). Eine Sonderstellung nehmen Medienpanels ein, weil es nicht um
406
Wildner
den Kauf oder Verkauf von Produkten sondern um die Nutzung von Medienangeboten geht und diese Daten die Grundlage für den Verkauf von Werbeangeboten der Medien bilden. Das wichtigste Beispiel ist das Fernsehzuschauerpanel der AGF (Arbeitsgemeinschaft Fernsehforschung, ein Zusammenschluss der Fernsehanbieter), das von der GfK durchgeführt wird. Für die anderen, durchaus erheblichen Warenbereiche (z. B. Autos und vor allem den gesamten Bereich der von Firmen und Behörden eingekauften Dienstleistungen und Waren) existieren solche Daten nicht. Zur Modellierung dieser Märkte wurde kürzlich von Hupp und Xu [5] ein auf Befragung gestützter Ansatz vorgestellt, der hier aber nicht weiter behandelt werden soll. Marketing-Mix-Modelle wurden bereits vor Jahrzehnten entwickelt, konnten sich aber lange in der Praxis nicht durchsetzen. Ihr Einsatz scheiterte vor allem daran, dass die Daten in der verfügbaren Qualität nicht zur Verfügung standen. Das trifft unter anderem für die Modelle von Amstutz [1], Lavington [7] sowie Klenger und Krautter [6] zu. Little [8] verzichtet in seinem Modell von vornherein auf die empirische Schätzung der Modellparameter und eicht subjektiv geschätzte Werte anhand empirischer Daten. Zentral für die Anwendbarkeit eines Verfahrens ist demnach, dass man sich mit den zugrunde liegenden Daten auseinandersetzt. Dies soll im folgenden Abschnitt geschehen. Darauf folgt eine Beschreibung der auf die verschiedenen Panels aufsetzenden Modellierungsansätze und ihrer Stärken und Schwächen. Eine Fallstudie sowie ein Vergleich der Modelle schließen die Darstellung ab. 20.2 Paneldaten als Grundlage für Marketing-Mix-Modelle Panels können „dadurch charakterisiert werden, dass grundsätzlich 1. 2. 3. 4.
der stets gleiche Sachverhalt, zu den stets gleich bleibenden, wiederkehrenden Zeitpunkten, bei der stets gleichen Stichprobe, auf die stets gleiche Art und Weise,
erhoben wird." ([3], S. 5). Die Datenpunkte lassen sich folglich als dreidimensionaler Würfel mit den Kanten „Perioden", „Merkmalsträger" und „Zeitpunkte" beschreiben. Für jeden dieser Fälle liegen mehrere Variable vor. Eine solche rechteckige Datenstruktur ist generell für multivariate Verfahren, wie sie auch beim Modelling angewendet werden, besonders geeignet (vgl. [2],S. 16f.). Dabei lassen sich nach der Art der Grundgesamtheit folgende Panelarten unterscheiden (vgl. [3], S. 59-70): Beim Handelspanel wird die Grundgesamtheit aus Einzelhandelsgeschäften gebildet. Je nach Erhebungsart lassen sich unterscheiden: 1.
Bei Scannerpanels werden die Abverkäufe und Preise über die Scannerkasse erfasst und stehen in der Regel wöchentlich zur Verfügung. Zusätzlich werden Informationen zu Aktionen (z. B. ob ein Display stand oder für ein Produkt per Hand-
Modellgestützte Marktanteilsprognose auf Basis von Paneldaten
407
Zettel geworben wurde) durch den Außendienst ebenfalls wöchentlich erhoben. Dadurch werden Handelsaktionen und ihre Auswirkungen auf den Abverkauf sehr gut abgebildet. Diese Daten eignen sich besonders gut zur Modellbildung. Nachteilig ist, dass nur solche Geschäfte in der Stichprobe berücksichtigt werden können, die mit Scannerkassen ausgerüstet sind. Dadurch leidet die Repräsentativität. 2.
Bei den traditionellen Panels sind zwar auch Geschäfte integriert, bei denen die Datenerfassung über Scannerkassen erfolgt. Ein Teil der Geschäfte wird aber manuell vom Außendienst erhoben. Dies kann aus Kostengründen nur monatlich oder zweimonatlich erfolgen. Mit monatlichen oder zweimonatlichen Daten ist aber eine Analyse wöchentlicher Aktionen nur eingeschränkt möglich. Vorteil ist die bessere Repräsentativität dieser Panels.
Beim Verbraucherpanel bilden Private Haushalte (für Produkte, die für den gesamten Haushalt eingekauft werden, wie z. B. Waschmittel) oder Einzelpersonen (für individuell eingekaufte Produkte, wie z. B. Kosmetik) die Grundgesamtheit. Die Panelteilnehmer teilen dem Institut pro gekauften Artikel mit, wo und wann dieser gekauft wurde und wie hoch der Preis war. Beim GfK-Haushaltspanel wird darüber hinaus erhoben, ob der Artikel in der Aktion gekauft wurde. Handelspanels haben den Vorteil, dass alle Variablen, die pro Geschäft differenzieren (wie z. B. Distribution oder Preis), sehr gut und detailliert abgebildet werden. Darüber hinaus ist für jedes Produkt auch die jeweilige Konkurrenzsituation bekannt. Werbung kann dagegen nur zwischen den Perioden, nicht zwischen den Geschäften getrennt analysiert werden. Ihr Einfluss wird daher in der Regel unterschätzt. Verbraucherpanels können dagegen Werbung sehr viel besser abbilden, weil diese auf den einzelnen Haushalt wirkt (vgl. [11]). Dagegen liefern sie über die Konkurrenzsituation in den Geschäften nur unscharfe Informationen, weil diese nur über die Einkäufe der anderen Haushalte in Geschäften der gleichen Vertriebsschiene nachgebildet werden können. Im Folgenden werden zwei Arten von Modellen näher vorgestellt: 1.
Scanner-Handelspanelmodelle sind seit dem ersten Aufkommen der Scannerdaten Mitte der 80er Jahre im Einsatz und heute schon sehr ausgereift. Solche Modelle werden unter anderem von den Anbietern von Scannerdaten IRI in Nürnberg und Nielsen in Frankfurt angeboten. Aus Konkurrenzgründen publiziert man diese nicht vollständig. Deshalb wird hier ein von der GfK entwickeltes Modell dargestellt. Der hier vorgestellte Ansatz des GfK-Marken-Simulators wurde ursprünglich für traditionelle Handelspaneldaten entwickelt (vgl. [9] und [10]) und ab etwa 1992 dann auf Scanner-Handelspaneldaten übertragen.
2.
Verbraucherpanelmodelle sind dagegen noch sehr neu. Sie werden erst seit kurzem von der GfK angeboten und hier erstmals dargestellt. Die Beschreibung beschränkt sich auf das weitaus wichtigere Haushaltspanel.
408
Wildner
20.3 Prognosen mit Scanner-Handelspanel-Modellen 20.3.1 Die Datenbasis Die Datenbasis bilden wöchentliche Daten aus Handelsgeschäften, wobei Preise, Abverkäufe und Handelsaktionen in der jeweiligen Warengruppe erhoben werden. Eine Aufgliederung der Daten, wie man sie normalerweise für die Handelsberichterstattung vornimmt, indem Gesamt, Geschäftstypen (z. B. Verbrauchermärkte oder Discounter) und Organisationsformen (z. B. Rewe oder Spar) dargestellt werden, ist nicht ausreichend, weil dann das Marketing-Mix in der Regel zu wenig streut. Auf der anderen Seite führt die Modellierung auf Basis der Einzelgeschäfte zu einer sehr umfangreichen und damit unhandlichen Datenbasis. Bewährt hat sich, die Geschäfte jeweils einer Vertriebsschiene (z. B. „Plus" von Tengelmann oder „HL" von Rewe) zusammenzufassen. Weil diese in sich sehr homogen sind, bleibt die im Marketing-Mix der Einzelgeschäfte enthaltene Streuung im Wesentlichen erhalten. Die Datenbasis wird aber sehr viel kleiner: Statt ca. 400 Einzelgeschäften werden ca. 15 bis 30 Vertriebsschienen betrachtet. Bei 52 Wochen ergeben sich somit ca. 750 bis 1500 Datenpunkte. 20.3.2 Die Modellbildung Wichtig für die Modellbildung ist, dass alle wichtigen, den Absatz beeinflussenden Variablen gleichzeitig in die Analyse einbezogen werden. Als zentral sind hier insbesondere Konkurrenzpreise sowie die Handelsaktionen für das eigene Produkt und die Konkurrenz zu nennen. Eine Nicht-Berücksichtigung von wichtigen Variablen führt regelmäßig zu schlechteren Anpassungen und Prognosen, häufig auch zu Fehlurteilen, wie durch ein (fiktives) Beispiel deutlich wird: Ein Produkt erreicht in einer Nichtaktionswoche beim Preis von 1,09 € in einer Vertriebsschiene einen Marktanteil von 10 %, in einer Woche mit Preissenkung auf 0,99 € 12 % und in einer Woche mit Preissenkung auf 0,99 € und zusätzlichem Display 28 %. Eine Regression, die als beeinflussende Größe nur die Preise und nicht die Displayinformation berücksichtigt, wird zu dem falschen Ergebnis kommen, dass eine Preissenkung von 1,09 € auf 0,99 € im Durchschnitt den Marktanteil von 10 % auf 20 % verdoppelt. In der Praxis möchte man möglichst viele Variable in die Analyse einbeziehen, weil nur für die einbezogenen Variablen Ergebnisse zur Verfügung stehen und deren Einflüsse auf die Prognose ermittelt werden können. Dem steht auf statistischer Seite entgegen, dass die dann resultierenden Modelle wegen der oft hohen Korrelation der beeinflussenden Größen instabil werden. Als Ausweg hat es sich als zweckmäßig erwiesen, mehrere Variable zunächst zu so genannten „Metavariablen" zusammenzufassen. Die Vorgehensweise lässt sich am Beispiel eines Modells für eine Tafelschokoladenmarke A und der Variable „Konkurrenzpreis" erläutern. Eine mögliche Lösung wäre, den Preis jeder Konkurrenzmarke für sich einfließen zu lassen. Dadurch würden sich jedoch sehr viele hochkorrelierte (exogene) Variable ergeben, die dann keine stabile Schätzung mehr erlaubten. Eine weitere Möglichkeit bestünde darin, den durchschnittlichen Konkurrenzpreis als eine zusammengefasste Variable in die Analyse aufzunehmen. Dabei vermischen sich jedoch Preis- und Mengeneffekt, es kann sogar vorkommen, dass eine Preissenkung einer Konkurrenzmarke zu einer Erhöhung des durch-
Modellgestützte Marktanteilsprognose auf Basis von Paneldaten
409
schnittlichen Konkurrenzpreises führt, wie folgendes (fiktive) Beispiel mit zwei Konkurrenzmarken B und C zeigt: In einer Woche werden von der Konkurrenzmarke B 90 Stück zum Preis von 0,50 € verkauft, von C 10 Stück zum Preis von 1,50 €. Es ergibt sich ein durchschnittlicher Konkurrenzpreis von 0,60 €. In der Folgewoche sinkt der Preis von C auf 1,00 €, wodurch der Verkauf auf 50 Stück steigt. B verkauft zum unveränderten Preis von 0,50 € aufgrund der stärkeren Konkurrenz von C nur noch 50 Stück. Damit steigt der Konkurrenzpreis trotz der Preissenkung von 0,60 € auf 0,75 €. Die Vermischung von Preis- und Mengeneffekten kann vermieden werden, wenn die Mengenanteile der Konkurrenzmarken konstant gehalten werden. Eine Möglichkeit besteht nun darin, den Mengenanteil konstant auf den Durchschnittsanteil in der beobachteten Periode zu setzen. Das kann zu brauchbaren Ergebnissen führen, berücksichtigt aber nicht, dass die Produkte sich verschieden stark beeinflussen: So wird eine Premiummarke wohl eher durch die Preissenkung einer anderen Premiummarke beeinflusst als durch die Preissenkung einer Billigmarke. Deshalb werden die Gewichte für die Zusammenfassung der Preise so bestimmt, dass die Modellanpassung insgesamt maximiert wird. Das kann für alle Konkurrenzprodukte zusammen oder aber auch für Gruppen von Konkurrenzprodukten getrennt erfolgen. Praktisch geschieht dies mit einer numerischen Optimierungsmethode, z. B. mit dem Nelder-Mead-Verfahren (vgl. [4], S. 127 ff.). Die Höhe der Gewichte lässt sich als Ausdruck der Nähe eines Produkts zum modellierten Produkt interpretieren. Für die Verknüpfung der Variablen wird beim GfK-Marken-Simulator eine spezielle Form der nichtlinearen Regression angewendet, wobei der aktuelle Marktanteil als abhängige Variable, die verschiedenen Marketing-Mix-Variablen direkt oder in Form von Metavariablen als unabhängige Variablen eingesetzt werden. Dabei wird ein multiplikativer Regressionsansatz der Form
verwendet, wobei ys,t = Marktanteil (Menge) der Vertriebslinie s (s=l,2,...,S) zum Zeitpunkt (t=l,2,...,T), wobei S die Zahl der Subsegmente (z. B. 30) und T die Anzahl der venA/endeten Perioden darstellen. Eine Periode wird als zeitverzögerte oder Lag-Periode benötigt. Liegt ein Jahr zugrunde und werden wöchentliche Daten verwendet, so gilt: T = 51. Zs,t-i = Marktanteil (Menge), wie er in der Vorperiode bestanden wäre, wenn der gleiche Marketing-Mix verwendet worden wäre, wie in der aktuellen Periode. Xi^s,t = i-te Marketing-Mix-Variable (i=l,2,...n) des Segments s zum Zeitpunkt f, wobei n die Anzahl der einbezogenen Variablen bedeutet. Dabei kann es sich auch um eine Metavariable handeln. es,t = Störvariable, wird durch den Schätzprozess minimiert. üj = Parameter, die so zu schätzen sind, dass die Quadratsumme der e^^ minimiert wird. Die Variable z kann nach einigen Umformungen (vgl. [10]) eliminiert werden. Es ergibt sich als zu schätzende Modellgleichung:
410
Wildner
Deren Parameter lassen sich iterativ bestimmen: Hierzu berechnet man zunächst mit einem vorgegebenem aj = 0 die Ausdrücke in den Klammern. Nach Logarithmieren können die Parameter ao bis a^+j außerhalb der Klammern mit linearer Regressionsrechnung geschätzt werden (vgl. z. B. [2], S. 45 ff.), wodurch sich ein neuer Wert für aj ergibt, der wieder in die Klammerausdrücke eingesetzt wird. Dies führt man solange fort, bis sich die Beträge der aj zweier aufeinander folgender Iterationen um weniger als einen sehr kleinen Betrag (z. B. 0,00001) unterscheiden. Die Konvergenz des Verfahrens ist zwar nicht bewiesen, trat bis jetzt in der Praxis jedoch stets nach 5 bis 10 Iterationen auf. Zur Beurteilung der Qualität der Schätzung stehen mehrere statistische und inhaltliche Kriterien zur Verfügung (vgl. z. B. [2], S. 45 ff.). Dies soll jedoch anhand eines konkreten Beispiels erläutert werden. 20.3.3 Prognosen am Fallbeispiel Im Folgenden soll ein Beispiel aus dem Süßwarenbereich dargestellt werden. Ein Unternehmen offeriert zwei Produktlinien. Pro Produktlinie werden mehrere Marken angeboten, jede Marke meist auch in mehreren Größen. Für beide Produktlinien wurde je ein Modell erstellt. Im Folgenden soll das Modell der 1. Produktlinie näher beleuchtet werden. Es wurden 15 Vertriebslinien unterschieden. 87 Wochen von Woche 1 1998 bis Woche 34 1999 (1998 hatte 53 Wochen) standen für die Modellbildung zur Verfügung. Vertriebslinien, bei denen die Produkte nicht oder kaum distribuiert waren, wurden aus der Datenbasis entfernt. Damit ergaben sich insgesamt 1131 Datenpunkte. Für jeden dieser Datenpunkte wurde ein umfassendes Set an Variablen gebildet. So wurden 70 eigene und konkurrierende Produkte bzw. Zusammenfassungen daraus berücksichtigt. Pro Marke wurden folgende Variable berücksichtigt: 1.
Zahl der EAN als Ausdruck für die Tiefe des angebotenen Sortiments.
2.
Preis in den Ausprägungen Normalpreis und Aktionspreis, dieser wiederum getrennt nach Preissenkung, Display, Anzeige (in Handzettel oder Zeitung) und allen möglichen Kombinationen daraus.
3.
Distribution gewichtet gesamt, nicht Aktion und Aktion getrennt nach Preissenkung, Display, Anzeige und allen Kombinationen daraus.
4.
Damit wurde die Situation in den Geschäften sehr umfassend berücksichtigt. Insgesamt besteht die Datenbasis aus ca. 3,8 Mio. Zahlen.
Die wesentlichen Parameter des Modells zeigt die Tabelle 1.
Modellgestützte Marktanteilsprognose auf Basis von Paneldaten Modell "Marke X" Abh. Variable Marktanteil Konstante
R^ =
93,77 %
F-Wert=
1199,188
Parameter a, -0,506
411
f-Werte ^T;84
Lag-Variable
0,663
43,06
Preis Mittelpreisprodukte Marke X
-0,766
-7,57
Preis Niedrigpreisprodukte Marke X
-0,167
-2,40
Distr. Aktion Mittelpreisprod. X
0,058
11,52
Distr. Aktion Niedrigpreisprod. X
0,087
17,13
Preis Konkurrenten 1
1,135
15,25
Preis Marke X Produktlinie 2
0,086
2,56
Zahl EAN Niedrigpreisprod. X
0,373
6,16
Zahl EAN Marke X Produktlinie 2
0,573
10,10
Zahl EAN Hochpreisprodukte Marke X
0,225
3,99
Distr. Aktion Handelsm.
-0,014
-4,73
Preis Handelsmarken
0,064
2,69
Distr. Aktion Konkurrenten 2
-0,017
-3,33
Distr. Aktion sonst. Konkurrenten
-0,029
-2,68
Tab. 1: Parameter-Modell Marke X Produktlinie 1 (Quelle: GfK) 1.
Die statistische Qualität des Modells ergibt sich aus: a)
Dem Bestimmtheitsmaß R\ das den Anteil der durch die Regression erklärten Varianz angibt. Mit fast 94 % bleiben nur etwas über 6 % der Varianz unerklärt. Dieser Wert muss als sehr gut bezeichnet werden
b)
Dem F-Wert, der über die Signifikanz des Modells Auskunft gibt. Ab einem Wert von 2,04 ist die Regression als Ganzes mit einer Sicherheitswahrscheinlichkeit von 99 % signifikant. Ein F-Wert kleiner als die Signifikanzgrenze würde das gesamte Modell wertlos machen. Der Wert von 1199 übersteigt diese sehr deutlich und muss daher ebenfalls als sehr gut bezeichnet werden.
c)
Den f-Werten der einzelnen Parameter, wobei ein ^Wert von kleiner -1,96 oder größer +1,96 mit 95 % Sicherheitswahrscheinlichkeit eine signifikante Einflussgröße signalisiert; ein ^Wert von kleiner -2,57 oder größer +2,57 zu 99 %. Das Vorzeichen ist gleich dem Vorzeichen des zugehörigen a^. Ein Plus drückt aus, dass ein Einfluss gleichläufig (wenn sich die Variable erhöht, erhöht sich der Marktanteil, z. B. der Preis eines Konkurrenzprodukts), ein Minus, dass er gegenläufig ist (wenn sich die Variable erhöht, vermindert sich der Marktanteil, z. B. der eigene Preis). Ist ein Parameter nicht signifikant, so ist der Einfluss der entsprechenden Variablen nicht gesichert. Es zeigt sich, dass bis auf die Konstante, die nicht weiter interpretiert wird, alle Werte zu 95 % signifikant sind, bis auf einen sind sie sogar zu 99 % signifikant. Auch dies muss als sehr gut bezeichnet werden.
d)
Dagegen kann der Absolutwert der Parameter a^ wegen der Transformation der Variablen nicht direkt beurteilt werden.
412
Wildner e)
Wichtig ist auch das Punktdiagramm der geschätzten zu den realen Marktanteilen. Dieses ergibt, dass die Datenpunkte sehr eng um die Diagonale als Ideallinie streuen und sich weder im unteren noch im oberen Bereich davon entfernen (siehe Abbildung 1).
Abb. 1: Geschätzte versus reale Marktanteile f)
2.
Besonders wichtig ist jedoch die Prognosefähigkeit des Modells. Dazu werden nur die Daten der Wochen 1-53 1998 herangezogen und das Modell erneut geschätzt. Dann werden die Marketing-Mix-Variablen für die Wochen 134 des Jahres 1999 eingegeben in die Modellgleichung und die zugehörigen Marktanteile geschätzt. Dieser Test ist besonders wichtig, weil so aufgedeckt werden kann, wenn eine gute Anpassung des Modells an die Realität im Schätzzeitraum lediglich auf „Overfitting" (gute Anpassung ohne real dahinter stehende Zusammenhänge und daher schlechte Erklärung zusätzlicher Datenpunkte) zurückzuführen ist. Mit einer durchschnittlichen Abweichung des prognostizierten Marktanteils vom realen Marktanteil von 0,24 Prozentpunkten kann die Prognose als sehr gut bezeichnet werden (siehe Abbildung 2).
Die inhaltliche Qualität ergibt sich insbesondere daraus, dass alle Vorzeichen der Parameter das erwartete Ergebnis zeigen und die Elastizitäten in sinnvollen Bereichen liegen.
Die zur Produktlinie gehörenden Produkte wurden aufgeteilt in Niedrigpreisprodukte, Mittelpreisprodukte und Hochpreisprodukte. Die Konkurrenten wurden nach Marken getrennt. Die Preise gehen gewichtet ein, wobei - wie oben dargestellt - die Gewichte so gewählt wurden, dass die Modellanpassung insgesamt optimiert wurde. Diese Gewichte lassen sich interpretieren: So ergaben sich für die Mittelpreisprodukte für vier Produkte Gewichte zwischen 14 % und 25 %. Diese Produkte haben Konkurrenten, die mit ihnen vergleichbar sind und damit die Preiswahrnehmung der Marke insgesamt
Modellgestützte Marktanteilsprognose auf Basis von Paneldaten
413
stärker beeinflussen, als die sieben Produkte mit den niedrigen Gewichten zwischen 1 % und 9 %.
Prognosefähigkeit
"Ist •Modell
8
I
-
I
1 1 I
^
I
I
N-
I
1 1 I
O
I
I
CO
I
I
CD
I
I
I
O)
I
I
I I
CN CM
I
I 'i ' i
in
00
CNJ
CN
I
I I
CO
CO
Woche 1999
Abb. 2: Prognosefähigkeit des Modells Die Aktionen wurden ebenfalls gewichtet zusammengefasst. Die Variable „Distribution Aktion Mittelpreisprodukte" wurde demnach aus zwei Zusammenfassungen gebildet. Dabei ergeben sich die folgenden Gewichte: Aktionsart Preissenkung (P) Display (D) Anzeige (A) Display und Anzeige (DA) PD PA PDA
Gewicht (%) 3 6 6 6 19 23 38
Tab. 2: Aktionsarten und Aktionsgewichte Die Gewichte zeigen eindeutig, dass in diesem Markt vor allem Preissenkungen wirken, die mit einer kommunikativen Maßnahme (Display und/oder Anzeige, d. h. Handzettel- oder Zeitungsinserat) verknüpft sind. 20.4 Prognosen mit Scanner-Verbraucherpanel-Modellen 20.4.1 Vorbemerkung Scanner-Verbraucherpanel-Modelle sind erst seit kurzem im Einsatz. Die GfK hat in den Jahren 1998 bis 2003 ein entsprechendes Modell entwickelt, das seit November 2003 unter dem Namen „GfK-Brand-Simulator" angeboten wird.
414
Wildner
Zielsetzung war 1.
die simultane Schätzung aller relevanten Marken und Vertriebslinien, also ein Marktmodell, kein Markenmodell wie das in Abschnitt 20.3 vorgestellte Modell;
2.
ein Modell auf Basis der einzelnen Haushalte, sodass beliebige Aggregationen von Haushalten möglich sind;
3.
die Berücksichtigung des kompletten Marketing-Mix mit Ausnahme des Produkts selbst. Es sollen also einbezogen werden können Preise, Aktionen, Distributionen und Werbung (TV);
4.
schließlich ein transparentes Modell, d. h. keine „Black Box", die dem Kunden kein Vertrauen vermitteln kann.
20.4.2 Die Datenbasis Die Datenbasis soll dargestellt werden am Beispiel Weichspüler. 7421 Haushalte haben im Jahr 2002 mindestens einmal Weichspüler gekauft. Dabei sind nur solche Haushalte berücksichtigt, die 2002 durchgehend berichtet haben (diese bilden die so genannte „durchgehende Masse"). Haushalte, die 2002 die Berichterstattung aufgenommen und/oder beendet hatten, sind nicht enthalten. Nun ist ein einziger Einkaufsakt nicht ausreichend, um auf dieser Basis das Einkaufsverhalten des betreffenden Haushalts zu modellieren. Deshalb werden für die Modellbildung nur solche Haushalte berücksichtigt, die mindestens drei Einkaufsakte haben. Das sind 3307 Haushalte, die insgesamt 32281 und damit ca. 90 % der Einkaufsakte getätigt haben. Die Einkäufe werden in insgesamt 29 Vertriebslinien und für die wichtigsten Marken des Markts beobachtet. Insgesamt deckt das Modell damit etwa 80 % des Markts ab. Für jeden Einkaufsakt stehen folgende Informationen zur Verfügung: 1.
Einkaufsverhalten des Haushalts vor dem Einkaufsakt;
2.
Preis des Produkts;
3.
gekaufte Menge;
4.
Preise der Produkte, die von anderen Panelhaushalten eingekauft wurden. Dabei werden auch die Einkäufe der Haushalte herangezogen, die nur einen oder zwei Einkaufsakte hatten;
5.
Distribution laut IRI.
20.4.3 Die Modellierung Für die Modellierung wird jeder Einkaufsakt in folgende Entscheidungen zerlegt: 1. 2. 3. 4.
Wann wird gekauft? Wo wird gekauft? (Vertriebslinie) Was wird gekauft? (Marke, Produkt) Wie viel wird gekauft? (Anzahl Packungen)
Modellgestützte Marktanteilsprognose auf Basis von Paneldaten
415
Die ausführliche Darstellung aller Modellteile würde den Rahmen dieses Artikels sprengen. Deshalb soll nur das Teilmodell für die Einkaufsstättenwahl näher beleuchtet werden. Dieses Teilmodell ist eine Besonderheit des Verbraucherpanel-Modells im Vergleich zum Handelspanel-Modell. In den Handelspanel-Modellen wird jedes Geschäft bzw. jede Vertriebslinie als ein unabhängig bestehendes Universum behandelt. Wenn eine Vertriebslinie eine Aktion fährt, dann wird dies Nachfrage von anderen Vertriebslinien abziehen. Dieser Nachfragerückgang in den anderen Vertriebslinien wird in den Handelspanel-Modellen nicht modelliert, was tendenziell zu einer Überschätzung des Erfolgs der Aktion für das Produkt führt. Im Verbraucherpanel-Modell wird dies jedoch explizit berücksichtigt. Zunächst hat jeder Haushalt eine Anzahl von Vertriebslinien im „Relevant Set". Dieses Relevant Set wird insbesondere von der räumlichen Nähe von Geschäften der Vertriebslinie zum Wohn- bzw. Arbeitsort determiniert. Eine Vertriebslinie ist nur dann im Relevant Set, wenn sie im Basis-Zeitraum mindestens einmal genutzt wird. Die Nutzungswahrscheinlichkeit einer Vertriebslinie errechnet sich durch ein logistisches Modell der folgenden Form:
w w,h,v
-
1 _j_ V ^
1
~Zu0.
(6)
In der Sprache der Mathematik handelt es sich hier um einen Vergleich von Wahrscheinlichkeitsverteilungen über Ratingklassen. System A ist in dieser Sprache besser als System B im Sinne der Ausfalldominanz, wenn die bedingte Verteilung von A, gegeben Ausfall, diejenige von B stochastisch dominiert. Und A ist besser als B im Sinne der Nichtausfalldominanz, wenn die bedingte Verteilung von B, gegeben kein Ausfall, diejenige von A stochastisch dominiert. Analog lässt sich auch der Trennschärfe-Vergleich aus Abschnitt 2 in die Sprache der stochastischen Dominanz übertragen (DeGroot und Eriksson [5]): Ein kalibriertes System A ist genau dann trennschärfer als ein kalibriertes System B, wenn die unbedingte Verteilung der Kredite auf die Ratingklassen unter A diejenige unter B stochastisch in 2. Ordnung dominiert. Ausfalldominanz und Nichtausfalldominanz sind je für sich sehr leicht zu erzeugen: Durch hinreichende Erhöhung der vorhergesagten Ausfallwahrscheinlichkeiten (und damit natürlich unter Preisgabe einer vorher vielleicht vorhandenen Kalibrierung) wird jedes System einen vorgegebenen Konkurrenten letztendlich im Sinne der Ausfalldominanz schlagen. Gleiches gilt für die Nichtausfalldominanz, wenn man die vorhergesagten Ausfallwahrscheinlichkeiten hinreichend reduziert. Schwieriger ist dagegen eine Qualitätsverbesserung sowohl im Sinne der Ausfall- als auch im Sinne der Nichtausfalldominanz. Ein System, welches ein anderes in diesem Sinne dominiert, heißt im Weiteren auch „besser im Sinne der doppelten Ausfallordnung". Die doppelte Ausfallordnung ist ein sehr anspruchsvolles Kriterium. Wie man sich leicht überzeugt, ist sie für kein einziges Paar der in Tabelle 1 aufgelisteten Wahrscheinlichkeitsprognosen gegeben. Ganz allgemein lässt sich zeigen (siehe Krämer [10], Satz 1), dass die doppelte Ausfallordnung mit Kalibrierung im Wesentlichen unverträglich ist:
Qualitätsvergleiche bei Kreditausfallprognosen
443
Wenn für zwei kalibrierte Wahrscheinlichkeitsprognosen A und B gilt: ^^(0) = ^^(0) = 0, so ist die Ausfallordnung ausgeschlossen. Und für ^^(i) = ^^(i) = o ist die Nichtausfallordnung ausgeschlossen. Unabhängig von Kalibrierung nennen DeGroot und Fienberg [4] deshalb eine Prognose A „suffizient" für B, wenn B's bedingte Verteilungen der Kredite auf die Ausfallwahrscheinlichkeiten p^, gegeben sowohl Ausfall als auch Nicht-Ausfall, aus denen von A durch Randomisieren abgeleitet werden können:
q'{pAö)-f,M^^q'[p^\e) für/ = l,...,^, e = Q^
(7)
mit einer Markoff-Matrix M. Für kalibrierte Prognosen stimmt die so induzierte Halbordnung mit der durch den Trennschärfe-Vergleich induzierten Halbordnung überein. Ein weiteres, von Kalibrierung unabhängiges und in der Praxis gern benutztes Qualitätskriterium (siehe z. B. Falkenstein u.a. [7]) gründet sich auf dem Polygonzug durch die Punkte
(o,o)ix?(A-.),i:^(A-ji)
j = U^,k.
(8)
Diese Kurve heißt in der angelsächsischen Literatur auch „power curve", „cumulated accuracy profile" oder „Gini curve" und sei im weiteren als Gini-Kurve bezeichnet. Eine Wahrscheinlichkeitsprognose A ist dann besser als eine Wahrscheinlichkeitsprognose B in diesem, dem Gini-Sinne, wenn A's Gini-Kurve nirgends unterhalb von der von B verläuft. Ein System, das in jeder Ratingklasse die gleichen prozentualen Ausfallanteile hätte, hat als Gini-Kurve die Diagonale. Dieses System liefert keine Informationen und ist in diesem Sinne das schlechtest mögliche. Angenommen, im Beispiel aus Abschnitt 2 seien insgesamt 800 Kredite zu bewerten. Agentur C prognostiziert für 200 davon eine Ausfallwahrscheinlichkeit von 0,5 %, für 400 eine Ausfallwahrscheinlichkeit von 1,5 %, und für 200 eine Ausfallwahrscheinlichkeit von 4,5 %. Agentur C ist kalibriert, d. h. in der ersten Gruppe fällt im Mittel 1 Kredit (= 0,5 % von 200) tatsächlich aus, in der zweiten Gruppe fallen 6 Kredite aus (= 1,5 % von 400), in der dritten Gruppe 9 (= 4,5 % von 200). Insgesamt gibt es 16 Ausfälle (2 % von 800). Im Weiteren sei der Einfachheit halber unterstellt, dass die enA/arteten Ausfälle mit den tatsächlichen Ausfällen übereinstimmen. Gruppiert man die Kredite von schlecht nach gut und stellt ihnen die kumulierten Anteile an den Ausfällen gegenüber, ergibt sich Tabelle 2. Diese Punkte, in ein 2-dimensionales Koordinatensystem übertragen und durch Geraden verbunden, erzeugen die in Abbildung 1 wiedergegebene Gini-Kurve der Prognose C. Ebenfalls eingezeichnet ist die optimale Gini-Kurve eines Ratingsystems, das alle 16 Ausfälle, und nur diese, in die schlechteste Bonitätsklasse aufgenommen hätte. Diese begrenzt zusammen mit der Winkelhalbierenden die Fläche B.
444
Krämer
Anteil an der Gesamtzahl der bewerteten Kredite
Anteile an der Gesamtzahl der Ausfälle 0/16 9/16 15/16 16/16
0/800 = 0 200/800 = 0,25 600/800 = 0,75 800/800 = 1
Tab. 2: Bonität versus Ausfallanteile für ein ausgewähltes Prognoseverfahren
1.00
Abb. 1: Gini-Kurve Das Verhältnis der Fläche A zur Fläche B heißt auch Trefferquote (accuracy ratio). Je höher die Trefferquote, desto näher kommt ein Ratingsystem an die in obigem Sinn optimale Prognose heran. Alternativ betrachtet man ebenfalls oft die ROC-Kurve (ROC = „Receiver Operating Characteristic"), die durch die Punkte
(O,O)JX^(A-.|O),Z^(A-.|I) , J = h...,k
(9)
/=0
und verbindende Geraden gegeben ist. ROC-Kurven sind vor allem in der medizinischen Diagnostik seit langem als Werkzeug zum Qualitätsvergleich konkurrierender Diagnosesysteme wohlbekannt (siehe Zweig und Campell [19] oder Hajian-Tilaki und Henley [9] für eine Übersicht). Da sich aber zwei Gini-Kurven genau dann schneiden, wenn sich die zugehörigen ROC-Kurven schneiden, sind die durch diese Kurven induzierten Halbordnungen äquivalent (Krämer [10], Theorem 3). Außerdem ist die oft als Skalares Qualitätskriterium genutzte Fläche unter der ROC-Kurve numerisch identisch zu der aus der Gini-Kurve abgeleiteten Trefferquote (siehe etwa Engelmann u.a. [6]; diese Einsicht ist aber auch bei vielen anderen Autoren zu finden). Die ROC-Kurve liefert daher keine zusätzlichen Informationen und bleibt im Weiteren außer Betracht. Sowohl die Gini-Kurve als auch die ROC-Kurve sind invariant gegenüber monotonen Transformationen der vorhergesagten Ausfallwahrscheinlichkeiten. Nimmt die tatsächliche Ausfallwahrscheinlichkeit mit schlechter werdender Ratingklasse zu, heißt ein Sys-
Qualitätsvergleiche bei Kreditausfallprognosen
445
tem auch „semikalibriert". Bei einem semikalibrierten Ratingsystem ist die Gini-Kurve konvex. Man kann zeigen (siehe Krämer [10], Theorem 5), dass für semikalibrierte Wahrscheinlichkeitsprognosen eine Ordnung bezüglich Suffizienz das Gini-Kriterium impliziert. Die Umkehrung gilt nicht. Analog folgt auch aus einer Überlegenheit im Sinne der doppelten Ausfallordnung eine Überlegenheit im Sinne des Gini-Kriteriums, unabhängig davon, ob die Prognosen semikalibriert sind oder nicht. Hier kann man ebenfalls durch einfache Gegenbeispiele zeigen, dass die Umkehrung nicht gilt. 23.4 Skalarwertige Abweichungsmaße Eine alternative Möglichkeit zur Beurteilung der Qualität von Wahrscheinlichkeitsprognosen ist der direkte Vergleich von Prognosen und tatsächlich eingetretenen Ereignissen. Insgesamt gebe es n zu bewertende Kredite. Sei p^ e {p^,...,p,^] die Prognose für Kredit j, und sei 0^ = 1 bei Ausfall und 0^=0, wenn kein Ausfall eintritt. Dann ist das Brier-Maß („Brier-Score", nach G.W. Brier [3]) definiert als B--=--Y.(p'-^')-
(10)
Das Brier-Maß ist das bekannteste Maß zur Bewertung von Wahrscheinlichkeitsprognosen. Er wurde und wird bislang vor allem zum Qualitätsvergleich von Wettervorhersagen eingesetzt, ist aber grundsätzlich in allen Kontexten einsetzbar, in denen Wahrscheinlichkeitsprognosen zu vergleichen sind. Je kleiner das Brier-Maß, desto schlechter die Wahrscheinlichkeitsprognose. Der schlechtest mögliche Wert von B = -l ergibt sich für eine Prognose von immer nur 0 % oder 100 % Wahrscheinlichkeit für Ausfall, bei der stets das Gegenteil des Vorhergesagten eintritt. Der bestmögliche Wert von 0 ergibt sich für eine Prognose von immer nur 0 % oder 100 % für Ausfall, bei der stets das Vorhergesagte tatsächlich eintritt. Bei einem Gesamtausfall-Anteil p hat die Trivialprognose „Ausfallwahrscheinlichkeit von p für jeden Kredit" das (erwartete) Brier-Maß
B = -p{l-py-{l-p)p\
(11)
Dieser Ausdruck strebt für p-^0 ebenfalls gegen 0 (dito für p-^\). Das ist bei Anwendungen wie Kreditausfallprognosen, mit sehr kleinen Wahrscheinlichkeiten für das fragliche Ereignis, ein Problem. Es empfiehlt sich daher in den Anwendungen auf jeden Fall, einen realisierten Brier-Score relativ zu dem Trivialwert (11) zu sehen. Derart adaptierte Abweichungsmaße werden auch „skill-scores" genannt (Winkler [17]). Es ist leicht zu überprüfen (De Groot und Fienberg [4]), dass ein Anwender sein subjektiv enA/artetes Brier-Maß immer dann minimiert, wenn er als Prognose für die Ausfallwahrscheinlichkeit seine wahre subjektive Ausfallwahrscheinlichkeit einsetzt. Insofern belohnt das Brier-Maß „ehrliches" Verhalten. Abweichungsmaße mit dieser Eigenschaft heißen in der angelsächsischen Literatur auch „proper scoring ruies" (Winkler [18]).
446
Krämer
Ein deutscher Ausdruck dafür wäre „anreizkompatible Abweichungsmaße". Ein weiteres anreizkompatibies Abweichungsmaß ist die mittlere logarithmische Abweichung (Good [8])
L=^f^-log(\p^^0^-l\\
(12)
Anreizkompatible Abweichungsmaße wie das Brier-Maß oder die mittlere logarithmische Abweichung bieten sich als Entlohnungskriterium für Kreditsachbearbeiter an: Es lohnt sich, die wahren subjektiven Ausfallwahrscheinlichkeiten offenzulegen. Untertreibungen oder Übertreibungen der subjektiv für richtig gehaltenen Ausfallwahrscheinlichkeiten verschlechtern den subjektiven Erwartungswert des Abweichungsmaßes und werden insofern bestraft. Angesichts der Vielzahl der in der Literatur vorgeschlagenen Abweichungsmaße ist es sinnvoll, nach einem Kriterium zu fragen, welches garantiert, dass zwei Wahrscheinlichkeitsprognosen bezüglich aller anreizkompatiblen Abweichungsmaße die gleiche Reihung erfahren. Dazu seien die vorhergesagten Ausfallwahrscheinlichkeiten mit den empirisch beobachteten Ausfallraten gleichgesetzt. Per definitionem sind damit die Prognosen kalibriert, und es lässt sich zeigen (siehe Krämer [11]), dass eine Prognose A eine Prognose B für alle anreizkompatiblen Abweichungsmaße genau dann dominiert, wenn sie, unter Verwendung dieser vorhergesagten Wahrscheinlichkeiten, trennschärfer ist als B. Unabhängig von der Art des verwendeten Abweichungsmaßes stellt sich ferner das Problem seiner stochastischen Eigenschaften. Ist ein Prognosesystem „systematisch" besser als eine Zufallsprognose (d. h. ist die Trefferquote „signifikant" größer als Null)? Ist ein Kreditbewerter tatsächlich „besser" als die Konkurrenz, oder geht ein Vorsprung, etwa gemessen durch die Trefferquote oder den Brier-Score, nur auf zufällige Abweichungen der Stichprobe von den „wahren" Populationsparametern zurück? Hier gibt es erste Ansätze (siehe etwa Redelmeier u.a. [14] oder Engelmann u.a. [6], die einen Signifikanztest für die Trefferquote entwickeln), aber im großen und ganzen steht eine Antwort auf diese Fragen im Augenblick noch aus. 23.5 Literatur [1]
[2] [3] [4] [5]
[6]
Arminger, G., Enache, D. und Bonne, T., Analyzing credit risk data: A comparison of logistic discrimination, Classification tree analysis, and feedforward networks, Computational Statistics 12 (1997), S. 293 ff. Blume, C, Overbeck, L. und Wagner, L., An introduction to credit risk modelling, Boca Raton 2003. Brier, G.W., Verification of forecasts expressed in terms of probability, Monthly Weather Review 78 (1950), S. 1 ff. DeGroot, M. und Fienberg, S.E., The comparison and evaluation of forecasters, The Statistician32(1983), S. 12 ff. DeGroot, M. und Eriksson, E.A., Probability forecasting, stochastic dominance, and the Lorenz curve, in: Gupta, S.S. und Berger, J.O. (Hrsg.), Statistical decision theory and related topics III, Vol 1, New York 1985, S. 291 ff. Engelmann, B., Hayden, E. und Tasche, D., Testing rating accuracy, Risk 16 (2003), S. 82 ff.
Qualitätsvergleiche bei Kreditausfallprognosen [7] [8] [9]
[10] [11] [12] [13] [14] [15] [16]
[17] [18] [19]
447
Falkenstein, E., Boral, A. und Kocagil, A.E., RiskCalc for private companies II: More results and the Australian Model, Moody's Investor Services, Report No. 62265 (2000). Good, I.J., Rational decisions, Journal of the Royal Statistical Society B 14 (1952), S. 107 ff. Hajian-Tilaki, K. und Henley, J.A., Comparison of three methods for estimating Standard error of the area under the curve in ROC analysis of quantiative data, Academic Radiology 9 (2002), S. 1278 ff. Krämer, W., On the ordering of probability forecasts, SFB 475, Diskussionspapier 50/02, Dortmund 2002. Krämer, W., Evaluating probability forecasts in terms of refinement and strictiy proper scoring ruies, SFB 475, Diskussionspapier 24/03, Dortmund 2003. Murphy, A.H., A new vector partition of the probability score, Journal of Applied Meteorology 12(1973), S. 595 ff. Oehler, A. und Unser, M., Finanzwirtschaftliches Risikomanagement, Berlin 2001. Redelmeier, D.A., Block, D.A. und Hickam, D.H., Assessing predictive accuracy: Howto compare Brier scores, Journal of Clinical Epidemiology 44 (1991), S. 1141 ff. Sanders, F., On subjective probability forecasting, Journal of Applied Meteorology 2 (1963), S. 191 ff. Vardeman, S. und Meeden, G., Calibration, sufficiency and domination considerations for Bayesian probability assessors, Journal of the American Statistical Association 78 (1983), S. 808 ff. Winkler, R.L., Evaluating probabilities: Asymmetrie scoring ruIes, Management Science 40(1994), S. 1395 ff. Winkler, R.L., Scoring ruIes and the evaluation of probabilities, Test 5, (1996), S.1 ff. Zweig, M.H. und Campbell, G., Receiver-Operating Characterisic (ROC) plots: A fundamental evaluation tool in clinical medicine, Clinical Chemistry 39 (1993), S. 561 ff.
24 Beratung mithilfe von statistischen Prognosen. Welches Instrument ist das sinnvollste? von Markus Frölich, Michael Lechner und Heidi Steiger 24.1 Einleitung Wann immer es gilt, eine Kundin oder einen Kunden bezüglich verschiedener alternativer Instrumente zu beraten, stellt sich die Frage nach der optimalen Auswahl im Hinblick auf ein gewünschtes Ziel. Ein Kundenberater in einer Bank oder Versicherung soll eine Anlage- oder Versicherungsstrategie für einen Klienten auswählen, ein Arzt möchte die beste Behandlungsmethode für eine Patientin finden, oder ein Berufsberater sucht die optimale Ausbildung für einen Schulabgänger. Die hier vermittelte Methode wurde im Zusammenhang mit Arbeitsmarktprogrammen entworfen (Beschäftigungsprogramme, verschiedene Arten von Weiterbildungskursen, Einarbeitungszuschüsse etc.): Eine Person, die über die Teilnahme eines Erwerbslosen an einem Programm entscheidet - in der Regel ein Berater im Arbeitsamt - sollte diejenige Maßnahme auswählen, die ihm im Hinblick auf gegebene Ziele (Wiederbeschäftigung, Einkommen, geringe Kosten) am wirksamsten erscheint. Dieser Auswahlprozess kann unterstützt werden durch ein Expertensystem, welches auf statistischen Prognosen zukünftiger Beschäftigungsaussichten beruht. Die Methodik ist jedoch nicht limitiert auf diesen Bereich. Sie ist immer dort anwendbar, wo es um die Auswahl eines optimalen Instruments aus einer gegebenen Menge an Instrumenten geht, und wo diese Auswahl wiederholt für verschiedene Personen in derselben Art und Weise stattfindet. Das in diesem Kapitel beschriebene Vorgehen ermöglicht es, aus Daten früherer Entscheidungen direkt Prognosen und Anweisungen für weitere gleichartige Wahlsituationen zu erstellen. Dabei werden in einem ersten Schritt mittels vergangener Daten die Effekte der Maßnahmen, z. B. Arbeitsmarktprogramme, für jede Person abhängig von ihren individuellen Charakteristika geschätzt. In einem zweiten Schritt werden daraus individuelle Prognosen entwickelt und dazu verwendet, für eine beliebige andere Person die beste Maßnahme zu finden. Die Algorithmen für diese Prognosen werden optimalerweise in eine Software verpackt und direkt mit bestehenden Datenbanksystemen verknüpft, damit die Berater schnellen und unkomplizierten Zugriff haben. 24.2 Expertensysteme zur Programmauswahl Auf statistischen Prognosen basierende Expertensysteme zur Auswahl von Arbeitsmarktprogrammen wurden in den USA und in Kanada bereits entwickelt und teilweise getestet. Das Frontline Decision Support System (FDSS) in den USA wird derzeit in zwei Staaten getestet (vgl. Eberts u.a. [2]). Es besteht einerseits aus einem Hilfsmittel, das direkt aufgrund der eingegebenen administrativen Daten geeignete offene Stellen vorschlägt, und andererseits umfasst es ein Prognose-System. Es werden auf Basis der Daten einer Person Wiederbeschäftigungswahrscheinlichkeiten berechnet, die Berechtigung zu Arbeitsmarktprogrammen überprüft und die möglichen Programme nach geschätzter Effektivität rangiert.
450
Frölich, Lechner, Steiger
Das Service and Outcome Measurement System (SOMS) in Kanada sagt ebenfalls für gegebene Charakteristika eines neu oder wieder angemeldeten Arbeitslosen die optimale Maßnahme vorher. Wegen Datenschutzproblemen wurde dieses Projekt allerdings bereits wieder abgebrochen (vgl. Colpitts 2002 [1]). Das hier vorgeschlagene Verfahren ist in großen Teilen ähnlich zu jenen Systemen. Im Folgenden wird zunächst der konzeptionelle Rahmen beschrieben, um danach aufzuzeigen, welche ökonometrischen Methoden für die Berechnung dieser Prognosen innerhalb eines derartigen Systems in der Praxis konkret angewandt werden können. Eine Anwendung im Bereich Zuweisung in Arbeitsmarktprogramme soll das Vorgehen kurz veranschaulichen. 24.3 Definition des optimalen Instruments Ein Programm sollte ein oder mehrere wohl definierte Ziele haben, beispielsweise die Rückkehr der arbeitslosen Personen in die EnA/erbstätigkeit zu fördern, eine maximale Kundenzufriedenheit zu erreichen, oder am meisten Kosten einzusparen. Die Zielvariable sei im Folgenden mit der Variable Y. bezeichnet und wäre also im Falle von Arbeitsmarktprogrammen der Erwerbstätigkeitsstatus einer Person / nach Programmteilnahme, wobei Y^ die Werte 1 (erwerbstätig) oder 0 (arbeitslos) annehmen kann. Diese Zielvariable kann aber auch kontinuierlich sein, beispielsweise das erzielte Einkommen in der nächsten Beschäftigung oder die Kundenzufriedenheit. In der Literatur zur Programm-Evaluation verwendet man den Begriff der potenziellen Ergebnisse, wie er von Rubin 1974 [9] und 1977 [10] geprägt wurde. Das potenzielle Ergebnis ist dasjenige, das sich einstellen würde, wenn für Person / ein bestimmtes Instrument ausgewählt würde: Y^ sei das Ergebnis von Person /, wenn sie an keiner Maßnahme teilnähme, Y^ wenn sie an Maßnahme 1 teilnähme, Y^ wenn sie an Maßnahme 2 teilnähme usw. Wenn insgesamt R verschiedene Maßnahmen zur Verfügung stehen, so sind T^O yl
yl
yR
die potenziellen Ergebnisse für Person /, von denen eines nach Wahl des Instruments tatsächlich realisiert wird. Eine optimale Zuteilung ist dann erfolgt, wenn genau jene Maßnahme gewählt wird, die dem besten potenziellen Ergebnis entspricht. Die potenziellen Ergebnisse für Person / sind im Voraus unbekannt. Selbst nachträglich kann nur das potenzielle Ergebnis beobachtet werden, das derjenigen Maßnahme entspricht, die für Person / tatsächlich ausgewählt wurde. Ziel ist es nun, mithilfe der EnA/erbsverläufe früherer Teilnehmer mit ähnlichen Charakteristika die erwarteten potenziellen Ergebnisse zu prognostizieren. Die erwarteten potenziellen Ergebnisse für eine Person mit Charakteristika z für alle zur Verfügung stehenden Instrumente sind £ [ 7 ^ | Z = z] , E[Y^\Z^z'\
,..., E[Y^\Z = z].
Anhand dieser Prognose-Ergebnisse könnte ein Berater nun die optimale Maßnahme für Person / als diejenige Maßnahme, welche das potenzielle Ergebnis maximiert, auswählen:
Beratung mithilfe von statistischen Prognosen
451
r (z) = argmax£'[7'^ \Z = z'\ Selbstverständlich könnten neben dem Beschäftigungsstatus auch weitere Zielvariablen hinzugenommen werden, beispielsweise das Einkommen. In diesem Falle müsste man eine Gewichtung aller Zielvariablen, z. B. mittels einer Gewichtungs- oder Nutzenfunktion u, vornehmen:
r*(z) = argmaxwf£'[7'^ \Z = z\\ re{0,..,R]
24.4 Identifikation der individuellen Prognosen Die zentrale Aufgabe eines Auswahl-Systems ist es nun, die potenziellen Ergebnisse E[Y^ \Z = zlE[Y^ \Z = zl ..., E[Y^ \Z = z] auf Basis von Daten früherer Teilnehmer zu schätzen. Bezeichne mit D^G{0,...,R} die Maßnahme an der ein ehemaliger Teilnehmer / teilgenommen hat. Aus den Daten der früheren Teilnehmer ist nun E[Y'\Z = z,D = r] aber nicht E[Y'\Z = z] identifiziert. Erfolgte die Zuteilung zu den Maßnahmen in der Vergangenheit zufällig, dann wäre
E[r \Z = z] = E[r \Z = z,D = r] In den meisten Fällen ist jedoch anzunehmen, dass die Berater auch in der Vergangenheit versuchten, Personen bestmöglich, das heißt aufgrund ihrer zukünftigen Beschäftigungsaussichten, in die Maßnahmen zuzuteilen, sodass auch die Teilnahme am Programm bereits etwas über das potenzielle Ergebnis aussagen könnte. Möchte man nun also E[Y'\Z = z] schätzen, ist es erforderlich, für alle Charakteristika X zu kontrollieren, die in der Vergangenheit sowohl die Auswahl des Instruments als auch die Zielvariable beeinflussten. Konditional auf X ist dann das potenzielle Ergebnis unabhängig von der Teilnahme an einem Programm:
rY[D\X
VrE{0,l,...7?},
Die Anwendung der nachfolgenden Methodik erfordert, dass alle diese X beobachtet sind. Es müssen also möglichst viele Informationen über eine Person vorhanden sein, damit diese konditionale Unabhängigkeitsannahme gültig ist. Diese Annahme wäre z. B. verletzt, wenn nur besonders motivierte Personen in eine Maßnahme zugeteilt wurden und man keinerlei Angaben bezüglich Motivation hat. Von diesen Personen würde man später auch bessere Chancen auf dem Arbeitsmarkt enA/arten, und somit ist Motivation ein unbeobachtetes Charakteristikum, das die Annahme der konditionalen Unabhängigkeit verletzt. Als zweite Voraussetzung, um die potenziellen Ergebnisse für alle Personen und Instrumente identifizieren zu können, muss in der Vergangenheit jedes Instrument für jede Person auswählbar gewesen sein. Jede Person muss also eine positive Auswatii\/i/a/?rsc/?e/>7//c/7/ce/Y für jedes vorhandene Programm gehabt haben:
P(D = r\X = x)>0
V r e {0,l,...7?}
452
Frölich, Lechner, Steiger
Diese Voraussetzung wäre im Bereich der Arbeitsmarktprogramme beispielsweise dann nicht gegeben, wenn nur Langzeitarbeitsiose für Beschäftigungsprogramme auswählbar gewesen wären. Die X Charakteristika müssen nicht notwendigerweise mit den Z Charakteristika übereinstimmen. Die Z Charakteristika sind diejenigen Variablen, die zur Prognose der potenziellen Ergebnisse für einen neuen Klienten venA/endet werden und somit dem Berater konkret zur Verfügung stehen müssen. Die X Charakteristika sind jene Variablen, die für die Selektionskorrektur der Daten der früheren Teilnehmer erforderlich sind. Zur Bildung der Prognosen
E[r\Z = z] ist es zunächst erforderlich, auch aufXzu konditionieren, um aus den Daten der früheren Teilnehmer die konditionalen Erwartungswerte in der Population zu identifizieren:
E[Y'\Z = z,X = x\ = E[r\Z = z,X = x,D = r] Hierbei muss beachtet werden, dass Z keine Variablen enthalten darf, die von der Teilnahme am Programm selbst beeinflusst worden sind. Dies stellt jedoch keine wesentliche Restriktion dar, da derartige Variablen für einen neuen Klienten noch gar nicht beobachtbar wären, stets vorausgesetzt, dass die Z Charakteristika für neue Klienten und ehemalige Teilnehmer exakt gleich definiert sind. Zur Bildung der individuellen Prognosen können nun die X Charakteristika herausintegriert werden:
E[Y' \Z = z]= JE[Y' \Z = z,X = x]'^iV|z=.W = JE[Y\Z = z,X = x,D = r]-dF^^z^^(x) Die große Anzahl an X Charakteristika, die üblicherweise erforderlich ist, um für Selektion zu kontrollieren, erschwert eine nichtparametrische Schätzung von E[Y\Z,X,D = r]. Wie jedoch von Rosenbaum und Rubin 1983 [8], Imbens 2000 [5] und Lechner 2001 [6] gezeigt, ist es für die Selektionskorrektur ausreichend, auf die Teilnahmewahrscheinlichkeit (auch Propensitätsscore genannt)
p'(x) = P{D = r\X = x) statt auf X zu konditionieren. Hierdurch kann oft eine deutliche Reduktion der Dimensionalität erzielt und die individuellen Prognosen können bestimmt werden mittels:
E[Y' \Z = z]= JE[Y' I Z = z,/(X)
= p].dF^.^^^^^^^(p)
= \E[Y\Z = z,p'(X) = p,D = r]-dF^.^^^^^Jp). In einem ersten Schritt müssen nun jedoch die konditionalen Teilnahmewahrscheinlichkeiten geschätzt werden.
Beratung mithilfe von statistischen Prognosen
453
24.5 Schätzung der individuellen Prognosen Die Schätzung erfolgt in drei Stufen. Zunächst werden die Teiinahmewahrscheinlichkeiten geschätzt. In einem zweiten Schritt werden die potenziellen Ergebnisse in Abhängigkeit von den Z Charakteristika und den Teilnahmewahrscheinlichkeiten geschätzt. In der dritten Stufe wird das „Herausintegrieren" der Teilnahmewahrscheinlichkeiten vorgenommen. (1) Teilnahmewahrscheinlichkeiten: Diese werden meistens mittels binärer Probit-Modelle separat für alle R + 1 Programme (inkl. Nichtteilnahme) geschätzt, wobei die Teilnehmer am jeweiligen Programm allen Anderen gegenübergestellt werden: p'(x) = P(D = r\X = x) = O(xa'), wobei 0(.) die Verteilungsfunktion der Normalverteilung bezeichnet. Auf der Basis der geschätzten Koeffizienten ä' werden dann für jede Person ihre Teilnahmewahrscheinlichkeiten pj für jedes Programm berechnet: p';=0(X^ä')
r = 0,...,R.
(2) Potenzielle Ergebnisse: Diese werden geschätzt als Funktion aller Charakteristika Z und aller Teilnahmewahrscheinlichkeiten:
E[r\Z = z,p\X)
= p\...,p\X)
= p\D = r] -
(p(z,p\.,..,p^;ß'),
wobei für (p(.) je nach Zielvariable eine anderes Modell gewählt werden kann: Für eine binäre Ergebnisvariable wie Beschäftigung kann ein Probit-Modell verwendet werden; für eine kontinuierlich gemessene Zielvariable wie Einkommen kann ein lineares Modell gewählt werden, es muss jedoch die Zensierung von unten berücksichtigt werden (das Einkommen ist positiv für Beschäftigte und 0 für Arbeitslose). Da die Arbeitslosigkeit bereits mit der binären Ergebnisvariable abgedeckt ist, werden hier für das Einkommen nur noch die positiven Ausprägungen ausgewählt, logarithmiert, und eine lineare Regression auf alle Z Variablen und Teilnahmewahrscheinlichkeiten durchgeführt. Für die Selektionskorrektur wäre es ausreichend, nur auf p'(x) zu konditionieren: Mit geschätzten Teilnahmewahrscheinlichkeiten kann es jedoch vorteilhaft sein, alle Teilnahmewahrscheinlichkeiten p^(XX...,p^(X) zu berücksichtigen, um genauer für Selektion zu kontrollieren. Mithilfe der berechneten Koeffizienten werden für jede Person ihre potenziellen Ergebnisse für alle Programme berechnet:
Y; = E[r\z^.,p\x^.\....,p\Xj.)] = cp(z^,p\x^x...,p\x^yj') (3) Ergebnisprognosen: Die bisher durchgeführten Schätzungen basierten sowohl auf den Z wie auch auf den X Charakteristika. Die Bildung der individuellen Prognosen soll jedoch nur auf den Z Charakteristika beruhen, z. B. weil die X Charakteristika für neue Klienten nicht beobachtbar sind oder nicht verwendet werden sollen oder
454
Frölich, Lechner, Steiger um die Dimension des Projektionsraums zu begrenzen. Hierzu ist es erforderlich, die X Variablen „herauszuintegrieren": E[Y' \Z = z]= \E[Y' \Z = z,p\X)
= p,D = rldF^^^^^^^__^{p\
Für eine geringe Anzahl von (diskreten) Prognosecharakteristika Z könnte die Dichte dF ,,^,,^ nichtparametrisch aus den Daten geschätzt werden. Für eine größere Zahl von (kontinuierlichen) Prognosecharakteristika wäre ein solches Verfahren sehr mühsam. Ein einfacheres Verfahren besteht darin, die in Schritt 2 geschätzten potenziellen Ergebnisse Yj auf die Z Variablen zu regressieren:
E[r\z = z] = az;r), wobei die geschätzten Koeffizienten dieses Modells sind. Aus den resultierenden 7? + 1 geschätzten Koeffizientenvektoren können nun die individuellen Prognosen für jeden Wert von z bestimmt werden. 24.6 Auswahl der besten Maßnahme Für jeden neuen Klienten können somit aufgrund dieser Schätzungen direkt ihre Ergebnisse für jedes Instrument prognostiziert werden. Man kann nun dasjenige Instrument auswählen, für welches das beste Ergebnis prognostiziert wird. Dabei wird jedoch nicht die Schätzgenauigkeit der Ergebnisse berücksichtigt. Wenn die Variabilität in den prognostizierten Schätzergebnissen sehr hoch ist und die Unterschiede in den Niveaus der prognostizierten Werte gering sind, so ist es praktisch zufällig, welches Instrument als das optimale aus dem Schätzverfahren hervorgeht. In diesem Fall sind entweder alle Instrumente gleichermaßen Erfolg versprechend oder die Informationsstrukturen im Datensatz sind zu gering, um zuverlässig den Erfolg verschiedener Instrumente zu differenzieren. Ist hingegen die Variabilität in den Schätzergebnissen gering, so kann das statistische System relativ zuverlässig die optimale Maßnahme für eine bestimmte Person vorhersagen. Die Berücksichtigung der Variabilität der Schätzprognosen ist wichtig, um zu wissen, wie zuverlässig die erstellte Prognose ist. Da die Prognosen des Systems häufig nicht die einzige Information sind, die in das Entscheidungskalkül des Beraters eingehen, sondern auch andere Faktoren berücksichtigt werden müssen, wie z. B. die zeitliche Verfügbarkeit des Instrumentes, hängt die Entscheidung von der Zuverlässigkeit der Prognose ab. Nur wenn diese sehr genau ist, wird sie einen sinnvollen Beitrag für die Entscheidungsfindung leisten können. Die Varianz der geschätzten prognostizierten Ergebnisse bei der Auswahl der optimalen Maßnahme kann mittels multipler Vergleichsverfahren mit der besten Alternative (MVB/Multiple Comparison with the Best) berücksichtigt werden. Ziel dieser Verfahren ist es, eine Menge von Schätzwerten in zwei Untermengen zu teilen, sodass eine der beiden Mengen die beste Alternative mit vorgegebener Wahrscheinlichkeit enthält. Intuitiv ausgedrückt, wird jene Menge von Schätzwerten ausgewählt, die nicht statistisch signifikant kleiner als der größte der Schätzwerte ist. Ist die Varianz der Schätzwerte
Beratung mithilfe von statistischen Prognosen
455
sehr klein, so kann eventuell eine einzige Alternative als die signifikant Beste identifiziert werden, ansonsten enthält diese Menge mehrere Alternativen''. Seien Y[ für r = 0,...,R die prognostizierten potenziellen Ergebnisse für Person /. Die Maßnahme mit dem höchsten Schätzwert sei /; =argmax J^'^. re{0,..,R}
Das MVB-Verfahren bestimmt nun eine Menge St der besten Maßahmen für Person /, sodass PUES^
und L^
Abb. 6: Typische Entwicklung von Versagensintensität und Mittelwertfunktion gemäß dem Goel-Okumoto-Modell (links) und dem Musa-Okumoto-Modell (rechts) Musa-OkumotO'Modell Ähnlich wie Moranda gehen Musa und Okumoto [40] von einer Versagensintensität aus, die zu Testbeginn schneller abnimmt als in einer späteren Testphase. Genauer unterstellen sie, dass die Versagensintensität mit der erwarteten Anzahl der aufgetretenen Versagensfälle exponentiell absinkt:
Berücksichtigt man, dass die Versagensintensität die Ableitung der Mittelwertfunktion ist, so erhält man eine Differenzialgleichung, deren Auflösung zu der Mittelwertfunktion
führt. Wie im Moranda-Modell strebt auch hier die Mittelwertfunktion nicht gegen einen festen Wert. Die Anzahl der bei unendlichem Testaufwand erwarteten Versagensbeobachtungen ist also ebenfalls unendlich. Im rechten Diagramm der Abbildung 6 ist der Verlauf dieser Mittelwertfunktion und ihrer Ableitung, der Versagensintensität X(t) =
X^Qt + l
beispielhaft dargestellt. Bei Fortschreiben der Versagensintensität folgt für die Zuverlässigkeit im Intervall (t, t-\-At]: R(At \t,V^) = Qxp(-^'^^''\(x)dx\ --
Xßt + l Xß(t-^At)-^-\ V'^o
Aus den beobachteten Versagensdaten kann man zunächst durch Maximierung der bedingten Likelihoodfunktion (unter der Bedingung, dass bis zum Beobachtungsende 4 insgesamt m(te) Versagensfälle aufgetreten sind) einen Schätzer für das Produkt XQQ gewinnen und danach den Parameter 9 separat schätzen. Aufgrund der Invarianzei-
474
Grottke
genschaft der Maximum-Likelihood-Schätzung ergibt sich der Schätzer für Xo aus dem Quotienten dieser beiden Größen. Details finden sich in [40] und in [41], S. 326 und 347. Goel'OkumotO'Modell mit Weibull-Testaufwand Wie bereits bemerkt, gehen fast alle SZWM davon aus, dass die Belastung, dem ein Programm ausgesetzt ist, im Zeitablauf konstant ist. Insbesondere dann, wenn es sich bei dem verwendeten Zeitmaß / um die Kalenderzeit handelt, ist jedoch damit zu rechnen, dass die Intensität der Programmnutzung variiert. Oftmals werden zu Beginn einer Testphase nur wenige Tester eingesetzt - z. B. weil Teile der Software gerade noch programmiert werden - , und erst in der Folgezeit wird die Anzahl der Tester und damit der Testaufwand deutlich erhöht, um gegen Ende der Testphase, wenn sich die Anzahl der je Zeiteinheit gefundenen Fehler stark verringert hat, wieder zurückgefahren zu werden. Yamada und andere [58] erweitern das Goel-Okumoto-Modell, indem sie die Verteilung des Testaufwands über die Zeit mit einer Weibull-Funktion beschreiben. Dieser Ansatz führt zu der Mittelwertfunktion
Kt) = N 1 -exp(-(t)a(l-exp(-ß/^))) und der mit ihr verbundenen Versagensintensität
X(t) = TV^aßy/^-^ exp(-^a(l - exp(-ß/0) - ß/^), deren typischer Verlauf im linken Teil von Abbildung 7 dargestellt ist. Offensichtlich bewirkt eine zunächst wachsende und dann fallende Testintensität eine im Zeitablauf S-förmige Mittelwertfunktion. Die Weibull-Verteilung ist aber flexibel genug, um auch einen kontinuierlich fallenden Testaufwand modellieren zu können; die Steigung der Mittelwertfunktion nimmt dann stetig ab.
^4
I CD
CD
2
J2
5 Abb. 7: Typische Entwicklung von Versagensintensität und Mittelwertfunktion gemäß dem Goel-Okumoto-Modell mit Weibull-Testaufwand (links) und dem verzögert S-förmigen Modell (rechts)
Prognose von Softwarezuverlässigkeit
475
Falls die Entwicklung sowohl des Testaufwands als auch des Programmverhaltens sich in der Zukunft ohne Strukturbruch fortsetzen wird, so beträgt die Wahrscheinlichkeit dafür, dass im Intervall (t, t+At] kein Softwareversagen auftritt, R(At\t,V^) = Qxp N exp (-^a (l - exp(-ß(/ + Atf))) - TVexp(-^a (l - exp(-ß^^))) Alleine auf Versagensbeobachtungen basierend ist die getrennte Schätzung sämtlicher Modellparameter nicht möglich. Die Parameter a und (j) können nicht identifiziert werden, das Produkt aus ihnen dagegen schon. Yamada und andere [58] gehen davon aus, dass zusätzlich Daten zur Entwicklung des Testaufwands vorliegen, und schlagen ein zweistufiges Schätzverfahren vor. Verzögert S-förmiges Modell Schon vor der expliziten Einbeziehung eines variierenden Testaufwands in SZWM waren S-förmige Modelle betrachtet worden. Yamada und andere [57] untersuchen ein NHPP-Modell mit der Mittelwertfunktion |Li(0 = N[I - (1 + (t)Oexp(-^/)]
(14)
und der mit ihr verbundenen Versagensintensität Ht) = N ^ • l + ^t
(15)
Ohba [43] bezeichnet es als „verzögert S-förmiges Modell", da man es auch zur Modellierung der Verzögerung zwischen der Versagensbeobachtung und der Fehlerisolierung (d. h. der Bestätigung der Versagens-Reproduzierbarkeit) verwenden kann. Besteht zwischen der Hazardrate des Prozesses M(0, der die Versagensfälle zählt, und dem augenblicklichen erwarteten Fehlergehalt der Software ein proportionales Verhältnis und ist die Hazardrate des Prozesses G(0, welcher die Anzahl der isolierten Fehler zählt, ihrerseits ein Vielfaches von der erwarteten Anzahl der beobachteten aber noch nicht reproduzierten Versagensfälle, dann hat der Erwartungswert von G(t) die durch Gleichung (14) gegebene Form. Allerdings wird das Modell durchaus auch auf reine Versagensbeobachtungen angewandt, wenn diese einen S-förmigen Verlauf aufweisen. Insbesondere erfreut sich das Modell - wie auch andere S-förmige Modelle - in Japan einer großen Beliebtheit zur Anpassung an in Kalenderzeit gemessene Versagensdaten, die aufgrund der im letzten Abschnitt angesprochenen Effekte oftmals eine S-Form besitzen [19]. Kann man davon ausgehen, dass die Versagensintensität auch zukünftig durch Gleichung (15) adäquat beschrieben wird, so beträgt die Zuverlässigkeit im Zeitintervall
Ä(A/|/,F,) = exp{A^[(l + (t)(^ + AO)exp(-(t)(^ + A/))-(l + (t)Oexp(-(t)/)^^ Die Schätzung der beiden Parameter A^ und (^ erfolgt wiederum mittels der MaximumLikelihood-Methode [43], [57].
476
Grottke
25.2.4 Weitere Ansätze zur Modellvereinheitlichung Der selbstanregende Punktprozess bildet einen sehr weiten Rahmen, in den sich viele existierende SZWM eingliedern lassen. Er ist aber keineswegs die einzig mögliche Sichtweise zur Vereinheitlichung von Modellen. So haben bereits Langberg und Singpurwalla [27] gezeigt, dass sich sowohl das Goel-Okumoto-Modell als auch das Littlewood-Verrall-Modell gewinnen lässt, indem man das Jelinski-Moranda-Modell in einen Bayes-Kontext einbettet und für seine Parameter spezifische (mitunter degenerierte) a priori Verteilungen unterstellt. Kuo und Yang [25] weisen nach, dass sich für diejenigen NHPP-Modelle, für welche auch bei unendlichem Testaufwand nur eine endliche Anzahl an Versagensfällen A^ erwartet wird, die Versagenszeitpunkte als die Ordnungsstatistiken von v unabhängig und identisch verteilten Beobachtungen auffassen lassen. Hierbei ist v eine Poissonverteilte Zufallsvariable mit EnA/artungswert N. Für diejenigen NHPP-Modelle, bei denen die erwartete Zahl an Versagensfällen nicht beschränkt ist, stellen die Versagenszeitpunkte dagegen so genannte Rekorde dar. Ein völlig anderer Ansatz zur Modellvereinheitlichung betrachtet nur die Mittelwertfunktionen und führt diese auf verschiedene Einflussfaktoren zurück [17], [18], S. 14 ff. Bei den treibenden Größen, die jeweils miteinander in Beziehung stehen, handelt es sich um die Kalenderzeit, den kumulierten Testaufwand, die Anzahl der ausgeführten Testfälle und die Codeabdeckung. Eine Differenzialgleichung, die all diese Faktoren berücksichtigt, enthält als Spezialfälle unter anderem das Jelinski-Moranda-Modell, das Goel-Okumoto-Modell, das Goel-Okumoto-Modell mit Weibull-Testaufwand und das verzögert S-förmige Modell. Der Modellrahmen hilft, die Modellannahmen den einzelnen Beziehungen zuzuordnen und auf ihre Realitätsnähe zu überprüfen. Zudem kann er als Ausgangspunkt für die Konstruktion neuer Modelle dienen. 25.2.5 Systematisches und nutzungsprofilorientiertes Testen Alle bislang vorgestellten SZWM gehen implizit davon aus, dass die Software nutzungsprofilorientiert getestet wird. Während des Testens soll ein Programm also in etwa so bedient werden, wie man es von den späteren Nutzern typischerweise erwartet. Grundsätzlich bedeutet dies, dass sich die Gewichtungen der einzelnen Funktionalitäten nach deren (geschätzten) Nutzungsfrequenzen richten, die Eingabewerte aus adäquaten Verteilungen gezogen und die spezifizierten Testfälle in einer zufälligen Reihenfolge ausgeführt werden sollten [39], S. 165 ff. Weshalb diese Methodik eine wichtige Voraussetzung für die Prognose der Zuverlässigkeit im Nutzungsbetrieb ist, liegt auf der Hand: Falls beim Testen die Software in einer völlig anderen Weise verwendet wird, ändert sich mit ihrer Veröffentlichung der Prozess, welcher die Versagensfälle generiert. Es ist dann nicht sinnvoll, die Hazardrate des SZWM über das Ende der Testphase hinaus zu extrapolieren. Das nutzungsprofilorientierte Testen kann diesen Strukturbruch verhindern oder zumindest sein Ausmaß verringern. Allerdings wird diese Teststrategie vielfach für ineffizient und nicht praktikabel gehalten. Der Großteil der softwareproduzierenden Unternehmen setzt so genannte systematische Testtechniken ein. Diese Ansätze versuchen, ausgehend von Informationen
Prognose von Softwarezuverlässigkeit
477
über die Funktionalität der Software oder ihre Implementierung Testfälle zu generieren, die möglichst viele unterschiedliche und insbesondere fehleranfällige Bereiche der Software ausführen. (Für eine detailliertere Diskussion des nutzungsprofilorientierten und des systematischen Testens sowie der jeweiligen Vor- und Nachteile s. [18], S. 6 ff.) Zwar können ohne genaue Kenntnis der Unterschiede zwischen dem Testprofil und dem Nutzungsprofil die während des systematischen Testens gesammelten Daten nicht zur Prognose der Zuverlässigkeit im Feld verwendet werden. Allerdings ist es auf ihrer Grundlage z. B. möglich, die Anzahl der weiteren Versagensfälle bis zum Testende vorherzusagen, solange es bis dahin nicht zu Strukturbrüchen kommt. Für den Testmanager und das Programmierteam, welches sich um die Fehlerkorrektur zu kümmern hat, stellen auch diese Informationen wertvolle Planungsgrößen dar. Die Anwendung eines klassischen SZWM auf Versagensdaten, welche dem systematischen Testen entstammen, führt jedoch nicht unbedingt zu vertrauenswürdigen Ergebnissen. Der Grund hierfür liegt darin, dass die Modelle für das nutzungsprofilorientierte Testen geschaffen wurden und sich dies mitunter in den Strukturen der unterstellten Programmhazardrate und der von ihr abgeleiteten Größen widerspiegelt. So ergibt sich z. B. die Mittelwertfunktion des Jelinski-Moranda- und des Goel-Okumoto-Modells, wenn man ein Ziehen von Codekonstrukten mit Zurücklegen unterstellt [45]; dieser Aufbau ähnelt stark dem nutzungsprofilorientierten Testen mit einem homogenen Nutzungsprofil. Ausgehend von dem im letzten Abschnitt erwähnten Modellrahmen, der aus sukzessiven Beziehungen zwischen treibenden Faktoren besteht, wird in [18], S. 37 ff., ein Modell für die Entwicklung der Anzahl der Versagensfälle während des systematischen Testens hergeleitet. 25.2.6 Evaluierung und Verbesserung der Modellgüte Aufgrund der Vielzahl der existierenden Modelle scheint für jeden Fall ein adäquates Modell bereitzustehen. Das übergroße Angebot hat aber auch Nachteile, ist es doch Ausdruck der Tatsache, dass keines der Modelle für jeden Datensatz gute Ergebnisse liefert. Schlimmer noch: Da jedes Modell nur einen kleinen Teil der mannigfaltigen technischen und sozialen Einflussfaktoren des versagensverursachenden Prozesses abbilden kann, ist es nicht möglich, im Vorfeld der Datenerhebung mit Sicherheit zu entscheiden, welches der Modelle am besten zu den Versagensbeobachtungen passen wird [6]. Um so wichtiger ist es, für einen vorhandenen Datensatz die Güte verschiedener Modelle zu vergleichen. Hierbei gibt es eine Reihe von Kriterien, die unterschiedliche Aspekte der Modellqualität operationalisieren und erfassen. Das grundsätzliche Vorgehen zur Berechnung dieser Maße ist dabei immer gleich: Beginnend mit den ersten z. B. fünf Datenpunkten des gesamten Datensatzes werden die Parameter eines Modells geschätzt und zur Prognose einer bestimmten Größe (z. B. des nächsten Versagenszeitpunkts) bzw. deren Verteilung verwendet. Unter Hinzunahme jeweils eines weiteren Datenpunktes zu dem gestutzten Datensatz wird diese Prozedur sukzessive wiederholt. Man simuliert also die begleitende Anwendung des Modells während des gesamten bisherigen Projektverlaufs. Aus dem Vergleich der einzelnen Prognosen untereinander bzw. mit den tatsächlichen Beobachtungen errechnet sich schließlich
478
Grottke
das Gütekriterium für das jeweilige iVIodell. Folgende konkrete Maße werden oftmals betrachtet: 1.
Absolute relative Prognosefehler [11], S. 3f., [18], S. 78 f.: Zur Beurteilung der Qualität der kurzfristigen Prognose wird in jedem Schritt die geschätzte Anzahl der Versagensfälle zum nächsten Versagenszeitpunkt mit dem tatsächlichen Wert verglichen und der Absolutbetrag der relativen Abweichung bestimmt. Der kurzfristige absolute relative Prognosefehler ergibt sich dann als Mittelwert all dieser Größen. Um das langfristige Verhalten eines Modells quantifizieren zu können, ist der maximale Prognosehorizont zu wählen, für den eine Gegenüberstellung mit der Realität möglich ist. Deshalb wird für den so genannten mittleren absoluten relativen Prognosefehler für jeden gestutzten Datensatz die prognostizierte Anzahl von Versagensfällen bis zum Ende des Beobachtungszeitraums mit dem tatsächlichen Wert verglichen. Selbstredend ist ein Modell um so besser, je geringer seine Prognosefehler ausfallen.
2.
Variabilitätsmaße [1], [18], S. 80 f.: Um als Planungsgrundlage dienen zu können, dürfen sich die von einem Modell gelieferten Qualitätseinschätzungen bei der Hinzunahme einer weiteren Beobachtung nicht zu stark verändern. Zur Beurteilung des Ausmaßes dieser unerwünschten Variabilität berechnet man aus der Sequenz der Prognosen (z. B. der Zeitspanne bis zum nächsten Softwareversagen) für je zwei aufeinanderfolgende Werte den Absolutbetrag der relativen Abweichung. Das so genannte Variabilitätsmaß ergibt sich dann als Summe dieser Abweichungsgrößen; je kleiner sein Wert ist, desto besser.
3.
Präquenzielle Likelihoodfunktion [1]: Mit der Schätzung eines (zeitbasierten) SZWM aufgrund der bisherigen Beobachtungen wird indirekt zugleich die Verteilung der Zeit bis zum nächsten Versagensfall prognostiziert. Falls das Modell adäquat ist, sollte man erwarten, dass die später tatsächlich eintretende Realisation aus einem Bereich der Verteilung stammt, welcher eine große Eintrittswahrscheinlichkeit aufweist. Bei einer stetigen Zufallsvariablen sollte die Dichtefunktion an der Stelle dieser Beobachtung tendenziell einen hohen Wert annehmen. Evaluiert man in der sequenziellen Modellanwendung jede der Prognosedichten an der jeweils eingetroffenen Realisation und multipliziert die so erhaltenen Größen, dann ergibt sich ein Maß für die Plausibilität des Modells anhand des gesamten Datensatzes, welches als präquenzielle Likelihoodfunktion {prequential lil<elilioocl) bezeichnet wird. Zum Vergleich zweier Modelle bildet man den Quotienten der beiden präquenziellen Likelihoodfunktionen. Tendiert dieses präquenzielle Likelihoodverhältnis mit zunehmender Datensatzlänge gegen unendlich, dann ist das Modell, dessen präquenzielle Likelihoodfunktion im Zähler steht, dem anderen vorzuziehen; tendiert es gegen Null, so trifft das Gegenteil zu.
4.
w-Plotund:^-Plot[1], [6]: Obwohl die tatsächlich beobachteten Wartezeiten bis zum nächsten Versagensfall übenA/iegend aus denjenigen Bereichen der Prognosedichten stammen sollten,
Prognose von Softwarezuverlässigkeit
479
welche eine hohe Wahrscheinlichkeitsmasse umfassen (wie von der präquenziellen Likelihoodfunktion betont), sind durchaus auch - einige wenige - Realisationen aus den Rändern der Verteilungen zu erwarten. So dürften etwa 5% der Werte kleiner als diejenigen Schranken sein, die mit fünfprozentiger Wahrscheinlichkeit unterschritten werden. Beim so genannten w-Plot handelt sich um ein grafisches Instrument, mit dessen Hilfe überprüft werden kann, ob die Beobachtungen in diesem Sinne zu der Gestalt der von einem Modell prognostizierten Verteilungsfunktionen passen. Hierbei kann nicht nur die Stärke der Abweichung quantifiziert und mit derjenigen, die mit einem anderen Modell verbunden ist, verglichen werden. Es zeigt sich zudem, ob die tatsächlichen Wartezeiten bis zum nächsten Softwareversagen tendenziell in den oberen (unteren) Rändern der prognostizierten Verteilungen liegen und das Modell somit die Zuverlässigkeit der Software systematisch unterschätzt (überschätzt). Falls allerdings für eine Hälfte der Daten die Prognosen zu optimistisch sind, während sie für die andere Hälfte zu pessimistisch ausfallen, dann können sich diese gegensätzlichen Abweichungen des Modells von der Wirklichkeit ausgleichen, sodass sie im w-Plot nicht zu entdecken sind. Der auf den Werten des w-Plots aufbauende ;;-Plot kann solche Trends identifizieren. Hat man mithilfe eines Gütemaßes erkannt, dass ein SZWM bei der Prognose systematische Fehler macht, ist es möglich, dieses Wissen zur Verbesserung der Vorhersagen zu nutzen. Dies ähnelt dem Vorgehen eines Schützen, der bei seinen bisherigen Schüssen immer links am Ziel vorbeigeschossen hat: Die Lage rekapitulierend wird er beim nächstem Mal weiter nach rechts zielen. Brocklehurst und andere [7] schlagen eine solche „Rekalibrierung" von Prognosen vor, die auf den Ergebnissen des (geglätteten) w-Plots basiert. Sie zeigen, dass diese Technik die Prognosen verschiedener Modelle aneinander angleicht und dass zudem dem präquenziellen Likelihoodverhältnis gemäß die rekalibrierten „Modelle" ihren ursprünglichen Varianten vorzuziehen sind. Einen deutlich einfacheren Ansatz wählen Lyu und Nikora [33]. Sie raten dazu, eine Zuverlässigkeitsprognose als arithmetisches Mittel der Prognosen mehrerer SZWM zu berechnen. Insbesondere empfehlen sie die Mittelung der Prognosen des Goel-Okumoto-Modells (welches generell als zu optimistisch gilt), des Littlewood-Verrall-Modells (welches zu pessimistischen Prognosen tendiert) und des Musa-Okumoto-Modells (dessen Verzerrungsrichtung stärker variiert). Bei Erweiterungen der Methodik können die Gewichte für die einzelnen Modelle unterschiedlich ausfallen und sich sogar dynamisch nach der relativen Güte der Anpassung des jeweiligen Modells an die Daten richten [34]. In dieser adaptiven Variante handelt es sich bei den Gewichten um so genannte Bayesfaktoren; diese sind eng mit den präquenziellen Likelihoodfunktionen der verschiedenen Modelle verbunden [49], S. 148 ff. Ein grundsätzlicher Nachteil der Rekalibrierung und der Mittelung von Prognosen liegt darin, dass die Annahmen der ursprünglichen Modelle und die Interpretierbarkeit einzelner Modellparameter (z. B. des Parameters uo als der Anzahl der zu Beginn vorhandenen Softwarefehler im Jelinski-Moranda-Modell) verloren gehen. Die Gesamtheit aus Modell(en), Schätz- und Prognoseverfahren wird vollends zur Blackbox.
480
Grottke
25.3 Weitere Modellklassen Zwar haben die SZWM in der Literatur über die Schätzung und Prognose der Qualität und Zuverlässigkeit von Software die größte Aufmerksamkeit erfahren. Es handelt sich bei ihnen aber keineswegs um die einzige existierende Modellklasse. Der Vollständigkeit halber sollen in diesem Abschnitt einige weitere Modellansätze skizziert werden. Völlig ausklammern wollen wir aus Platzgründen Zertifizierungstests zur Überprüfung der Zuverlässigkeit von fertigen Softwareprodukten (s. [41], S. 201 ff.), welche auf der statistischen Theorie des sequenziellen Testens [53] beruhen. 25.3.1 Stichprobenmodelle Anders als die SZWM in Abschnitt 25.2 versuchen die in diesem Abschnitt besprochenen Modelle nicht, die Entwicklung der Zuverlässigkeit oder der Anzahl der verbliebenen Softwarefehler während einer Testphase mit Fehlerkorrektur nachzuvollziehen und vorherzusagen. Vielmehr dienen sie dazu, den aktuellen Fehlergehalt oder die Zuverlässigkeit einer Software zu bestimmen. Insofern mag man sie eher als Schätz- denn als Prognosemodelle bezeichnen. Allerdings ist zu beachten, dass Zuverlässigkeitswerte als Wahrscheinlichkeiten für einen Versagenseintritt bei zukünftiger Nutzung immer auch Vorhersagen sind, selbst wenn das Softwareprodukt unverändert bleibt. Zu ihrer Schätzung benötigen die Modelle keine Informationen über die Entwicklung der Anzahl der Versagensfälle im Zeitablauf. Die Daten der sukzessive durchgeführten Tests können gruppiert vorliegen, entweder in Form einer globalen Stichprobe oder getrennt in zwei Stichproben. A/e/sof7-Moc/e//
Dieses Modell [52], S. 217 ff., gründet sich auf derjenigen Zuverlässigkeitsdefinition, welche die Länge der „Nutzungsperiode" anhand der Anzahl der Programmläufe misst (s. oben Abschnitt 25.1). Genauer bezeichnet es als Zuverlässigkeit R die Wahrscheinlichkeit dafür, dass im Rahmen eines Laufs kein Versagen auftritt. Unter einem Programmlauf wird hierbei die Ausführung der Software mit einer bestimmten Kombination von Eingabewerten für die Inputvariablen verstanden. Diese entstammt der sehr großen aber endlichen Menge aller möglichen Wertekombinationen. Kam es während des Testens bei m von insgesamt n Programmläufen zu einem Softwareversagen, dann lautet die Zuverlässigkeitsschätzung nach dem Nelson-Modell m R = \-—. n Damit dieser Wert auch ein unverzerrter Schätzer für die versagensfreie Programmausführung im normalen Nutzungsbetrieb sein kann, müssen natürlich die Auswahlwahrscheinlichkeiten der Inputkombinationen denjenigen entsprechen, welche auch nach der Softwareveröffentlichung vorherrschen; kurz: Es muss nutzungsprofilorientiert getestet werden. Obwohl der Schätzer unter dieser Voraussetzung unverzerrt ist [52], S. 222 ff., ist eine große Zahl an Testläufen nötig, um seine Varianz gering zu halten und somit ein hohes Vertrauen in die Punktschätzung legen zu können [3].
Prognose von Softwarezuverlässigkeit
481
Dass das iVIodell an das nutzungsprofilorientierte Testen gebunden ist und deshalb nicht während des Testens gemäß systematischer Strategien verwendet werden kann, wird als weiterer Nachteil gesehen [3]. Brown-Lipow-Modell Eine Lösung des letztgenannten Problems bietet der Ansatz von Brown und Lipow [8]. Zu seiner Anwendung ist es nicht nötig, dass dem Nutzungsprofil gemäß getestet wird; dieses Profil muss aber in folgender Weise explizit spezifiziert sein: Die große Menge der möglichen Eingabekombinationen sei in Teilmengen Zu Z2, ..., ZK aufgespalten, die überschneidungsfrei sind und gemeinsam die gesamte Menge ergeben. Bei diesen Teilmengen kann es sich beispielsweise um Äquivalenzklassen handeln, deren Elemente bei ihrer Eingabe enA/artungsgemäß jeweils die gleiche Reaktion der Software bewirken. Das Nutzungsprofil muss dann in Form der Auftrittswahrscheinlichkeiten all dieser Teilmengen bei normaler Programmnutzung, P(Zi), P(Z2),..., P(ZK), bekannt sein. Als Ergebnis der Testdurchführung ist für jedes Zj zum einen die Anzahl rij der Programmläufe festzuhalten, deren Eingabekombinationen zu dieser Teilmenge gehören. Des Weiteren muss jeweils gezählt werden, wie viele der nj Läufe zu einem Versagen führen; für Zj sei dieser Wert mit mj bezeichnet. Die geschätzte augenblickliche Zuverlässigkeit der Software bei Bedienung dem Nutzungsprofil entsprechend beträgt dann
R=
\-Y,-^P{Zj).
Nelson [42] überträgt diese Formel auf eine Situation, in der die Läufe aller spezifizierten Testfälle zu keinem Softwareversagen führen (z. B. weil bereits zuvor alle Testfälle durchgeführt und die durch sie aufgedeckten Fehler bereinigt wurden). Die Zuverlässigkeitsschätzung errechnet er als
^ = 1-1^/(^7)' wobei Zj die Wahrscheinlichkeit dafür bezeichnet, dass eine beliebige aus Zj gewählte Eingabekombination zu keinem Versagen führt. Für die Bestimmung dieser s,-Werte gibt Nelson heuristische Regeln an, welche unter anderem die Anzahl der Testfälle berücksichtigen, die sich auf die Teilmenge Zj beziehen. MillS'Modell Ist man nicht an der Zuverlässigkeit, sondern lediglich an der Anzahl der Programmfehler interessiert, so kann man sich so genannte Capture-Recapture-Modelle zunutze machen, statistische Modelle, welche ursprünglich zur Schätzung der Größe von Populationen (z. B. der Anzahl der Fische in einem Teich) verwendet wurden [23], S. 248 ff. In einer spezifischen Form [44], S. 81 ff., wurden sie erstmals von Mills auf das Gebiet des Softwaretestens übertragen. In ein Programm, welches eine unbekannte Anzahl von Fehlern u^ aufweist, werden bewusst wi Fehler eingebaut. Es sei angenommen, dass alle Fehler in etwa gleich leicht entdeckt werden können und insbesondere die u\ „gesäten" Fehler nicht leichter oder schwerer zu finden sind als die u^
482
Grottke
von Anfang an vorhandenen. Zudem liege keine Interaktion zwischen den verschiedenen Fehlern vor. Wird nun eine Reihe von Testfällen durchgeführt, wobei insgesamt/Fehler gefunden werden, dann ist die Anzahl derjenigen unter ihnen, bei denen es sich um gesäte Fehler handelt, zufällig. Unter den oben genannten Voraussetzungen folgt diese Zufallsvariable, die mit Fi bezeichnet sei, einer hypergeometrischen Verteilung; d. h. die Wahrscheinlichkeit dafür, dass sie den Wert/i annimmt und sich also/i gesäte Fehler unter allen entdeckten befinden, beträgt ("., \ P{F^=f{,UQ,u^J)-
/ - / i \J \J\J /.
f Wurden tatsächlich / i der gesäten Fehler wiedergefunden, so ergibt sich mittels der Maximum-Likelihood-Methode folgende Schätzung für den Parameter UQ, die Anzahl der ursprünglichen Fehler [9], S. 108: Uc =
u,{f-f,) /i
Hierbei bezeichnet UJ die größte ganze Zahl, die kleiner oder gleich x ist. Der Schätzwert für UQ entspricht also in etwa derjenigen Größe, die man erhält, wenn man die Anzahl der gefundenen ursprünglichen Fehler (/"-/O durch die Entdeckungsquote bei den gesäten Fehlern {f\lu\) dividiert. Offensichtlich wird dieser Ansatz UQ tendenziell unterschätzen, wenn die bewusst eingefügten Fehler leichter zu finden sind als die ursprünglichen und damit erwartungsgemäß über eine höhere Entdeckungsquote verfügen. Basin-Modell Ein etwas veränderter Aufbau des Experiments, der kein Einbringen weiterer Fehler erfordert, wird mit Basin in Verbindung gebracht [9], S. 113. Das Fangen und Wiederfangen, welches in dem Begriff „Capture-Recapture-Modell" zum Ausdruck kommt, wird in der Form des unabhängigen Testens der Software durch zwei Personen realisiert. Von den insgesamt UQ Fehlern habe der erste Tester / i und der zweite Tester / entdeckt. Falls die Schwierigkeit des Auffindens für jeden Fehler gleich groß ist und zudem nicht von der Person des Testers abhängt, so beträgt die Wahrscheinlichkeit dafür, dass w d e r / vom zweiten Tester aufgespürten Fehler bereits von seinem Kollegen entdeckt worden waren, / / ,^\ " o - / i
P(W = w;u,J„f,):
v^y
(„
\
f, \J1J Wiederum tritt also die hypergeometrische Verteilung in Erscheinung.
Prognose von Softwarezuverlässigkeit
483
Unter Verwendung des für w tatsächlich beobachteten Wertes lautet der MaximumLikelihood-Schätzer für die Gesamtzahl an Fehlern in der Software u. =
/1/2
w
Wurden im zweiten „Fang" also (w/fi)=yyo der zuvor gefundenen Fehler wiederentdeckt, so kann man davon ausgehen, dass die/2 Fehler selbst etwa yVo der Gesamtfehlerzahl ausmachen. Auf Probleme der VenA/endung von Capture-Recapture-Modellen zur Schätzung des Fehlergehalts einer Software weist Isoda [21] hin. 25.3.2 Modelle zur Prognose von Softwarefehlern Die bisher behandelten Modelle haben gemein, dass sie Daten aus der Ausführung des betrachteten Programms venA/enden, um Rückschlüsse über dessen Qualität zu ziehen. In diesem Abschnitt sind einige Ansätze zusammengefasst, die aufgrund anderer (typischerweise bereits vor der Testphase verfügbarer) Informationen versuchen, den Fehlergehalt der Software vorherzusagen. Gegenüber den anderen Modellen unterscheiden sich diese Querschnittsmodelle grundlegend darin, dass zur Schätzung ihrer Parameter nicht nur die Daten eines einzigen Projekts verwendet werden. Vielmehr greift man entweder auf in der Literatur publizierte Erfahrungs- und Schätzwerte zurück, oder man schätzt die Parameter basierend auf einer Sammlung von früheren Projekten des eigenen Unternehmens. In jedem Fall unterstellt man, dass die Zusammenhänge, die anhand der für die Modellspezifikation genutzten Projekte identifiziert wurden, auch für die zukünftigen Projekte gültig sind. Die Prognoseergebnisse sind mit um so größerer Vorsicht zu genießen, je stärkere Zweifel an der Vergleichbarkeit der Projekte bestehen. Multiplikative Modelle Um multiplikative Modelle handelt es sich z. B. bei dem Modell des Rome Laboratory der Air Force (s. [12] und [26], S. 7-4 ff.) sowie bei dem Ansatz von Malaiya und Denton [35]. In ihnen ergibt sich die prognostizierte Fehlerdichte - die Anzahl der Fehler je 1000 Sourcecode-Zeilen - als Produkt einer Reihe von Faktoren, deren Werte in Abhängigkeit von den Gegebenheiten der Software und des gesamten Entwicklungsprojekts bestimmt werden. Beide Modelle verfügen über einen Faktor, welcher eine BasisFehlerdichte repräsentiert. Im Modell des Rome Laboratory wird der Wert dieses Faktors anhand einer Checkliste ermittelt, welche die Schwierigkeit der Entwicklung der vorliegenden Art von Software beurteilt; bei Malaiya und Denton beruht er auf der von dem betrachteten Unternehmen im Durchschnitt erreichten Fehlerdichte. Die weiteren Faktoren berücksichtigen Aspekte der verwendeten Entwicklungsmethoden, der institutionalisierten Entwicklungs- und Testprozesse, der Eignung der Mitarbeiter und der Struktur des implementierten Codes. All diese Faktoren weisen einen Wertebereich um die Zahl Eins auf. Je nach Ausprägung der einzelnen Aspekte wird also die BasisFehlerdichte aufgebläht oder verringert. So nimmt z. B. der Programmierteam-Faktor in Malaiyas und Dentons Modell bei einer durchschnittlichen Leistungsfähigkeit den Wert
484
Grottke
Eins und bei einem hohen bzw. niedrigen Leistungsniveau die Werte 0,4 resp. 2,5 an. Der Vorteil dieses multiplikativen Aufbaus besteht darin, dass bei Fehlen einzelner Informationen die jeweiligen Faktoren weggelassen (und dabei implizit auf ihren Grundwert Eins gesetzt) werden können. Da es möglich ist, die Faktoren des Rome Laboratory - Modells den Entwicklungsphasen Analyse, Design und Implementierung/ Test zuzuordnen, kann man somit für jeden Entwicklungsstand ein Submodell aufstellen, welches eine Teilmenge der Faktoren umfasst [26], S. 7-4 ff. Lineare Regressionsmodelle Lineare Regressionsmodelle versuchen, eine abhängige Variable y auf eine Linearkombination von erklärenden Variablen xu...,Xk zurückzuführen: y = aQ+ a^Xj +... + a^x^ + r|. Hierbei steht r| für die zufällige Abweichung von dem linearen Zusammenhang, für welche unter anderem ein Erwartungswert von Null unterstellt wird. In der konkreten Anwendung der Fehlerprognose handelt es sich bei der abhängigen Variablen um die Anzahl der Fehler im Programmcode oder um die Fehlerdichte. Mitunter wird jedoch auch auf den natürlichen Logarithmus der Fehlerdichte zurückgegriffen; ein Vorteil dieses Vorgehens liegt darin, dass der Logarithmus im Gegensatz zur Fehlerdichte selbst nicht aufwerte größer oder gleich Null beschränkt ist. Takahashi und Kamayachi [51] definieren neun quantitative Indikatoren, die potenziell einen Einfluss auf die Anzahl der Programmfehler haben. Bei denjenigen drei Variablen, die für ihren Datensatz aus 30 Projekten die größte Erklärungskraft für die Gesamtfehlerzahl zeigen, handelt es sich um die Häufigkeit von Änderungen der Programmspezifikation (gemessen in Seiten der Änderungswünsche), die durchschnittliche Programmiererfahrung der Entwickler (in Jahren) und den Umfang der Designdokumente (in Seiten). Für diese Variablen stellen die Autoren ein lineares Regressionsmodell mit der Anzahl der Programmfehler als exogene Variable auf. Zhang und Pham [60] erweitern Takahashis und Kamayachis Liste der Einflussfaktoren deutlich. Mittels eines Fragebogens erheben sie bei verschiedenen Gruppen von Mitarbeitern in Softwareunternehmen (z. B. Managern, Programmierern und Testern) die subjektiv empfundene Bedeutung dieser Faktoren für die Zuverlässigkeit der entwickelten Software, ohne allerdings anhand echter Projektdaten die Erwartungen zu verifizieren oder ein Regressionsmodell zu schätzen. In [18] wird eine Auswahl der von Zhang und Pham zusammengetragenen Einflussfaktoren weiter operationalisiert und damit objektiv messbar gemacht. Zudem enthält ein ausführlicher Fragebogen [18], S. 223 ff., Fragen und detaillierte Szenarien, mithilfe derer die Reife von Softwareentwicklungsprozessen in Anlehnung an den zukünftigen Standard ISO/IEC 15504 [20] - das so genannte SPICE-Modell - bestimmt werden kann. Die Analyse der dreizehn verfügbaren Projektdatensätze führt zu einem linearen Regressionsmodell, bei dem die Fehlerdichte durch eine selektive Reifegradbewertung, das Verhältnis zwischen der tatsächlichen und der geplanten Entwicklungsdauer und den Anteil der nach der Spezifikationsphase geänderten Anforderungen erklärt wird.
Prognose von Softwarezuverlässigkeit
485
Insbesondere dann, wenn es sich bei den exogenen Faktoren um Maße der Programmkomplexität handelt, welche erwartungsgemäß stark miteinander verbunden sind, können sich die geschätzten Regressionskoeffizienten bei der Aufnahme weiterer erklärender Variablen deutlich verändern. Um dies und weitere Probleme der so genannten Multikollinearität in den Griff zu bekommen, schlagen Khoshgoftaar und Munson [24] die Anwendung der Faktorenanalyse zur Gewinnung von orthogonalen (voneinander völlig unabhängigen) Faktoren vor. Eine Übersicht über weitere - nicht notwendigerweise lineare - Regressionsmodelle für Fehlerdaten findet sich bei Cai [9], S. 47 ff. 25.4 Abschließende Bemerkung Dieses Kapitel gibt einen knappen Überblick über verschiedene Ansätze zur Prognose von Softwarezuverlässigkeit, Softwareversagensfällen und Softwarefehlern. Da im Rahmen eines Softwareentwicklungsprojekts das korrekte Softwareverhalten zumeist nur eines der zu beachtenden Kriterien darstellt (neben dem Funktionsumfang, der Entwicklungszeit, den Lebenszykluskosten, usw.), kann es sinnvoll sein, die hier diskutierten Modelle als Elemente umfassenderer Optimierungsprobleme einzusetzen. So betrachten z. B. Pham [44], S. 159 ff., und Yamada [56] Ansätze zur Bestimmung derjenigen Testdauer, welche die Gesamtkosten der Testdurchführung und der Gewährleistung minimiert. 25.5 Literatur [I] [2] [3] [4] [5] [6]
[7] [8] [9] [10] [II] [12]
Abdel-Ghaly, AA., Chan, P.Y. und Littlewood, B., Evaluation of competing Software reliability predictions, IEEE Transactions on Software Engineering 12 (1986), S. 950 ff. Ascher, H. und Feingold, H., Repairable Systems reliability - Modeling, inference, misconceptions and their causes, New York 1984. Bastani, F.B. und Ramamoorthy, C.V., Software reliability, in: Krishnaiah, P.R. und Rao, CR. (Hrsg.), Handbook of statistics, Vol. 7, Amsterdam 1988, S. 7 ff. Belli, F., Grochtmann, M. und Jack, O., Erprobte Modelle zur Quantifizierung der Software-Zuverlässigkeit, Informatik Spektrum 21 (1998), S. 131 ff. Boland, P.J. und Singh, H., A birth-process approach to Moranda's geometric softwarereliability model, IEEE Transactions on Reliability 52 (2003), S. 168 ff. Brocklehurst, S. und Littlewood, B., Techniques for prediction analysis and recalibration, in: Lyu, M.R. (Hrsg.), Handbook of Software reliability engineering, New York 1996, S. 119 ff. Brocklehurst, S., Chan, P.Y. und Littlewood, B., Recalibrating Software reliability models, IEEE Transactions on Software Engineering 16 (1990), S. 458 ff. Brown, J.R. und Lipow M., Testing for Software reliability, Proceedings of the International Conference on Reliable Software, New York 1975, S. 518 ff. Cai, K.-Y., Software defect and operational profile modeling, Boston 1998. Chen, Y. und Singpurwalla, N.D., Unification of Software reliability models by selfexciting point processes, Advances in Applied Probability 29 (1997), S. 337 ff. Denton, J.A., Accurate Software reliability estimation, Master's thesis, Colorado State University, FortCollins 1999. Farr, W., Software reliability modeling survey, in: Lyu, M.R. (Hrsg.), Handbook of Software reliability engineering, New York 1996, S. 71 ff.
486 [13]
[14] [15]
[16]
[17]
[18] [19] [20]
[21] [22] [23] [24]
[25]
[26]
[27] [28] [29] [30] [31] [32] [33]
[34]
Grottke Forman, E.H. und Singpurwalla, N.D., An empirical stopping rule for debugging and testing Computer Software, Journal of the American Statistical Association 72 (1997), S. 750 ff. Gaudoin, O., Outils statistiques pour l'evaluation de la fiabilite des logiciels, These de doctorat, Universite de Joseph Fourier-Grenoble 1, Grenoble 1990. Goel, A.L. und Okumoto, K., Time-dependent error-detection model for Software reliability and other Performance measures, IEEE Transactions on Reliability 28 (1979), S. 206 ff. Gokhale, S.S., Marines, P.N. und Trivedi, K.S., Important milestones in Software reliability modeling, Proceedings of the Eighth International Conference on Software Engineering and Knowledge Engineering, Skokie 1996, S. 345 ff. Grottke, M., A vector Markov model for structural coverage growth and the number of failure occurrences, Proceedings of the Thirteenth IEEE International Symposium on Software Reliability Engineering, Los Alamitos 2002, S. 304 ff. Grottke, M., Modeling Software failures during systematic testing - The influence of environmental factors, Aachen 2003. lannino, A., Software reliability theory, in: Marciniak, J. (Hrsg.), Encyclopedia of Software engineering, New York 1994, S. 1223 ff. ISO/IEC JTC 1/SC 7/WG 10, Information technology - Software process assessment Part 2: A reference model for processes and process capability, Technical report ISO/IEC TR 15504-2, Genf 1998. Isoda, S., A criticism on the capture-and-recapture method for Software reliability assurance, The Journal of Systems and Software 43 (1998), S. 3 ff. Jelinski, Z. und Moranda, P., Software reliability research, in: Freiberger, W. (Hrsg.), Statistical Computer Performance evaluation, New York 1972, S. 465 ff. Johnson, N.L. und Kotz, S., Urn models and their application, New York 1977. Khoshgoftaar, T.M. und Munson, J.C, Predicting Software development errors using Software complexity metrics, IEEE Journal on Selected Areas in Communications 8 (1990), S. 253 ff. Kuo, L. und Yang, T.Y., Bayesian computation for nonhomogeneous Poisson processes in Software reliability, Journal of the American Statistical Association 91 (1996), S. 763 ff. Lakey, P.B. und Neufelder, A.M., System and Software reliability assurance guidebook, Rome Laboratory, Rome 1997. Verfügbar unter http://www.softrel.com/notebook.zip (Abruf am 22.12.2003). Langberg, N. und Singpurwalla, N.D., A unification of some Software reliability models, SIAM Journal of Scientific and Statistical Computing 6 (1985), S. 781 ff. Ledoux, J., Software reliability modeling, in: Pham, H. (Hrsg.), Handbook of reliability engineering, London 2003, S. 213 ff. Littlewood, B., Stochastic reliability growth: A model for fault-removal in computerprograms and hardware-design, IEEE Transactions on Reliability 30 (1981), S. 313 ff. Littlewood, B. und Verrall, J.L., A Bayesian reliability growth model for Computer Software, Journal of the Royal Statistical Society, series C 22 (1973), S. 332 ff. Littlewood, B. und Verrall, J.L., Likelihood function of a debugging model for Computer Software reliability, IEEE Transactions on Reliability 30 (1981), S. 145 ff. Lyu, M.R. (Hrsg.), Handbook of Software reliability engineering, New York 1996. Lyu, M.R. und Nikora, A., A heuristic approach for Software reliability prediction: The equally-weighted linear combination model, Proceedings of the 1991 IEEE International Symposium on Software Reliability Engineering, Los Alamitos 1991, S. 172 ff. Lyu, M.R. und Nikora, A., CASRE - A computer-aided Software reliability estimation tool, Proceedings of the 1992 IEEE Computer-Aided Software Engineering Workshop, LosAlamitos1992, S. 264ff.
Prognose von Softwarezuverlässigkeit [35]
[36] [37] [38] [39] [40]
[41] [42] [43] [44] [45]
[46] [47] [48] [49] [50] [51]
[52] [53] [54] [55]
[56] [57] [58] [59] [60]
487
Malaiya, Y.K. und Danton, J.A., What do the Software reliability growth model para-meters represent?, Technical report CS-97-115, Computer Science Department, Colorado State University, FortCollins 1997. Mazzuchi, T.A. und Singpurwalla, N.D., Software reliability models, in: Krishnaiah, P.R. und Rao, CR. (Hrsg.), Handbook of statistics. Vol. 7, Amsterdam 1988, S. 73 ff. Mazzuchi, T.A. und Soyer, R., A Bayes empirical-Bayes model for Software reliability, IEEE Transactions on Reliability 37 (1988), S. 248 ff. Moranda, P.B., Event-altered rate models for general reliability analysis, IEEE Transactions on Reliability 28 (1979), S. 376 ff. Musa, J.D., Software reliability engineering, New York 1999. Musa, J.D. und Okumoto, K., A logarithmic Poisson execution time model for Software reliability measurement, Proceedings of the Seventh International Conference on Software Engineering, Piscataway 1984, S. 230 ff. Musa, J.D., lannino, A. und Okumoto, K., Software reliability: Measurement, prediction, application, New York 1987. Nelson, E., Estimating Software reliability from test data, Microelectronics and Reliability 17(1978), S. 67 ff. Ohba, M., Software reliability analysis models, IBM Journal of Research and Development 28 (1984), S. 428 ff. Pham, H., Software reliability, Singapore 2000. Piwowarski, P., Ohba, M. und Caruso, J., Coverage measurement experience during function test, in: Proceedings of the Fifteenth International Conference on Software Engineering, Los Alamitos 1993, S. 287 ff. Schick, G.J. und Wolverton, R.W., An analysis of competing Software reliability models, IEEE Transactions on Software Engineering 4 (1978), S. 104 ff. Shantikumar, J.G., A general Software reliability model for Performance prediction, Microelectronics and Reliability 21 (1981), S. 671 ff. Singpurwalla, N.D. und Wilson, S.P., Software reliability modeling. International Statistical Review 62 (1994), S. 289 ff. Singpurwalla, N.D. und Wilson, S.P., Statistical methods in Software engineering: Reliability and risk, New York 1999. Snyder, D.L. und Miller, M.I., Random point processes in time and space, New York 1991. Takahashi, M. und Kamayachi, Y., An empirical study of a model for program error prediction, Proceedings of the Eighth International Conference on Software Engineering, Los Alamitos 1985, S. 330 ff. Thayer, T.A., Lipow, M. und Nelson, E.C., Software reliability, Amsterdam 1978. Wald, A., Sequential analysis, New York 1947. Xie, M., Software reliability modelling, Singapore 1991. Xie, M. und Hong, G.Y., Software reliability modeling, estimation and analysis, in: Balakrishnan, N. und Rao, CR. (Hrsg.), Handbook of statistics, Vol. 20, Amsterdam 2001, S. 707 ff. Yamada, S., Software reliability models, in: Osaki, S. (Hrsg.), Stochastic models in reliability and maintenance, Berlin 2002, S. 253 ff. Yamada, S., Ohba, M. und Osaki, S., S-shaped reliability growth modeling for Software error detection, IEEE Transactions on Reliability 32 (1983), S. 475 ff. Yamada, S., Hishitani, J. und Osaki, S., Software-reliability growth with a Weibull testeffort: A model & application, IEEE Transactions on Reliability 42 (1993), S. 100 ff. Yang, B. und Xie, M., A study of operational and testing reliability in Software reliability analysis, Reliability Engineering and System Safety 70 (2000), S. 323 ff. Zhang, X. und Pham, H., An analysis of factors affecting Software reliability, The Journal of Systems and Software 50 (2000), S. 43 ff.
26 Kooperative Vorhersage in Unternehmensnetzwerken von Peter Mertens, Andrew J. Zeller, Jörn Große-Wilde und Habib Lejmi 26.1 Von der Einzelprognose zur kooperativen Vorhersage Mit der zunehmenden Vernetzung der Industrien wird es für Einzelunternehmen immer schwieriger, die Marktsituation angemessen zu überblicken und zu prognostizieren. Dies trifft vor allem auf die Betriebe zu, die in Wertschöpfungsketten nicht das Endprodukt herstellen, sondern Rohstoffe verarbeiten oder Halbfertigfabrikate veredeln. Aus diesem Grund gehen Unternehmensnetzwerke vermehrt dazu über, bei der Prognosebildung zu kooperieren. Man erhofft sich hier folgende Vorteile: 1.
Mit der Zahl der Teilnehmer wächst die Datengrundlage.
2.
Existieren mehrere Prognosen für eine Größe, wobei alle auf unterschiedlichen Informationsmengen beruhen, so kann mit einer verbesserten Qualität gerechnet werden, wenn man sie kombiniert (vgl. Kapitel 12 in diesem Buch).
3.
Durch den Vergleich mehrerer Vorhersagetechniken mag die am besten geeignete herausgefiltert werden [2].
4.
Das Einbeziehen der verschiedenen Marketing-Aktivitäten verschafft der Kette Transparenz über die kurz- bis mittelfristige Bedarfssituation. Auf diese Weise lässt sich die Produktion bei den Zulieferern glätten, was zu geringerer Kapitalbindung führt.
5.
Die verschiedenen Einschätzungen verschaffen den Unternehmen Zugang zu differenziertem Markt-Know-how, wodurch sie den Gesamtmarkt besser vorhersagen können [24].
6.
Eine präzise unternehmensübergreifende Prognose erlaubt es, den Folgen des so genannten Forrester-Effekts (oder auch Bullwhip-Effekt) entgegen zu wirken. Dieser beschreibt die Verstärkung der Varianz in der Nachfrage, die innerhalb einer Wertschöpfungskette vom Handel bis zu den Herstellern von Zulieferprodukten entsteht (vgl. zu den Hauptursachen dieses Phänomens [15]).
Im Gegensatz zu den anderen in diesem Buch angeführten Rechenmethoden verschiebt sich der Fokus von der unternehmensbezogenen Erstellung der Einzelprognosen zu Mechanismen, um die Vielzahl der Vorhersagen zu einer netzwerkweiten Gesamtvorschau zu verdichten. Ein in der Industrie häufig genutztes Prozessmodell für eine solche Kooperation ist „Collaborative Planning, Forecasting and Replenishmenf (CPFR). 26.2 Der CPFR-Prozess CPFR ist eine Initiative der „Voluntary Interindustry Commerce Standards (VICS) Association". Ursprünglich wurde das Modell für Beziehungen zwischen Herstellern und
490
Mertens, Zeller, Große-Wilde, Lejmi
Einzelhandel vornehmlich aus der Konsumgüterbranche entwickelt. Der Begriff Planung bezeichnet in der Konzeption die Bestimmung einer gemeinsamen Strategie, für die Ziele, Aufgaben und Ressourcen festgelegt werden (vgl. [22]). Häufig umfasst dies in einem ersten Schritt nur eine ausgewählte Anzahl von Produkten. Anschließend erstellen die Partner zusammen Verkaufspläne sowie eine Absatzprognose, die auf elektronischem Weg übermittelt und aktualisiert wird. Die Reihenfolge der Schritte im Vorgehensmodell der VICS Association ist nicht zwingend, weil oft auch die Absatzplanung erst durchgeführt wird, wenn die Ergebnisse der Prognoserechnung vorliegen (vgl. [9] und Kapitel 21 dieses Buches). Der erhöhte Kommunikationsgrad zwischen den Unternehmen macht es möglich, bei Veränderungen der Bedarfe oder Sonderaktionen die Pläne umgehend anzupassen [17]. Im Rahmen des CPFR arbeiten die Partner auf der strategischen, taktischen und operativen Ebene zusammen. Diese Ebenen spiegeln sich im 9-stufigen CPFR-Prozessmodell (siehe Tabelle 1) in den verschiedenen Stufen der Planung, der Prognose und der Auftragserfüllung wider (vgl. [15], S. 124 f. und [7]). Auf der strategischen Ebene treffen die Partner die Grundsatzvereinbarungen, auf deren Basis ein Geschäftsplan entwickelt wird, der die gemeinsamen Maßnahmen für ausgewählte Produktgruppen enthält. Diese Grundsatzvereinbarungen beinhalten unter anderem die Zeitpunkte und die Form des Austausches der Vorhersagen sowie die zu verwendenden Planungsmethoden und Algorithmen. Auf diese Weise verhindert man von Anfang an, dass nicht abgestimmte Vorhersagezeiträume und -methoden zu Integrationsproblemen führen [27]. Auf Basis vorausgesagter Bedarfe berechnet man auf der taktischen Ebene die Bestellmengen. Für die Ableitung der kurzfristigeren Bestellprognose aus den ursprünglich geschätzten Bedarfen werden die Lagerhaltungsdaten und offene Aufträge einbezogen. Gegenstand der operativen Ebene sind die Transport- und Auftragsabwicklungsprozesse zwischen den Netzwerkteilnehmern. Hier werden die tatsächlichen Aufträge generiert und die Lieferungen durchgeführt. Das Prozessmodell ist neben der Ausweitung der Informationsversorgung auf vorgelagerte Wertschöpfungsstufen ein wesentliches Unterscheidungskriterium zum ECRKonzept (Efficient Consumer Response), welches vor allem im Groß- und Einzelhandel vielfach zum Einsatz kommt (vgl. [23]). 26.3 Vorhersagemethoden der Standardsoftware Die dargestellte Vorgehensweise für den CPFR-Prozess hat auch Einzug in die Pakete der großen Standardsoftwarehersteller gefunden, in der Regel im Rahmen von deren Supply-Chain-Initiativen. Von der Berechnungsmethodik her bieten sich für die kooperative Planung dieselben Algorithmen und Verfahren an, wie sie auch für unternehmensinterne Berechnungen eingesetzt werden. Stärker als beim lokalen Einsatz ist es für die unternehmensübergreifende Verwendung jedoch von Bedeutung, inwiefern das Verfahren und die Berechnung der Vorhersagen nachvollzieh- und kommunizierbar sind.
Kooperative Vorhersage in Unternehmensnetzwerken Stufe Planning
Forecasting
Replenishment
1 Schritt
491
Beispielaktivitäten
1. Grundsatzvereinbarung
Vereinbarungen über die gemeinsame Nutzung von Informationen und Absprachen zu den Rechten und Pflichten der Partner (z. B. Vertraulichkeit, Bereitstellung von Ressourcen, Erfolgsverteilung) sowie zu den Kriterien und Metriken, mit denen Wirksamkeit und Erfolg des CPFR-Prozesses gemessen werden (z. B. Vorhersagegenauigkeit, Rentabilität der Investitionen, Lagerumschlag, Liefertreue und Prozesskosten).
2. Entwickeln eines gemeinsamen Geschäftsplans
Festlegungen sind z. B. hinsichtlich Mindestbestellmengen, Parametern zur Auf- und Abrundung (insbesondere wegen der Verpackungseinheiten), Vorlaufzeiten und Bestellintervallen zu treffen.
3. Erstellen der Bedarfsprognose
Diese Prognose wird auf Basis der Point-of-Sale (POS)-Daten sowie von Informationen über Sondereinflüsse und geplante Aktionen erstellt.
4. Erkennen von Abweichungen
In diesem Schritt werden jene Prognoseobjekte ermittelt, bei denen die Ist-Bedarfe über eine (in Schritt 1 parametrierte) Toleranzschwelle hinaus von der Vorhersage abweichen.
5. Aktualisierung der Bedarfsprognose
Physisch und elektronisch wird konferiert, um zu einem Konsens über die möglichen Bestellungen zu gelangen.
6. Ableiten der Bestellprognose
Kombination der Bedarfsprognosen und der Informationen über Lagerbestände (z. B. physische Bestände und offene Bestellungen), um die Auftragseingänge vorherzusagen. Hierbei sind die Vereinbarungen aus Schritt 1 beispielsweise zur Bemessung von Sicherheitsbeständen, Bestellmengen oder Vorlaufzeiten zu berücksichtigen. |
7. Erkennen von Abweichungen
Analog zu Phase 4 wird festgelegt, welche Auftragseingänge gegen Politiken verstoßen, die Hersteller, Distribuenten und Händler gemeinsam festgelegt haben. 1
8. Aktualisierung der Bestellprognose
Es ist zu befinden, ob man die Ausnahmen auf sich beruhen lassen oder Konsequenzen ziehen soll, beispielsweise in Form von Käufen bei Herstellern, die nicht dem Liefernetz angehören.
9. Generierung der Aufträge
Im letzten Schritt werden die Prognosen der Auftragseingänge in verbindliche Aufträge umgewandelt, welche mindestens die vorhergesagten Bedarfe erfüllen sollen. Zudem sind Auftragsbestätigungen zu versenden.
Tab. 1: Schritte des CPFR-Prozessmodells Die im Folgenden angesprochenen Verfahren dienen allesamt der Prognose regelmäßiger Bedarfe, wohingegen die Vorhersage unregelmäßiger, sporadischer Bedarfe an dieser Stelle ausgeklammert bleibt, dies wird in Kapitel 4 dieses Buches ausgeführt. Zur Prognose der Endproduktnachfrage verwendet die Standardsoftware verschiedene, an anderer Stelle dieses Buches bereits dargestellte Verfahren, denen jeweils bestimmte Grundannahmen der Nachfrageverläufe zugrunde liegen. Man unterscheidet im Allgemeinen folgende Komponenten der Zeitreihe: den Trend als langfristige Ent-
|
492
Mertens, Zeller, Große-Wilde, Lejmi
Wicklungstendenz des beobachteten Merkmals, die mittelfristigen zyklischen Schwankungen und deren kurzfristiges Komplement, die saisonalen Schwankungen sowie unregelmäßige Restschwankungen. Prognose bei konstantem Bedarfsniveau a)
Gleitender Durchschnitt
b)
Exponentielle Glättung erster Ordnung
Prognose bei trendförmigem Bedarf a) b) c)
Lineare Regressionsrechnung Exponentielle Glättung höherer Ordnung Verfahren von Holt/Winters
Wahl der geeigneten Prognosemethode Die für das Prognoseproblem am besten geeigneten Verfahren werden von der Software anhand von Vergangenheitsdaten bestimmt, indem sie ex-post Vorhersagen berechnet und die Ergebnisse mit den tatsächlich eingetretenen Werten vergleicht. Die Methode, welche die geringsten kombinierten Prognosefehler aufweist, wird zur Verwendung vorgeschlagen. Die automatische Auswahl (vgl. Kapitel 12 dieses Buches) ist nicht immer geeignet, das ideale Prognosemodell zu finden, weshalb die meisten Systeme auch eine personelle Selektion unterstützen [25]. Dabei kann entweder ein vom Benutzer bestimmtes Fehlermaß als alleiniges Gütekriterium dienen oder aber eine völlig freie Auswahl der Methode gestattet werden. Der Prognosefehler e^ setzt sich dabei aus der Differenz der tatsächlich beobachteten Ausprägung im Zeitpunkt t{y^) und dem für t prognostizierten Wert ( j ) J zusammen: et=yt-yt
e^ y^ y^
Prognosefehler in Periode / Beobachtungswert in Periode t Prognosewert in Periode /
Gängige Maße für die Prognosegüte [18] sind die mittlere Abweichung (ME, Mean Error), der mittlere Prozentfehler (MPE, Mean Percentage Error), die mittlere absolute Abweichung (MAD, Mean Absolute Deviation), der Root Mean Square Error (RMSE, Wurzel des mittleren quadratischen Prognosefehlers) sowie der Theilsche Ungleichheitskoeffizient (TUK). CPFR wird durch das Internet erleichtert. Im System APO (Advanced Planner & Optimizer) zum Supply Chain Management, das die SAP AG entwickelt hat, existieren unter anderem die folgenden Möglichkeiten (vgl. [4], S. 55): 1.
Die Kunden erstellen und modifizieren ihre eigenen Prognosen. Diese übertragen sie in ein zentrales „Planning Book" des APO. Einzelne Kunden werden autorisiert, bestimmte Bereiche („Views") des Planning Book einzusehen.
Kooperative Vorhersage in Unternehmensnetzwerken
493
2.
Die Prognosen werden auf einem zentralen Computer gerechnet und den Kunden mitgeteilt. Diese bestätigen, wenn die ermittelten Vorhersagen die Grundlage der Planung sein sollen.
3.
Die Kunden melden unvorhergesehene Abweichungen („Information by Exception", „Exception Reporting"), die Anlass zu einer zentralen Revision der Vorhersagen sein können.
26.4 Herausforderungen Die kooperative Prognose lässt sich in Anlehnung an das CPFR-Modell in drei Komponenten zerlegen. Zuerst muss aus einer langfristigen Perspektive die Ausgangssituation in einem gegebenen Unternehmensnetzwerk analysiert werden. Auf der Planungsebene sind dann die Ziele und die Vorgehensweise bei der Vorhersageerstellung zu definieren. Während der Ausführungsphase gilt es schließlich die Abstimmungsbedarfe zu identifizieren und entsprechende Vereinbarungen zu treffen, Methoden auszuwählen und umzusetzen sowie die von Lieferanten und Abnehmern erstellten Pläne miteinander abzugleichen. 26.4.1 Prognosesituation Die Prognoseprozesse steuern unternehmensinterne Logistikfunktionen und können dazu dienen, Verknüpfungen mit externen Partnern über Prozessschnittstellen zu etablieren ([26], S. 5). Eine größtmögliche Integrationsebene entsteht, wenn es gelingt, alle Unternehmen einer Wertschöpfungskette - von den Rohmateriallieferanten bis hin zum Endkunden - in die gemeinsame Planung einzubinden. Ein wesentliches Merkmal bei der Beurteilung der Prognosesituation ist die Machtverteilung. Dominierende Unternehmen in einer Versorgungskette spielen bei Kooperationsbemühungen häufig eine entscheidende Rolle. Auf der einen Seite können durch sie Verzögerungen auftreten. Um die notwendige Kooperation zwischen den Betrieben zu erreichen, sind die bestehenden Vorbehalte, unternehmensinterne Prozesse gegenüber externen Partnern preiszugeben und anzupassen, zu überwinden. Es gilt daher, ein Vertrauensverhältnis aufzubauen und zu unterhalten, welches die Zusammenarbeit fördert. Ferner ist die Frage zu stellen, welcher Stellenwert der gemeinsamen Planung beizumessen ist: Dient diese lediglich als Richtgröße für die eigene Absatzbzw. Produktionsplanung und wird parallel zu den bisherigen Verfahren angewendet? Oder fungiert das einzelne Unternehmen nur noch als Datenlieferant und verlässt sich weitgehend auf die gemeinsam erarbeiteten Prognoseergebnisse? Die am stärksten ausgeprägte Auslagerung der Planungsdurchführung in einem Netzwerk könnte soweit führen, dass der dominierende Teilnehmer unter Einbezug der Informationen der restlichen Glieder die zentrale Planung übernimmt. Um den Erfolg des kooperativen Planens zu beurteilen, sollte nicht nur auf die Genauigkeit der Vorhersagewerte geachtet werden, sondern auch auf die Akzeptanz des Verfahrens in den einzelnen Unternehmen. Es ist meist ebenso wichtig, die unternehmensübergreifende Prognose organisatorisch zu etablieren wie auch deren Qualität zu verbessern. Eine der größten Schwierigkeiten mag in diesem Zusammenhang darin bestehen, die Teilnehmer von deren Nutzen zu überzeugen. Abnehmer könnten die
494
Mertens, Zeller, Große-Wilde, Lejmi
Gefahr eines erhöhten Rohmaterialbestands sehen, der durch den ermittelten Bedarf eventuell entstehen würde. Es gilt in solchen Fällen oft zwischen den Effekten einer steigenden Kapitalbindung und dem Nutzen verkürzter Lieferzeiten abzuwägen. 26.4.2 Prognoseprozess Die Frage, welches Unternehmen im Netzwerk für die Vorhersage verantwortlich ist, hängt vor allem mit dem verwendeten Dispositionsverfahren in der Bevorratung zusammen (Buyer, Vendor oder Co-Managed Inventory). Es muss bei der institutionellen Aufgabenverteilung außerdem darauf geachtet werden, dass sich alle Unternehmen im Verbund mit dem Ergebnis identifizieren können. Da nicht alle Personen, die in den jeweiligen Betrieben bei der Bedarfs- bzw. Absatzplanung mitwirken, in ein gemeinsames Team einbezogen werden können, bietet es sich an, den jeweiligen „ForecastChampion" der einzelnen Partner aufzunehmen. Ein entscheidender Faktor bei der Prognose ist auch der verwendete Ansatz bei der Datensammlung und -analyse. Man spricht von einem Top-down-Ansatz, wenn die Unternehmen die Vorhersage auf Wirtschaftsdaten, Branchenanalysen und betriebsspezifische Daten basieren und daraus Schlüsse für einzelne Unternehmen oder Gebiete ziehen. Im Gegensatz dazu extrapolieren Prognostiker in einer Bottom-up-Planung Zeitreihen vergangener Beobachtungen in den einzelnen Unternehmen in die Zukunft. Ein hybrider Ansatz, der die beiden Ansätze zu einer Middle-out-Prognose kombiniert, lässt die Genauigkeit der Vorhersage deutlich verbessern [13]. 26.4.3 Abstimmungsbedarf Die Zusammenführung der autonom geplanten und prognostizierten Bedarfe mag verschiedene Ausprägungen annehmen, im Folgenden werden einige wesentliche Voraussetzungen hierfür angesprochen. Zunächst ist zu klären, welche Eingabedaten für die Planungsrunden herangezogen werden sollen. In einer autonomen Planungsumgebung eines Unternehmens sind dies intern ermittelte Daten. Strebt man nun kooperative Planung an, so können entweder Daten, die netzwerkübergreifend in jedem Unternehmen nach dem gleichen Schema ermittelt werden, zugrunde gelegt werden, oder aber, unter Inkaufnahme eines größeren Bestimmungsaufwands, aufeinander abgestimmte Daten, z. B. unter Berücksichtigung der Prognosedaten der vor- bzw. nachgelagerten Produktionsstufen. Dies mag vor allem dann der Fall sein, wenn Unternehmen in verschiedenen Produktionsnetzen eingebunden und differenzierte Anforderungen zu erfüllen sind. Eine weitere Möglichkeit besteht darin, dass jeder Teilnehmer seine eigenen Rohdaten (z. B. Auftragseingänge beim Großhändler) an eine vorher bestimmte, zentrale Datenbank überstellt. Diese wiederum liefert schließlich die Angaben, die für die Erstellung der Bedarfsvoraussage verwendet werden (vgl. Abbildung 1). Die Wahl der Prognosemethode stellt die Unternehmen vor ähnliche Entscheidungsalternativen: jedes Unternehmen kann seine eigenen, bislang bereits eingesetzten Methoden beibehalten oder aufeinander abgestimmte verwenden (vgl. [11], S. 74). Ferner mag auch innerhalb der gesamten Kette ein einheitlicher Prognosealgorithmus zur Anwendung kommen (vgl. Abbildung 2). Im Allgemeinen kann man davon ausgehen,
Kooperative Vorhersage in Unternehmensnetzwerken
495
dass durch die Kombination verschiedener Verfahren für die Gesamtplanung eine geringere Gesamtabweichung zu erzielen ist [12]. Unternehmen 1
Unternehmen 2
Daten
Daten
Abgleich der Daten, z. B. Plausibilität etc.
Erstellen der Gesamtprognose aus den gesammelten Rohdaten
Prognosewert (Netzebene)
Abb. 1: Prinzip der zentralen Prognose Unternehmen 1
Unternehmen 2
Unternehmen 1
Unternehmen 2
Rohdaten • Unternehmensindividuelle Prognosemethode
Rohdaten i
Rohdaten i
Rohdaten
Unternehmensindividuelle Prognosemethode
Abgestimmte Prognosemethode
Abgestimmte Prognosemethode
i
i
Prognosewert (Unternehmensebene)
Prognosewert (Unternehmensebene)
Kombination der Einzelprognosen zu einem „One-Number Forecast"
X Prognosewert (Netzebene)
1
^
i
1
Prognosewert (Unternehmensebene)
Prognosewert (Unternehmensebene)
Kombination der Einzelprognosen zu einem „One-Number Forecast"
I Prognosewert (Netzebene)
Abb. 2: Kombinationsmöglichkeiten für Einzelprognosen Weiterer Koordinationsbedarf besteht sowohl bei der Planungs- und Prognosefrequenz als auch bei der Länge des Zeithorizonts, der Gegenstand der Vorhersagen ist. Auch der Detaillierungs- bzw. Aggregationsgrad der Daten ist in diesem Zusammenhang festzulegen. Aus vorhandenen Daten müssen die Prognoseverantwortlichen außerdem entsprechende Segmente mit unterschiedlichem Vorhersageverhalten definieren. Dabei sollte versucht werden, homogene Gruppen zu bilden. Wichtig ist anschließend, den richtigen Aggregationsgrad, abhängig von den Bedürfnissen der verschiedenen Unternehmen, für die einzelnen Segmente zu bestimmen. Eine weitgehende Synchronisation der Parameter erscheint für die kooperative Planung notwendig, was jedoch in der Praxis nicht immer gewährleistet werden kann. Insbesondere bei kleineren Betrieben oder auch bei Unternehmen, die in verschiedenen Netzwerken agieren, führt dies zu Problemen, da die Planungssynchronisation entsprechende Ressourcen erfordert und bindet.
496
Mertens, Zeller, Große-Wilde, Lejmi
Neben der hier vorgestellten Verdichtung der Vorhersagewerte zu einer gemeinsamen Prognose mag dies auch mithilfe des verhandlungsorientierten Ansatzes geschehen. Hierbei übermitteln die beteiligten Unternehmen in einem iterativen Prozess ihre Prognosen an den Partner, beurteilen die erhaltenen Werte, passen sie nach Bedarf an und übermitteln das Ergebnis wieder an den Absender. Dieser Vorgang wiederholt sich so lange, bis entweder ein gemeinsamer Kompromiss gefunden oder eine Abbruchbedingung erfüllt wird (vgl. [6], S. 59). 26.4.4 Verdichtungsmechanismen Ziel der gemeinsamen Planung in einem Netzwerk ist die Kombination der unterschiedlichen Vorgehensweisen und Ergebnisse in einem Prognosewert. Da nicht alle Planer der involvierten Parteien im überbetrieblichen Team integriert werden können, verbleibt ein Teil des Expertenwissens bei den einzelnen Teilnehmern. Deshalb mag es sinnvoll sein, zuerst die unterschiedlichen Verfahren innerbetrieblich zu kombinieren, bevor der unternehmensübergreifende Abstimmungsprozess beginnt [17]. Um die von den beteiligten Unternehmen abgegebenen Vorhersagen zu verdichten, lassen sich grundsätzlich zwei verschiedenen Methoden anwenden. 1. 2.
Heuristische Methoden Mathematische Verfahren
Erstere kommen zu einem gemeinsamen Wert, indem im Rahmen von Besprechungen ein Konsens zwischen den Betrieben gefunden wird. Man mag aber möglicherweise auch die vorsichtige oder die optimistische Prognose verwenden (vgl. [15], S. 127). Hierbei setzt man vor allem auf das Experten- und Erfahrungswissen der beteiligten Personen. Nachteilig sind neben der Subjektivität des Verfahrens auch der damit verbundene hohe Abstimmungsaufwand und die Möglichkeit, das Ergebnis zu beeinflussen, indem vorhandene Machtungleichgewichte ausgenutzt werden. Bei den mathematischen Verfahren kommen sowohl eine einfache und als auch eine gewichtete Durchschnittsbildung in Frage [1]. Für die Berechnung der kooperativen Vorhersage KV mithilfe des Mittelwerts, ohne andere Faktoren zu betrachten, setzt man:
Tuv KV=^ N UV^
Vorhersage des Unternehmens /
A^
Gesamtzahl der an der kooperativen Vorhersage beteiligten Unternehmen
Dem offensichtlich nur geringem Aufwand steht die Gleichbehandlung aller Beteiligten und somit die Verschleierung möglicher Informations- und Leistungsasymmetrien gegenüber. Einen Schritt weiter geht die Bildung des gewichteten Mittelwerts KVg. Dieser berechnet sich als:
Kooperative Vorhersage in Unternelimensnetzwerl<en
497
i=l N
/=1
g^ Gewichtung des /-ten Unternehmens Versuche haben gezeigt, dass diese Methodik zu besseren Ergebnissen als die einfache Durchschnittsbiidung führt [8]. Bei der Mittelwertbildung bietet es sich an, eine Gewichtung umgekehrt zur Summe der quadrierten Prognosefehler zu setzen (vgl. [3], S. 724 ff.) oder diese mit Regressionsanalysen zu bestimmen. Die Faktoren lassen sich auch aufgrund von Vergangenheitsdaten (ex post Vorhersagen) [2] über die Vorhersagegenauigkeit von bestimmten Verfahren oder einzelnen Unternehmen ermitteln. Hierbei sind sowohl die unabhängige als auch die Erklärungsvariable über einen abgelaufenen Zeitraum bekannt, sodass es möglich ist, die Leistungsfähigkeit der Prognoserechnungen der einzelnen Betriebe zu messen und zu vergleichen. Nachdem die ex post Analyse durchgeführt worden ist, nutzt man die Methode der kleinsten Quadrate, um die Gewichtung zu bestimmen. Die Koeffizienten sind auf den Wert eins zu restringieren. Die Prognosen werden als unabhängige Variablen der tatsächlich realisierten Nachfrage gegenübergestellt. Für den Fall von zwei Betrieben erhalten wir: D^ = const + ySj *UV^^ + >ff2 *U^2t + ^/
const
Konstanter Faktor
ß^,ß2
Gewichtungsfaktoren
s^
Zufallsfehler
D^
Realisierte Nachfrage zum Zeitpunkt /
t = \...T
Die Ergebnisse des Modells für die Koeffizienten können alsdann für die Gewichtung der kooperativen Vorhersage genutzt werden. Neben den bisher genannten Vorgehensweisen ist auf unternehmensübergreifender Ebene auch eine Gewichtung nach dem Umsatz oder nach der Bedarfsmenge des Unternehmens, die es im Verbund abdeckt, möglich. 26.4.5 Abgleich der Prognose mit der Produktionsmöglichkeit Beim CPFR erstellen nicht nur die Abnehmer Bedarfspläne, sondern auch die Lieferanten. Es liegen ergo mindestens zwei verschiedene Vorhersagen auf den jeweiligen Wertschöpfungsstufen vor, die miteinander abgeglichen werden müssen. Nachdem man die Prognosen der Abnehmer zu einem „One-Number Forecast" verdichtet hat, vergleicht die CPFR-Software diesen Wert mit der Vorhersage der Lieferanten [13]. Abbildung 3 stellt es grafisch dar.
498
Mertens, Zeller, Große-Wilde, Lejmi Nachfragemenge Angebotsmenge
Periode I
Periode II
Periode III
Zeit
Abb. 3: Ermittlung von Abweichungen beim Prognoseabgleich Für den Abgleich ist der Prognosezeitraum in diesem Beispiel in drei verschiedene Perioden aufgeteilt, die von der Flexibilität des Produktionssystems des Lieferanten abhängen. Die Flexibilität beschreibt in diesem Zusammenhang die Möglichkeit des Lieferanten, auf Abweichungen von der eigenen Prognose reagieren zu können (Reaktionskorridor). Im Beispiel mag in der Periode I auf eine Abweichung von +/- 5 %, in der Periode II auf +/-15 % und in der Periode III auf +/- 25 % eingegangen werden. Abweichungen zwischen den beiden Prognosen, welche den vorgegebenen Reaktionskorridor in den jeweiligen Perioden überschreiten, müssen schnell erkannt werden, um mit entsprechenden Anpassungsmaßnahmen reagieren zu können. Folgende Möglichkeiten sind an dieser Stelle denkbar: 1. 2. 3.
Hinzuziehen weiterer Produktionskapazitäten Anpassung von Sonderaktionen Netzwerkexterne Beschaffung bzw. Verkauf
Eine weitere methodische Variante der gemeinsamen Planung, welche unternehmensspezifische Kapazitätssituationen sowie die Unsicherheit in den Prognosedaten berücksichtigt, sieht vor, sowohl optimistische als auch pessimistische Erwartungen auszutauschen. Zusätzlich werden Informationen zu Kapazitätsrestriktionen (Unter- und Obergrenzen) übermittelt. Somit kann man bereits im Rahmen der Prognoseerstellung sicherstellen, dass unter Berücksichtigung von Kapazitätsengpässen jedes Unternehmen auf Basis realistischer Netzwerkkapazitäten plant. Dies ist insbesondere bei einer Verknüpfung der Vorhersage mit dem Supply Network Planning (vgl. [20], S. 282, [4], S. 64 f. und [21]) sinnvoll: Durch rechtzeitige Informationen über den Kapazitätsbedarf können beispielsweise die aus der Stücklistenauflösung resultierenden Vorlaufverschiebungen berücksichtigt werden, um eine möglichst gleichmäßige Inanspruchnahme der Produktionsressourcen zu gewährleisten. Eine weitere Spielart der kooperativen Planung besteht darin, dass die im Wertschöpfungsnetzwerk vorausgehenden Unternehmen anhand vereinbarter Kennzahlen (Indikatoren) frühzeitig Informationen über Änderungen des Absatzes erhalten (vgl. Kapitel
Kooperative Vorhersage in Unternehmensnetzwerken
499
12 dieses Buches). Diese indikatorbasierte Vorhersage mag beispielsweise einem Chipproduzenten Anhaltspunkte für steigende Chipnachfrage geben, sobald der Spielkonsolenhersteller, der diese in seinen Produkten verarbeitet, mehr Geräte verkauft. Auf diese Weise gewinnt Ersterer einen zeitlichen Vorteil, indem er bereits zum Zeitpunkt der steigenden Spielkonsolenverkäufe über den zunehmenden Chipbedarf informiert wird. Folglich kann er sich sofort auf die geänderte Situation einstellen, und nicht erst dann, wenn sich die Nachfrage bereits in seinem Bestelleingang widerspiegelt. Voraussetzungen für die Indikatorprognose sind eine enge Korrelation der Parameter sowie ein zeitliches Vorauseilen des Indikators gegenüber der zu prognostizierenden Größe(vgl. [19], S. 176 f.). In der bisherigen relativ frühen Phase des CPFR sind wenig reife Anwendungen vorzufinden. Die interessantesten Beispiele findet man in der Konsumgüter-Branche [10]. Dort hat man es mit relativ einfachen Erzeugnisstrukturen zu tun. Betrachtet man hingegen Branchen mit komplexeren Erzeugnissen (z. B. Elektronik, Maschinenbau, Fahrzeugbau), so muss der Schritt von der Prognose der Enderzeugnisbedarfe zu der Nachfrage nach Baugruppen, Einzelteilen und Rohstoffen getan werden. Analog zur Produktionsplanung im Industriebetrieb bietet es sich an, die Erzeugnisstrukturen aufzulösen (Stücklistenauflösung). Wenn - der Natur der Wertschöpfungsnetze entsprechend - untergeordnete Stücklistenpositionen von weit entfernten Produktionsstätten, Distributionszentren u. ä. beschafft werden, sind von Auflösungsstufe zu Auflösungsstufe individuelle Vorlaufzeiten zu berücksichtigen. Danach hat man aus der Vorhersage der Enderzeugnisbedarfe die der Nachfrage nach Baugruppen, Einzelteilen und Rohstoffen abgeleitet (vgl. [20], S. 139 f.). Wiederum analog zur innerbetrieblichen industriellen Produktionsplanung ist abzuwägen, auf welcher Stufe der Erzeugnisstruktur die Vorhersage stattfinden soll (vgl. [5], S. 55 und [20], S. 135): Bei Produkten, die sehr individuell an den Kundenwunsch angepasst werden können (z. B. Textilien nach Farbe und Größe, PKWs nach Ausstattungsdetails), kommt das eigentliche Enderzeugnis in so vielen Varianten vor, dass keine statistische Basis gegeben ist, vgl. Kapitel 21 dieses Buches. Wenn der Variantenbestimmungspunkt nahe am Endkunden liegt, ist zu erwägen, die Prognose auf die zweite Stücklistenebene zu begrenzen. 26.5 Kritische Würdigung Durch die kooperative Planung in Netzwerken erschließen sich teilnehmende Betriebe die Möglichkeit, den zukünftigen Bedarf genauer prognostizieren zu können. Die Probleme, die durch die Erweitung des Prognoseobjekts auf den Bedarf des gesamten Netzwerks resultieren, sind häufig dieselben, die auch intern existieren: In erster Linie gilt es, die gelieferten Prognosedaten soweit zu vereinheitlichen und abzustimmen, dass für die Gesamtvorhersage in sich konsistente Einzeldaten vorliegen. Während jedoch innerhalb eines Unternehmens die Vereinheitlichung der oben genannten Parameter relativ problemlos durchzuführen ist, ergeben sich bei übergreifenden Vereinbarungen insbesondere dann Schwierigkeiten, wenn ein Unternehmen in verschiedenen Netzwerken agiert und Prognosefrequenz, -Zeitraum etc. an mehrere Partner anpassen muss. Ein erhöhter Planungsaufwand erscheint häufig unvermeidlich.
500
Mertens, Zeller, Große-Wilde, Lejmi
Die Wahl des verwendeten Prognosealgorithmus ist ebenfalls venA/andt zu internen Problemstellungen. Jedoch zeigt die Praxis, dass hierbei vermehrt auf einfache Verfahren zurückgegriffen wird. Im Hinblick auf die mathematische Komplexität einiger Prognoseverfahren ist dies nahe liegend, da neben treffenden Prognoseergebnissen auch der Plausibilität und Kommunizierbarkeit der Verfahren Bedeutung zukommt.
26.6 Literatur [I] [2] [3] [4] [5] [6] [7]
[8]
[9] [10]
[II] [12] [13] [14] [15] [16] [17]
[18] [19] [20]
Chase, C.W., Measuring Forecast Accuracy, Journal of Business Forecasting 14 (1995) 3, S. 2 und S. 24 f. Chase, C.W., Composite Forecasting: Combining Forecasts For Improved Accuracy, Journal of Business Forecasting 19 (2000) 2, S. 2 ff. DeLurgio, S.A., Forecasting Principles and Applications, Boston 1998. Dickersbach, J.T., Supply Chain Management with APO, Berlin 2004. Dittrich, J., Mertens, P., Hau, M. und Hufgard, A., Dispositionsparameter von SAP R/3PP, 3. Aufl., Braunschweig-Wiesbaden 2003. Dudek, G., Collaborative Planning in Supply Chains. A Negotiation-Based Approach, Berlin 2004. ECR Initiative Deutschland, Managementinformation Collaborative, Planning, Forecasting and Replenishment, http://www.ecr.de/daten/Files/managementpapier__cpfr. pdf, Juli 2001, Abruf am 2004-02-15. Fischer, I. und Harvey, N., Combining Forecasts: What Information Do Judges Need to Outperform the Simple Average? International Journal of Forecasting 15 (1999) 1, S. 227 ff. Fontanella, J., CPFR: Lessons in Collaboration for Any Industry, AMR-Research Alert, 2004-02-03. Fräser, J., CPFR - Status and Perspectives: Key Results of a CPFR Survey in the Consumer Goods Sector and Updates, in: Seifert, D. (Hrsg.), Collaborative Planning, Forecasting and Replenishment - How to create a Supply Chain Advantage, Kevelaer 2002, S. 83 ff. Friedrich, J.-M., Supply-Chain-Management-Software für kleine und mittlere Unternehmen - Lösungsmöglichkeiten mit Componentware, Aachen 2002. Gaynor, P.E. und Kirkpatrick, R.C., Introduction to Time-Series Modeling and Forecasting in Business and Economics, New York 1994. Johnson, M., Transforming B2B Exchanges into Collaborative Trading Communities. White Paper, Syncra Systems, Waltham, MA, 2000. Kahn, K.B., Revisiting Top-Down versus Bottom-Up Forecasting, Journal of Business Forecasting 17 (1998) 2, S. 14 ff. Knolmeyer, G., Mertens, P. und Zeier, A., Supply Chain Management Based on SAP Systems: Order Management in Manufacturing Companies, Berlin 2002. Lee, H. L., Padmanabhan, V. und Whang, S., Der Peitscheneffekt in der Absatzkette, Harvard Business Manager 19 (1997) 4, S. 78 ff. Lejmi, H. und Zeller, A.J., Einsatz des Kooperativen Planens in B2B-Abwicklungsplattformen - Konzept und praktisches Beispiel, FORWIN-Bericht 2002-011, Nürnberg 2002. Lenders, R. und van Zundert, L., Forecast/Demand Planning 2003, White Paper, Cap Gemini Ernst & Young, Utrecht 2002. Meffert, H., Marketing - Grundlagen marktorientierter Unternehmensführung, Konzepte, Instrumente, Praxisbeispiele, 9. Aufl., Wiesbaden 2000. Mertens, P., Integrierte Informationsverarbeitung, Band 1: Operative Systeme in der Industrie, 14. Aufl., Wiesbaden 2004.
Kooperative Vorhersage in Unternehmensnetzwerken [21]
[22]
[23]
[24] [25]
[26] [27]
501
Rohde, J. und Wagner, M., Master Planning, in: Stadtler, H. und Kilger, C. (Hrsg.), Supply Chain Management and Advanced Planning. Concepts, Models, Software and Case Studies, Berlin 2002, S. 143 ff. Seifert, D., CPFR als neuer Strategieansatz, in: Seifert, D. (Hrsg.), Collaborative Planning, Forecasting and Replenishment - ein neues Konzept für state-of-the-art Supply Chain Management, Kevelaer 2002, S. 55 ff. Treeck, S. und Seishoff, M., CPFR in Germany, Austria and Switzerland, in: Seifert, D. (Hrsg.), Collaborative Planning, Forecasting and Replenishment - How to create a Supply Chain Advantage, Kevelaer 2002, S. 144 ff. Triantis, J.E., Collaborative Forecasting: An Intra-Company Perspective, Journal of Business Forecasting 21 (2002) 1, S. 13 ff. Wagner, M., Demand Planning, in: Stadtler, H. und Kilger, C. (Hrsg.), Supply Chain Management and Advanced Planning. Concepts, Models, Software and Case Studies, Berlin 2002, S. 123 ff. Werner, H., Supply Chain Management, Wiesbaden 2000. Zhou, W., Integration Of Different Forecasting Models, Journal of Business Forecasting 18(1999)3, S. 26 ff.
Stichwortverzeichnis A priori Verteilung 471, 476 Abbauende Regression 129 Absatzeinbruch 335 Absatzplanung 143 Absoluter relativer Prognosefehler 478 Abstimmungsbedarf 494 Abstimmungsprozess unternehmensübergreifend 496 Abweichungssignal 137, 346, 357 Accuracy ratio 444 Adaption 336 Adaptive Einflussgrößenkombination (AEK) 125 Adaptive exponentielle Glättung 351, 352 Adaptive Parameteranpassung 343 Adaptives Smoothing 137 Adaptives Verfahren 351 Adaptives Filtern 146 Adaptives Gewichten 125 Adaptivität 346 Additionstheorem 93 Additiver Ausreißer (AO) 337, 338, 344, 355 Advanced Planner & Optimizer (APO) 492 AlC-Kriterium 249 Aktionspreis 410 Alpha-Fehler 439 An-Algorithmus 257 Anfangsschätzung 129 Anpassungsgeschwindigkeit 346 Anpassungsgüte 370, 371 Anpassungsmaßnahmen 498 Anreizkompatibles Abweichungsmaß 445 Anzahlverteilung 80 Arbeitslosenversicherung 455 Arbeitsmarktprogramme 449 ARCH-Modell 336 ARIMA-Modelle 208, 223, 354 ARL (average run length) 349 ARMA-Modelle 223,244 ARMAX-Modelle 250 AR-Prozess 244 Ausfalldominanz 441,442 Ausgleichsrechnung 125 Ausreißer 361 singulare, transiente, permanente 335
Ausreißerdiagnose 343 Ausreißerfehlklassifikation 360 Ausreißerklassifikation 336,340 Ausreißermodellierung 343 Ausreißerstärke 349 Ausreißertypen 337 Ausreißerzeitpunkt 349 Außenseiterereignis 83 Auswahl der besten Maßnahme 454 Auswahl von Prognoseverfahren 367, 394 Auswahlprozess 449 Auswahlsystem 309 Autokorrelationssignal 347,348 Automatisches Modellsuchverfahren 360 Automatische Prognose 393 Automatisches Prognosesystem 391 Automatisches Diagnoseverfahren 340 Autoregressive Filter 427
B Backward CUSUM 347, 348 Bass-Modell erweitertes 191 generalisiertes 184 Grundmodell 178 Bayes-Faktoren 353 Bayesian Forecast 146 Bayesianische dynamische lineare Modelle 340,351,353 Bedarf konstanter 70 regelmäßiger 61 sporadischer 61 unregelmäßiger 62 Bedingte Prognose 250 BehaviorScan 199 Bekanntheitsgrad 172 Benchmark 375,378 Bertalanffy-Funktion 183 Bestelldisposition 155 Bestimmtheitsmaß 380, 411 Beta-Fehler 439 Betriebswirtschaftliche Entscheidungsfunktion 384 Beurteilende Prognosemethoden 367 Bewertungsmatrix 301
504
Stichwortverzeichnis
BIC-Kriterium 249 Binomialmodell 463 312 Biologische Intelligenz Boltzmannmaschine 316 Bonferron i-Korrektu r 385 Bonus-Modell 188 Bottom-up-Planung 494 Box-Jenkins-iVIodelle 146, 335, 337, 344, 354,398 Brier-Maß 445 Brier-Score (BS) 381,445 Brown-Verfahren 29, 125 Budgetplanung 423 Bullwhip-Effekt 489
C 437 Capital Asset Pricing Model Capture-Recapture-Modell 481 137 CAS FSM Case-Based Reasoning 319 CE 383 Chow-Verfaiiren 146 Cochran-Satz 93,99 Collaborative Planning, Forecasting and Replenishment (CPFR) 489 137 COPICS Crossover 323 Cross-Selling 431 Cross-Selling-Potenzial 435 CumRAE 379 443 Cumulated accuracy profile CUSUM 346, 348
D DAF Data-Snooping-Test Datenanalyse Datenbanken Datenexploration Datengenerierungsprozess Datenquellen Datenstutzung Datensubstitution Daumenregeln Deckungsbeitragsrechnung Deckungsbeitragssatz Delphi-Methode Demand Planning
145 385 9 397 340 354 9 343 343 310 434 431 398 419
307 Dempster-Shafer-Logik Deterministisch-stochastische Prognose 73 356 Diagnosetechniken 349 Diagnosezeitpunkt Dichteprognose 335 , 368, 386 341 Dickey-Fuller-Test Diebold-Mariano-Test (DM-Test) 384, 390 Diffusionsverlauf 169, 183^,191,201 137 DIOS DIS1,DIS1/L 151 156 DIS 2, DIS 2/L Diskontfaktor 351 Diskriminanzanalyse 321 Disponentenprognose 143 Distribution gewichtet 410 Double Exponential Smoothing 29 DOUBTS-Verfahren Drei-Parameter-Modell mit Fehlerdifferenzausdruck Durchschnitt exponentiell gewogener gewogener gleitender gleitender Durchschnittliche Lauflänge Durchschnittsalter von Daten Durchschnittsrang Dynamische Prognosesimulation Dynamisches Lernen Dynamisches Vorhersagemodell
39 36 18 18 16 348 24 370 372, 379 336 67
E Eingriffsmöglichkeiten Einkaufsstättenwahl Einkommenswachstum Encompassing Endogener Prozess Entwicklungspotenzial Ereignisindizes Ereignisprognose Error-Backpropagation Ersatzbedarf Erstkäufe Erwartungstreue Prognosen Erzeugende Funktion Evaluation Evaluationsmaß Ex ante Prognose
8 414 188, 190 388,389
368,
93,
368, 125,
170 435 344 381 312 193 185 127 284 340 369 371
Stichwortverzeichnis 370 ,371 Ex post Evaluation Ex post Prognose 125,212 ,370 137 ,157 EXFOR Exogener Prozess 170 Expertensystenn 211, 387, 389, 393 ,449 Expertenwissen 306 ,311 Exponential Smoothing 18 Exponentielle Funl