Knut Hildebrand | Marcus Gebauer | Holger Hinrichs | Michael Mielke (Hrsg.) Daten- und Informationsqualität
Aus dem Programm
IT
IT-Management mit ITIL® V3 von Rolf Buchsein, Frank Victor, Holger Günther und Volker Machmeier Unternehmensweites Datenmanagement von Rolf Dippold, Andreas Meier, Walter Schnider und Klaus Schwinn Kommunikationssysteme mit Strategie von Peter Fidrich IT-Offshore realisieren von Andreas Gadatsch Elektronische Signaturen in modernen Geschäftsprozessen von Volker Gruhn, Vincent Wolff-Marting, André Köhler, Christian Haase und Torsten Kresse Führen von IT-Service-Unternehmen von Kay P. Hradilak IT-Sicherheit mit System von Klaus-Rainer Müller Trusted Computing herausgegeben von Norbert Pohlmann und Helmut Reimer Praxis des IT-Rechts von Horst Speichert Optimiertes IT-Management mit ITIL von Frank Victor und Holger Günther
www.viewegteubner.de
Knut Hildebrand | Marcus Gebauer | Holger Hinrichs | Michael Mielke (Hrsg.)
Daten- und Informationsqualität Auf dem Weg zur Information Excellence Mit 108 Abbildungen PRAXIS
Bibliografische Information Der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über abrufbar.
Das in diesem Werk enthaltene Programm-Material ist mit keiner Verpflichtung oder Garantie irgendeiner Art verbunden. Der Autor übernimmt infolgedessen keine Verantwortung und wird keine daraus folgende oder sonstige Haftung übernehmen, die auf irgendeine Art aus der Benutzung dieses Programm-Materials oder Teilen davon entsteht. Höchste inhaltliche und technische Qualität unserer Produkte ist unser Ziel. Bei der Produktion und Auslieferung unserer Bücher wollen wir die Umwelt schonen: Dieses Buch ist auf säurefreiem und chlorfrei gebleichtem Papier gedruckt. Die Einschweißfolie besteht aus Polyäthylen und damit aus organischen Grundstoffen, die weder bei der Herstellung noch bei der Verbrennung Schadstoffe freisetzen.
1. Auflage 2008 Alle Rechte vorbehalten © Vieweg +Teubner Verlag | GWV Fachverlage GmbH, Wiesbaden 2008 Lektorat: Sybille Thelen | Andrea Broßler Der Vieweg +Teubner Verlag ist ein Unternehmen von Springer Science+Business Media. www.viewegteubner.de Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlags unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Umschlaggestaltung: KünkelLopka Medienentwicklung, Heidelberg Druck und buchbinderische Verarbeitung: Wilhelm & Adam, Heusenstamm Gedruckt auf säurefreiem und chlorfrei gebleichtem Papier. Printed in Germany ISBN 978-3-8348-0321-4
Editorial Editorial
Daten- und Informationsqualität ist im Zeitalter des Internet und der Informationsgesellschaft zunehmend ein entscheidender Faktor für den Erfolg eines Unternehmens. Dabei ist zu beobachten, dass Unternehmen trotz steigender Verfügbarkeit von Informationen nicht unbedingt bessere Entscheidungen treffen. Plakativ ausgedrückt: "Wenn unsere Autos die gleiche Qualität wie unsere Daten hätten, kämen die meisten nicht einmal aus der Garage." Die Beobachtung erfolgreicher Unternehmen hat gezeigt, dass der Erfolg maßgeblich vom Vertrauen der Führungskräfte in die Glaubwürdigkeit der zur Verfügung stehenden Informationen abhängt. Erfolgreiche Unternehmen entwickeln daher ihre Business Excellence zunehmend zu einer Business Information Excellence weiter. Obwohl seit Anfang der 1990er Jahre intensiv am Thema Management der Datenund Informationsqualität – IQM (Information Quality Management) – geforscht wird, ist es immer noch eine junge Disziplin. Eine Vielzahl von Publikationen, auch zu angrenzenden Themengebieten, ist bereits erschienen, vornehmlich in englischer Sprache. Erst Anfang des 21. Jahrhunderts findet das Thema mehr Beachtung im deutschen Sprachraum. Den Auftakt bildete 2002 die Entwicklung der IQ-Zertifikatskurse von Mielke und Wang, dann 2003 die erste deutsche IQMKonferenz unter Mitwirkung von Richard Wang gefolgt von offenen Round-TableMeetings, IQ-Best Practice Day, IQ-Contest, IQ-Challenge u. v. a. m. bis zur Geburtshilfe von IQM-Communities in Europa, Nord- und Südamerika und Australien / Ozeanien. Darin erkennen Sie die Bedeutung, die die deutsche IQMGemeinschaft – organisiert in der DGIQ (Deutsche Gesellschaft für Informationsund Datenqualität e.V.) – für die Entwicklung des Themas Informationsqualität mittlerweile international hat. Die Herausgeber und Autoren des vorliegenden Buches befassen sich seit vielen Jahren mit dem Thema und tragen mit ihrem Engagement zu einer lebendigen IQM-Gemeinschaft bei, die spätestens mit der ersten deutschen IQM-Konferenz im Jahr 2003 ihren Start hatte. Seitdem sind viele unserer Kollegen mit dem Wunsch nach einem deutschsprachigen Buch an uns herangetreten. Hierbei sollte der Schwerpunkt vor allem auf 'What Works', also dem Machbaren liegen, um allen Interessierten den Einstieg in das Thema Daten- und Informationsqualität so leicht
V
Editorial wie möglich zu machen. Allerdings wollten wir dabei nicht unsere Wurzeln vernachlässigen, die bei den Forschungsarbeiten von Prof. Richard Wang vom Massachusetts Institute of Technology (Cambridge, USA) liegen. So finden sich neben den Praxis-Kapiteln auch Beiträge, in denen die Grundlagenforschung im Mittelpunkt steht. Das Ergebnis unserer Bemühungen halten Sie in Ihren Händen. Gehen Sie mit uns auf eine spannende Reise durch Grundlagen, Methoden und Praxisbeispiele aus dem Themenfeld der Daten- und Informationsqualität. Die Herausgeber
Knut Hildebrand, Marcus Gebauer, Holger Hinrichs, Michael Mielke
VI
Editorial
Danksagung Dank gebührt natürlich unseren vielen Co-Autoren, die mit ihrer weitreichenden Erfahrung nicht nur die IQM-Gemeinschaft bereichern, sondern nun auch dieses Buch ermöglicht haben. Allerdings wäre nichts möglich gewesen, wenn nicht unsere Familien geduldig auch dieses Projekt mitgetragen hätten. Sie müssen uns ohnehin schon mit häufig einnehmenden Arbeitgebern teilen. Die Leidenschaft für das Thema Daten- und Informationsqualität erfordert dann nur noch um so mehr Verständnis. Danke an Euch alle. Knut Hildebrand sei an dieser Stelle ein besonderer Dank ausgesprochen. Ohne sein Antreiben wäre dieses Buch nicht möglich gewesen.
Grußwort Prof. Richard Wang It is a great honor and privilege to be part of the German monograph “ Daten- und Informationsqualität “. This compendium for German readers is a rigorous introduction to information quality (IQ). When Michael Mielke invited me to write this preface, I accepted without reservation. The field of Information Quality has witnessed significant advances over the past two decades. In 1988, Professors Stuart Madnick and Richard Wang at the Massachusetts Institute of Technology pioneered the Total Data Quality Management (TDQM) program, beginning a journey of research publications with key TDQM members such as Professors Yang Lee, Leo Pipino, and Diane Strong. An applied, multi-disciplinary field such as Information Quality demands interaction and collaboration between practitioners and researchers. As such, in 1996, the MIT TDQM program organized the first International Conference on Information Quality (ICIQ) to encourage the exchange of research ideas and results between researchers and practitioners. In 2002, the MIT Information Quality Program was established by the Center for Technology, Policy, and Industrial Development to conduct research on all aspects of Information Quality, such as managing information as a product, developing information product maps, and adopting information quality practices in organizations. In 2007, the MIT Information Quality Program launched the first Industry Symposium to further interactions and collaborations among practitioners, vendors, and academicians. In addition to presentations and workshops, the Symposium also includes vendor presentations, product announcements, and consultancy methods to complement the annual ICIQ conference.
VII
Editorial Over the years, the MIT efforts have spawned many conferences, workshops and communities, such as the SIGMOD workshops on Information Quality in Information Systems, the CAiSE workshop on Data and Information Quality, and the German Society for Information and Data Quality that organizes regular conferences, workshops and roundtable meetings. Today, researchers and practitioners have moved beyond establishing Information Quality as a field to resolving IQ problems, which range from defining, measuring, analyzing, and improving IQ to developing tools, methods, and processes for improving the quality of information. As a result, numerous IQ resources are now available for the reader to use. In the industry, vendors such as Acxiom, A.I.D. (France), Deloitte Consulting, EDS, FAST, Firstlogic, FUZZY! Informatik AG (Germany), IBM, Informatica, SAS and Serasa S.A. (Brazil) are actively promoting information quality. We as a community can be proud of what we have accomplished. I want to commend Michael Mielke and Marcus Gebauer for outstanding contributions to the Information Quality Community over the last decade. This first German book that includes “Information Quality” in its title will attract German MIS and IT academics, students, and industry people to information quality. Richard Y. Wang Cambridge, Massachusetts, USA
[email protected] http://mitiq.mit.edu
VIII
Inhaltsverzeichnis Inhaltsverzeichnis
A Informationsqualität – Grundlagen ..........................................................................1 1 Was wissen wir über Information?...............................................................................3 Florian Engelmann, Christoph Großmann 2 Informationsqualität – Definitionen, Dimensionen und Begriffe...........................25 Jan P. Rohweder, Gerhard Kasten, Dirk Malzahn, Andrea Piro, Joachim Schmid
B Methoden – Techniken – Tools – Regelwerke/Standards....................................47 1 Datenqualitätsmetriken für ein ökonomisch orientiertes Qualitätsmanagement 49 Bernd Heinrich, Mathias Klier 2 Datenqualitätsmanagement – Steigerung der Datenqualität mit Methode ..........68 Niels Weigel 3 Strukturierte Datenanalyse, Profiling und Geschäftsregeln ...................................88 Marcus Gebauer, Ulrich Windheuser 4 Datenbereinigung zielgerichtet eingesetzt zur Datenqualitätssteigerung ..........102 Marcus Zwirner 5 Datenintegration und Deduplizierung ....................................................................123 Jens Bleiholder, Joachim Schmid 6 Definition von Datenarten zur konsistenten Kommunikation im Unternehmen ...................................................................................................................143 Andrea Piro, Marcus Gebauer 7 Suchmaschinen und Informationsqualität: Status quo, Problemfelder, Entwicklungstendenzen.................................................................................................157 Christian Maaß, Gernot Gräfe 8 Bedeutung der Informationsqualität bei Kaufentscheidungen im Internet........172 Gernot Gräfe, Christian Maaß 9 Datenqualitäts-Audits in Projekten ..........................................................................198 Marcus Gebauer, Michael Mielke
IX
Inhaltsverzeichnis
C Organisation .............................................................................................................. 215 1 Organisatorische Ansiedlung eines Datenqualitätsmanagements ...................... 217 Jens Lüssem 2 Organisatorische Maßnahmen für gute Datenqualität ......................................... 229 Jürg Wolf 3 Informationsmanagementprozesse im Unternehmen........................................... 248 Klaus Schwinn 4 Data Governance ........................................................................................................ 265 Boris Otto, Kristin Wende 5 IQM-Reifegradmodell für die Bewertung und Verbesserung des Information Lifecycle Management Prozesses........................................................... 284 Saša Baškarada, Markus Gebauer, Andy Koronios, Jing Gao
D Praxisbeispiele.......................................................................................................... 297 1 Ein Entscheidungsmodell zur Weitergabe persönlicher Daten im Internet....... 299 Horst Treiblmaier 2 Einführung eines proaktiven DQ-Managements................................................... 313 Volker Landt 3 Informationsqualität für das Management mit TOPAS® ...................................... 330 Otto-Ernst Brust, Frank Möller, Werner Skrablies 4 Datenqualitäts-Modell der Volkswagen Financial Services AG .......................... 350 Helena Moser 5 Verknüpfung von DQ-Indikatoren mit KPIs und Auswirkungen auf das Return on Investment....................................................................................... 368 Frank Block Über die Autorinnen und Autoren .............................................................................. 391 Stichwortverzeichnis...................................................................................................... 409
X
A Informationsqualität – Grundlagen
1 Was wissen wir über Information? Florian Engelmann, Christoph Großmann
1.1 Einleitung Der Begriff Information stammt aus dem Lateinischen. Von der Antike bis in das 20. Jahrhundert war Information ein kaum verwendetes und unspektakuläres Wort. ZEMANEK belegt diese Hypothese mit dem Verweis auf ein Häufigkeitswörterbuch der deutschen Sprache aus dem Jahre 1897. Dort kommt in ca. 11 Millionen Wörten nur 55 mal das Wort Information vor [Zemanek 1986, S. 19]. Mit Sicherheit kann man behaupten, dass der Informationsbegriff heute sowohl in der Alltagssprache als auch in der Wissenschaftssprache häufig Verwendung findet. Leben wir nicht im Informationszeitalter bzw. in einer Informationsgesellschaft? Könnte also der Information die Eigenschaft eines fächervereinenden, interdisziplinären Begriffs zukommen? Während in der Umgangssprache Unschärfen der Normalfall sind, muss ein wissenschaftliches Begriffssystem möglichst präzise sein. In der betriebswirtschaftlichen Literatur spricht man von Information als Schlüsselgröße [Grochla & Wittmann, 1993, S. 1725ff.], Schlüsselbegriff [Lehner & Maier, S. 1], kritischer Erfolgsfaktor im Wettbewerb [Pietsch et al. 2004, S. 17] oder als Produktions- und Wettbewerbsfaktor [Ziegenbein 2004, S. 21]. Je mehr wirtschaftswissenschaftliche Definitionen man aber überprüft, umso mehr Vorschläge erhält man. Häufig verwenden Autoren Theorien aus ganz anderen Wissenschaftszweigen, definieren Information für eigene Zwecke neu oder lassen Information einfach undefiniert. In der Wirtschaftswissenschaft verfolgt man bestimmte Zielsetzungen mit Information, wie eine exemplarische Aufzählung wichtiger Perspektiven zeigt: -
produktionswirtschaftliche Sicht (Information als Produktionsfaktor, Zwischen- oder Endprodukt)
-
entscheidungstheoretische Sicht (Information zur Vorbereitung von Entscheidungen und Handlungen)
-
strategische Sicht (exklusiver Gebrauch von Information um einen Vorsprung zu erlangen)
-
Sicht der neuen Institutionenökonomie (berücksichtigt u.a. asymmetrische Informationen, veränderbares Wissen, beschränkte Rationalität und Opportunismus).
3
A Informationsqualität – Grundlagen Es gibt also einen latenten Widerspruch in den Anforderungen, wenn ein Begriff universell und präzise zu gleich sein müsste. Falls Information aber unbestimmt oder mehrdeutig sein sollte, welches Ziel wird dann im Rahmen eines Informationsqualitätsmanagements verfolgt? Dies bedarf einer Klärung. Vor dem Hintergrund einer solchen Problematik gibt es mehrere Versuche, innerhalb der Betriebswirtschaftslehre den Begriff allgemeingültig zu fassen. Beispielsweise hat BODE eine Typologie entwickelt, um die unterschiedlichen Ansätze zu strukturieren. Hierzu betrachtet er fünf Dimensionen: Tabelle 1: Typologie der Informationsbegriffe in Anlehnung an BODE [Bode 1997, S. 452] Dimensionen
Ausprägungen
Semiotik
syntaktisch
semantisch
pragmatisch
Träger
ungebunden
menschengebunden
Neuheitsgrad
subjektiv
objektiv
Wahrheitsgehalt
wahrheitsabhängig
wahrheitsunabhängig
Zeitbezogenheit
statisch
prozessual
Analysiert man BODEs Vorschlag, dann stellt sich die Frage, ob er mit seinen Dimensionen eine Grundlage für einen allgemeingültigen Informationsbegriff geschaffen hat. Das es wesentlich genauer geht, zeigen die 16 Dimensionen der Informationsqualität. Ein wissenschaftliches oder praktisches Problem folgt aus unterschiedlichen Definitionen von Information zunächst nicht, obwohl überschneidende Definitionen zu Kommunikationsproblemen führen können. Eine interdisziplinäre Zusammenarbeit ist momentan also nur schwer möglich. Genauer betrachtet haben die Differenzen tiefergehende Ursachen und sind methodischer Natur, weil aktuelle Problemstellungen ein fächerübergreifendes Verständnis verlangen, kollidieren ganz unterschiedliche wissenschaftliche Methoden. Nach einer Grundlegung über Information und Informationsmanagement sollen hier eine quantitative Methode (Kap. 4) aus der Nachrichtentechnik, eine modelltheoretische Betrachtung (Kap. 5) aus der Informatik und eine klassifikatorische Methode (Kap. 6) aus der Betriebswirtschaftslehre im Zusammenhang mit Information vorgestellt werden.
4
1 Was wissen wir über Information?
Abbildung 1: Information interdisziplinär analysiert [Steinmüller 1993, S. 224]
1.2 Grundlegung Eine weitverbreitete Vorstellung über den Aufbau von Information zeigt die Informations- oder Wissenspyramide. Dieses deskriptive Modell verwendet aufeinander aufbauende Ebenen. Information ist das mit Bedeutung versehene Datum. Nach dieser Auffassung lässt sich die höhere Ebene somit auf die Bestandteile der unteren Ebenen der Daten oder Zeichen reduzieren.
Abbildung 2: Wissenspyramide [Forst 1999, S. 1]
5
A Informationsqualität – Grundlagen Die Pyramide verschweigt aber ein Problem, das vor allem im Bereich der Kennzahleninterpretation bekannt ist: Wie kann einem Datum eine allgemeingültige Bedeutung von einem Sender zugewiesen werden? Und wenn das geschehen ist, wie kann dann diese Bedeutung von allen Empfängern gleichermaßen verstanden werden? Dies wäre nur dann eindeutig möglich, wenn die Information vorher allen bekannt ist. Das ist offensichtlich paradox, da der Zugang der Information im einen Fall keine Neuigkeit liefert und im anderen Fall nicht verständlich ist. Weiter wird in der Pyramide der qualitative Unterschied zwischen speicherbaren Daten und verstandenen Informationen bzw. Wissen nicht deutlich. Während die Zeichen oder Daten auf einem materiellem Träger eindeutig verifiziert werden können, ist es zumindest in der Wissenschaft strittig, ob im Gehirn äquivalente Prozesse bei der “Speicherung” ablaufen. Die neuere Gehirnforschung zeigt nämlich, dass das Gehirn einem Computer überhaupt nicht ähnlich ist [Brodbeck 2007]. Folglich ist zumindest die höchste Ebene “Wissen” nicht auf ein abgespeichertes Konglomerat von Zeichen, Daten oder Informationen reduzierbar. In der klassischen Zeichenlehre wird dieser qualitative Unterschied zwischen “Träger” und “Getragenem” klarer herausgearbeitet. An diesen beiden elementaren Kategorien jeder Information werden die Kernprobleme deutlich, die durch die Wissenspyramide nicht erfasst worden sind:
Abbildung 3: Analyse von Information in Anlehnung an Völz [Völz 1983, S. 228]
Unter “Träger” versteht man die materielle Gestalt der Information und das “Getragene” ist etwas immaterielles, das mit den Gedanken eines Menschen zu tun hat. Dies bedeutet jedoch, dass an einer Stelle der Wissenspyramide ein Übergang zu einem grundlegend anderem Verarbeitungssystem stattfinden muss. Ein handlungsbezogenes Modell von Information muss Hintergrundinformation, vor allem über den Akteur und dessen Ziele mit einschließen. Den Betriebswirt interessieren primär die Zielsetzungen, während sich ein Informatiker wohl zuerst mit Codierungsaspekten beschäftigt. Ein Informationsmodell das beide Anforderungen integriert und den prozessualen Charakter von Information betont, sieht wie folgt aus:
6
1 Was wissen wir über Information?
Abbildung 4: Modell der Informationsübertragung [Gitt 2002, S. 144]
1.3 Information im Wissens- und Informationsmanagement Information als zweckorientiertes Wissen hat in der Betriebswirtschaftslehre schon immer eine wichtige Rolle gespielt [Wittmann 1959, S. 14]. Mit den gestiegenen technischen Möglichkeiten wächst aber auch der Koordinationsbedarf für die Beschaffung, Verarbeitung, Übertragung, Speicherung und Bereitstellung von Informationen. Kurz gesagt: Man benötigt ein unternehmsweites Informationsmanagement, weil das Wissen in den Köpfen mehr als die Summe der gespeicherten Daten ist, kann man das Wissensmanagement als eine Erweiterung des Informationsmanagements ansehen. Die Anforderungen einer wissensorientierten Unternehmensführung weichen aber konzeptionell nicht weit von denen eines informationsorientierten Managements ab. Nach Meinung von NORTH handelt es sich bei Informationen um einen Rohstoff für Wissen. Wissen wird quasi aus Informationen “generiert” und “entsteht als Ergebnis der Verarbeitung von Informationen durch das Bewußtsein” [North 2005, S. 33]. Die Erweiterung auf Wissen bedeutet zunächst nur eine Vergrößerung des Gegenstandsbereiches. Wenn der Kern erhalten bleibt, dann sind in beiden Fällen die Anforderungen ähnlich. Im Zentrum beider Konzepte steht zukünftig nicht mehr die Informationstechnologie, sondern das Benutzen der Technologien, um das Wissen der Mitarbeiter zu erweitern. Fundamental ist vor allem die Funktion von Information als verbindendes Kommunikationsinstrument in kollegialen Netzwerken. So verstanden geht es nicht mehr um einen exklusiven Zugriff auf Informationen, sondern um die Frage der effizienten und effektiven Kommunikation untereinan-
7
A Informationsqualität – Grundlagen der. Die strategischen Ziele fokussieren die praktischen Handlungen, die bei gekonnter Umsetzung der Ressource Wissen zu strategischen Wettbewerbsvorteilen führen.
Abbildung 5: Wissenstreppe [North 2005, S. 32]
Idealtypische Konzepte des Informationsmanagements arbeiten unter anderem mit der Annahme, dass es optimale und berechenbare Lösungen für Informationsprobleme gibt. Unter diesen Bedingungen lässt sich ein objektiver Informationsbedarf a priori formulieren. Dieser wird jedoch niemals vom Benutzer (subjektiver Informationsnachfrage) genau nachgefragt, noch vom Betreiber des Informationsangebots exakt zur Verfügung gestellt. Der objektive Informationsstand vor Beginn einer Handlung ergibt sich als Schnittmenge aus allen drei Mengen. Diesen Stand zu optimieren, ist die Aufgabe des Informationsmanagements.
8
1 Was wissen wir über Information?
Abbildung 6: Analyse des Informationsstandes [Picot et al. 2003, S. 82]
Die Ziele der betrieblichen Informationswirtschaft lassen sich wie folgt zusammenfassen [Krcmar 2005, S. 51]: -
Ausgleich von Informationsnachfrage und Informationsangebot, Versorgung der Entscheidungsträger mit relevanten Informationen, Gewährleistung einer hohen Informationsqualität, Dokumentation von Willensbildungs- und Willensdurchsetzungsprozess, Gestaltung der Informationswirtschaft als Querschnittsfunktion des Unternehmens, Einsatz von Informationstechnologie zur Unterstützung der informationswirtschaftlichen Aufgabenerfüllung, zeitliche Optimierung der Informationsflüsse, Beachtung des Wirtschaftlichkeitsprinzips.
9
A Informationsqualität – Grundlagen
Für die Zweckeignung von Information gibt es unterschiedliche Klassifikationen, die sich jedoch ähnlich sind. Exemplarisch gibt ESCHENRÖDER folgende Kriterien an:
Abbildung 7: Einflussfaktoren einer Zweckeignung von Information [Eschenröder 1985, S. 49]
Für betriebswirtschaftliche Überlegungen ist also ein erweiterter Informationsbegriff notwendig, der eine Vielzahl von Anforderungen erfüllen muss, die im Bereich der Semantik und Pragmatik liegen. Eine Quantifizierung dieser Aspekte ist jedoch mit erheblichen Schwierigkeiten behaftet. WEIZÄCKER spricht von Quantifizierungsgrenzen, weil sich die Bedeutung und Wirkung von Information nur in Bezug auf eine Situtation und zeitlich erst nach erfolgter Information feststellen lässt. “Lediglich in den Fällen, wo öfter gleiche Situationen durch gleiche Informationen beeinflußt werden, läßt sich im voraus und >>objektiver
konstruiert wurde,
>
die Realität reduziert,
>
einen spezifischen Blickwinkel einnimmt,
>
zweck- und wertrelativ ist,
>
Zeit und Raum gebunden ist.
Systeme sind keine Abbilder, sondern das Ergebnis einer gefilterten Verarbeitung: >
Filter der Sinne,
>
Filter der Bedürfnisse,
>
Filter der Sprache,
>
Filter der Erfahrungen, Interessen, Intentionen und Erwartungen.
Nach STEINMÜLLER muss die klassische Systemtheorie also um zusätzliche Aspekte ergänzt werden. Unter Einbezug des Menschen bedeutet dies: “System ist eine von einem Subjekt nach einem Zweck ausgewählte Menge von Elementen und Relationen” [Steinmüller 1993, S. 165]. Während System etwas statisches beschreibt, hebt der Prozess den dynamischen Aspekt hervor. So gesehen sind System- und Prozesstheorie miteinander kombinierbar und das oben Ausgeführte gilt analog für den Prozess. STEINMÜLLER hebt bei der Analyse des Prozesses den perspektivischen Gesichtspunkt hervor: “Prozeß ist Betrachterkonstituiert, Aspekt-bezogen, Zweck-spezifisch und Ort-Zeit gebunden...” [Steinmüller 1993, S. 176].
1.5.2 Information als allgemeines Modell Das Modell ist nach STEINMÜLLER das Bindeglied zwischen Information und System. Seine verbindende Funktion begründet sich wie folgt [Steinmüller 1993, S. 178]: “Man schafft vereinfachte Modelle über andere (materielle oder ideelle) Systeme, um mit ihnen etwas zu machen, was mit dem Original zu tun (jetzt oder überhaupt) unmöglich, verboten, zu aufwendig oder unzweckmäßig ist” [Steinmüller 1993, S. 178]. Das Modell ist also bereits ein Metasystem. Interpretiert man den Modellbegriff systemtheoretisch, dann kommt man zu dem Ergebnis, dass das “Modell-System” stets ein “Modell-wovon-wozu-für wen” ist [Steinmüller 1993, S. 179f.]. Formal kann man vier Elemente mit vier Relationen vorfinden:
15
A Informationsqualität – Grundlagen x
das modellerzeugende oder –benützende Subjekt (S),
x
das für ihn “abbildende” Modellobjekt (M),
x
das repräsentierte Original (O),
x
den möglicherweise beeinflussten Adressaten (A)
Abbildung 10: Information ist ein “Modell-wovon-wozu-für wen” [Steinmüller 1993, S. 199]
1.5.3 Modell eines Informationssystems unter Einbezug der Semiotik Die vorhergehenden Darstellungen haben deutlich gemacht, dass für STEINMÜLLER jedes ideelle Modell in einem gewissen Sinne Information sein kann. Es ist aber auch erklärt worden, dass diese Information nur in einem Kontext verstehbar wird. Alle Teile zusammen bilden deshalb ein Bezugssystem, das man wiederum als Informationssystem auffassen kann. Elemente des Informationssystems: (E1)
Informationssubjekt Si (informationserzeugend oder –nutzend)
(E2)
Informationsmodell Mi (abbildend)
(E3)
Informationsoriginal Oi (abgebildet)
(E4)
Informationsadressat Ai (soll beeinflusst werden)
Relationen des Informationssystems:
16
(R1)
Informationsrelation w -> Informationssubjekt bildet eine Struktur aus Informationsoriginal heraus –> (S-w-O)i
(R2)
Informationsvermittlungsrelation m -> Informationssubjekt verfügt über eine Information -> (S-m-I)i)
1 Was wissen wir über Information? (R3)
Informationsrelation a -> Abbildungsfunktion eines Objektes -> (M-a-O)i
(R4)
Beeinflussungsrelation z -> Informationssubjekt will den Adressaten beeinflussen -> (S-z-A)i
Nebenrelationen des Informationssystems: (N1)
Informationsbeziehung t -> Beziehung des Adressaten zur Wirklichkeit
(N2)
Informationsbeziehung e -> Beziehung des Adressaten zum Modell
Abbildung 11: Informationssysteme nach STEINMÜLLER [Steinmüller 1993, S. 194]
Es besteht also eine unauflösliche Subjekt-Objekt-Beziehung, dessen Verbindungsglied die modelltheoretische Information darstellt. Jeder Informationsbegriff, der diese Relationen nicht beachtet, wäre also ein verkümmerter [Steinmüller 1993, S. 194f.]. Um das modelltheoretische Informationssystem weiter zu generalisieren, bietet es sich an, die bekannten vier Aspekte der Semiotik einzubauen und zu unterscheiden. STEINMÜLLER erläutert die Aspekte wie folgt : x
der syntaktische Aspekt klärt die formale Beziehung im Informationssystem und zum Umsystem,
x
der semantische Aspekt bestimmt die Bedeutung und Benennung der Information,
17
A Informationsqualität – Grundlagen x
der pragmatische Aspekt stellt die Beziehung des Betrachters, Erzeugers, Verwenders bzw. Adressaten zur Information dar,
x
der sigmatische Aspekt bildet die Existenz-, Raum- und Zeitbeziehung der Information und des Informationssystems zur Wirklichkeit ab.
Abbildung 12: Semiotisches Kreuz und Informationsmodell [Steinmüller 1993, S. 205]
1.5.4 Fazit STEINMÜLLERs Modell stellt die Verbindung zwischen sozialen und technischen Aspekten her. Im Gegensatz zum quantitativen Informationsbegriff eignet sich das modelltheoretische Verständnis also zur Konstruktion von Informationssystemen, die eine soziale Realität abbilden sollen. Es wurde gezeigt, dass die semiotischen Dimensionen integriert werden können. Allerdings ist das Konzept von STEINMÜLLER nicht in der Lage, Aussagen über die Wahrheit oder Falschheit dieser konstruierten Informationen zu machen. Abbilder können immer auch falsch sein. Es bleibt unklar, wie Fehler überprüft werden können.
18
1 Was wissen wir über Information?
1.6 Information als Produktionsfaktor 1.6.1 Perspektive der Produktionstheorie Produktionsfaktorsysteme haben das Ziel, den Verlauf der Produktion bis hin zum Produktionsergebnis abzubilden. Dabei kommt es vor allem darauf an, zu klären, wie die Einsatzfaktoren zu kombinieren sind, damit ein optimales Produktionsergebnis erreicht werden kann. SEIDENBERG beschreibt dies ähnlich: “Wesentlicher Zweck von Faktorsystemen ist regelmäßig die Trennung bzw. Zusammenfassung der Faktoren unter dem Aspekt der Notwendigkeit oder auch Vorteilhaftigkeit einer getrennten bzw. gemeinsamen produktions- und kostentheoretischen Analyse” [Seidenberg 1998, S. 13]. Besonders bei neueren Produktionsfaktorsystemen wird man mit dem Begriff der Information konfrontiert. Produktionsfaktorsysteme stammen aus der klassischen Volkswirtschaftslehre. In diesen wurde zwischen den Faktoren Arbeit, Boden und Kapital unterschieden. Später passte man die bestehenden Systeme für die Betriebswirtschaftslehre an. Das grundlegende Faktorsystem der Betriebswirtschaftslehre stammt von GUTENBERG. In diesem wird zwischen den Elementarfaktoren (menschliche Arbeit, Betriebsmittel und Werkstoffe) und den dispositiven Faktoren unterschieden [Gutenberg 1951, S. 2ff.]. Aufbauend auf dieser Unterteilung wurden in der Folgezeit Produktionsfaktorsysteme unterschiedlich erweitert und klassifiziert. Explizit wird der Faktor Information nur von einigen Systemen mit einbezogen. Die Forschung konzentriert sich auf die industrielle Produktion. Dort haben Informationen natürlich auch eine besonderer Bedeutung. Sie werden aber nicht von allen Autoren als eigenständiger Faktor gesehen. Ein Autor der in Information einen eigenständigen Faktor sieht ist KERN. Er unterscheidet bspw. in seinem industriellen Produktionsfaktorsystem zwischen den Faktoren menschliche Arbeitsleistung, Betriebsmittel, Objektfaktoren, Zusatzfaktoren und Informationen [Kern 1992, S. 16ff.]. Die aufgestellten Klassen lassen sich wie folgt zuordnen. Menschliche Arbeit und Betriebsmittel i.e.S. gehören zu den Potentialfaktoren. Beide sind Nutzungsobjekte, die sich im Produktionsprozess nicht oder nicht wesentlich durch Verschleiß oder Abnutzung verändern. Weiter zu nennen sind die Verbrauchsfaktoren, wie Betriebsmittel zum Verbrauch, Objektfaktoren und Zusatzfaktoren. Die Verbrauchsfaktoren - auch Repetierfaktoren genannt - ändern ihre Qualität im Produktionsprozess. Sie gehen entweder direkt in ein Hauptprodukt ein, sind wesentlicher Bestandteil als Rohstoff in der Produktion oder werden indirekt als Betriebsstoffe verwendet. Die bisherigen Überlegungen zeigen, dass Information als eigenständige Klasse weder den Verbrauchs- noch den Potentialfaktoren eindeutig zugeordnet werden kann. Es stellt sich nun die Frage, ob Information eine eigene Faktorklasse begründen sollte. In der Literatur findet man dazu keine eindeutige Antwort. Es scheint –
19
A Informationsqualität – Grundlagen wenn überhaupt - nur schwer möglich zu sein, allgemeine Eigenschaften für Information zu beschreiben. SEIDENBERG kommt zu dem Ergebnis, dass Information kein eigenständiger Produktionsfaktor sein kann. Entsprechend seinem Anforderungskatalog an Produktionsfaktoren kann eine separate Klasse Information nicht gerechtfertigt werden [ Seidenberg 1998, S. 14ff.]. Sein Anforderungskatalog besteht aus zwei Gruppen: faktorbezogenen und faktorsystembezogenen Anforderungen. Die erste Gruppe besteht aus Gutseigenschaft, Homogenität, Quantifizierbarkeit, Preiseindeutigkeit und causa efficiens. Lediglich causa efficens wird von Information erfüllt. Zur zweiten Gruppe gehört Echtheit, Vollständigkeit, Überschneidungsfreiheit, Allgemeingültigkeit und Flexibilität. Auch diese Anforderungen werden von Information nur bedingt erfüllt [Seidenberg 1998, S. 35f.]. In nachfolgender Abbildung wird ein Beispiel gezeigt, in dem Information einer neuen Faktorklasse hinzugefügt wurde. Dann besteht das Produktionsfaktorsystem aus den fünf Faktoren menschliche Arbeit, Betriebsmittel i.w.S., Objektfaktoren, Zusatzfaktoren und Informationen.
Abbildung 13: Produktionsfaktorsystem nach KERN [Kern 1992, S. 17]
20
1 Was wissen wir über Information? Information ist dann aber nicht überschneidungsfrei zugeordnet, sondern in verschiedenen Klassen enthalten: - Informationen als passive, zur Nutzung verwendeter Betriebsmittel können bspw. Herstellungsrezepte für Bier sein. - In der Klasse der Objektfaktoren sind ebenfalls Informationen zu finden. So sind interne Objektfaktoren Kosteninformationen und Durchlaufobjekte. Letztere können z.B. Software darstellen. - Beratungsleistungen einer Versicherung stellen Zusatzfaktoren dar, welche in der Gruppe direkter Fremder zählen. - Letztlich bilden ein Teil der Informationen eine eigenständige Faktorkategorie im Produktionsfaktorsystem.
1.6.2 Produktionsfaktor Information Trotz der oben beschriebenen Problematik, sollen übersichtsartig die produkttheoretischen- und wirtschaftlichen Eigenschaften von Informationen dargestellt werden [Seidenberg 1998, S. 9ff.]: x
Immaterialität
x
Beliebige Kopierbarkeit
x
Verwendungsunabhängiger Verbrauch
x
Lager- und Transportfähigkeit
x
Mangelnde Trennbarkeit
x
Mangelnde Quantifizierbarkeit
x
Problematische Qualitätsbestimmung
Informationen können von außen in das System einfließen oder mit Hilfe anderer Faktoren im Unternehmen eigenständig hergestellt werden. Die Frage ist nun, inwieweit es möglich ist, Informationen als eigenständigen Produktionsfaktor,abzubilden. Dabei ist eine Unterscheidung zwischen Informationen und materiellen Wirtschaftsgütern hilfreich. An dieser Unterscheidung ist zu erkennen, dass die Klassifizierung von Informationen im Faktorsystem eine größere Hürde darstellt [Teubner 2005, S. 61]. Es ist unvermeidbar, Information mehreren Klassen zuzuordnen. Eine Anforderung an Faktorsysteme ist aber, dass die einzelnen Objekte sich nur in jeweils eine Klasse einordnen lassen. Dementsprechend gibt es nur zwei mögliche Varianten: Entweder findet man ein Abgrenzungskriterium, um Informationen in eine einschlägige Klasse einzugliedern oder Informationen müssen je nach ihrer Verwendung bzw. Funktion im Produktionsprozess in die verschiedenen Klassen eingegliedert werden.
21
A Informationsqualität – Grundlagen Informationen, die der Faktorklasse Information zugeordnet werden, stellen kein Element der Gruppen der Verbrauchs- bzw. Potentialfaktoren dar. Um sie nun in das System der Produktionsfaktoren zu integrieren, wurde eine neue Klasse aufgestellt. Zu der Faktorklasse Information werden Informationen gezählt, welche als Input oder Output eines dispositiven Entscheidungsprozesses benutzt werden (bspw. Informationsoutput dispositiver Planungsprozesse) [Bode 1993, S. 90f.].
1.6.3 Fazit Aufgrund der anwachsenden Bedeutung von Informationen, nicht nur in der Betriebswirtschaft, und einer Entwicklung hin zur Informationsgesellschaft gelangt der Produktionsfaktor Informationen stärker in den Fokus. Die zentrale Frage besteht darin, zu klären, welches das am Besten geeignete Faktorsystem ist, falls eine Einordnung von Information gemäß den Anforderungen an Faktorsysteme überhaupt möglich ist. Das hier aufgezeigten Produktionsfaktorsystem stellt eine Möglichkeit der Klassifizierung dar. Es ist nicht möglich den Faktor Information einer Klasse eindeutig zuzuordnen, da Informationen sehr unterschiedlicher Natur sein können und sie nur schwer quantitativ zu messen sind. Dementsprechend müssen Informationen hinsichtlich Inhalt und Rolle im Produktionsprozess analysiert werden. Erst dann kann man entscheiden, wie sie in die dementsprechende Faktorklasse richtig eingeordnet werden kann.
1.7 Zusammenfassung des Beitrages Der vorliegende Beitrag konnte nur einen Denkanstoß zur Diskussion um den Informationsbegriff liefern. Leider wird Information durch seine Omnipräsenz von jedem anders definiert und verwendet. Zwar gibt es in nahezu jedem wissenschaftlichen Fachbereich präzise Informationskonzepte, keines hat aber bislang einen allgemeingültigen Status erreicht. Deshalb kommt es immer wieder zu Missverständnissen, wenn unterschiedliche Prämissen bzw. Methoden der verschiedenen Fachrichtungen miteinander vermischt werden. Hier wurde die Aufmerksamkeit auf die unterschiedlichen Methoden gerichtet, denn es ist falsch, die Methoden eines Wissenschaftszweiges unhinterfragt auf einen anderen Gegenstandsbereich zu übertragen. So konnte der Beitrag drei unterschiedliche Auffassungen von Information und ihren Prämissen deutlich machen.
22
1 Was wissen wir über Information?
Literaturverzeichnis [Bode 1993] Bode, J.: Betriebliche Produktion von Information. DUV, Wiesbaden, 1993. [Bode 1997] Bode, J.: Der Informationsbegriff in der Betriebswirtschaftslehre. In: Zfbf., Bd. 49, 1997, Verl.-Gruppe Handelsblatt, Düsseldorf , S. 449-469. [Brodbeck 1997] Brodbeck, K.-H.: http://www.fh-wuerzburg.de/fh/fb/bwl/offiziel/ bwt/ALT_12_2005/PAGES/pp/2/brodbeck.htm (Zugriff am 17.05.2007) [Eschenröder 1985] Eschenröder, G.: Planungsaspekte einer ressourcenorientierten Informationswirtschaft, Eul, Bergisch Gladbach, 1985. [Forst 1998] Forst, A.: http://www.doculine.com/news/1999/Februar/infowiss.htm (Zugriff am 25.05.2007) [Gitt 2002] Gitt, W.: Am Anfang war die Information: Herkunft des Lebens aus der Sicht der Informatik, Was ist Information? Herkunft der Information, Naturgesetze über Information, Weitreichende Schlussfolgerungen bezüglich Menschenbild, Evolution und Urknall. Hänssler, Holzgerlingen, 2002. [Grochla & Wittmann 1993] Grochla, E.; Wittmann, W.: Handwörterbuch der Betriebswirtschaft Bd. 2: I – Q. Poeschel, Stuttgart,1993. [Gutenberg 1951] Gutenberg, E.: Grundlagen der Betriebswirtschaft. Springer, Berlin [u.a.], 1951. [Henning 2004] Henning, P. A.: Zum Informationsbegriff der Physik. In: Informatik-Spektrum, Bd. 27, 2004, S. 202-207. [Kern 1992] Kern, W.: Industrielle Produktionswirtschaft. Poeschel, Stuttgart, 1992. [Krcmar 2005] Krcmar, H.: Informationsmanagement: mit 41 Tabellen. Springer, Berlin [u.a.], 2005. [Lehner & Maier 1994] Lehner, F.; Maier, R.: Information in Betriebswirtschaftslehre, Informatik und Wirtschaftsinformatik. Vallendar: Lehrstuhl für Wirtschaftsinformatik und Informationsmanagement, Wiss. Hochsch. für Unternehmensführung, 1994. [North 2003] North, K.: Wissensorientierte Unternehmensführung: Wertschöpfung durch Wissen. Gabler, Wiesbaden, 2005. [Picot et al. 2003] Picot, A.; Reichwald, R.; Wigand, R. T.: Die grenzenlose Unternehmung: Information, Organisation und Management. Gabler, Wiesbaden, 2003. [Pietsch et al. 2004] Pietsch, T.; Martiny, L.; Klotz, M.: Strategisches Informationsmanagement: Bedeutung, Konzeption und Umsetzung. E. Schmidt, Berlin, 2004. [Rechenberg 2003] Rechenberg, P.: Zum Informationsbegriff der Informationstheorie. In: Informatik-Spektrum, Bd.26, 2003, S. 317-326.
23
A Informationsqualität – Grundlagen [Seidenberg 1998] Seidenberg, U.: Ist Information als eigenständiger Produktionsfaktor aufzufassen?. Siegen, 1998. [Shannon & Weaver 1972] Shannon, C. E.; Weaver, W.: The mathematical theory of communication. Univ. of Illinois Press, Urbana [u.a.], 1972. [Steinmüller 1993] Steinmüller, W.: Informationstechnologie und Gesellschaft: Einführung in die Angewandte Informatik, Wiss. Buchges., Darmstadt, 1993. [Teubner 2005] Teubner, A.: Information als Wirtschaftsgut und Produktionsfaktor. In: WISU, Bd. 34, 2005, S. 59-62. [Völz 1983] Völz, H.: Information: Studie zur Vielfalt und Einheit der Information 2: Theorie und Anwendung vor allem in der Biologie, Medizin und Semiotik. Akad.-Verlag Berlin, 1983. [Weizäcker & Maurin 1975] Weizsäcker, E. U. von; Maurin, K.: Beiträge zur Zeitstruktur von Information, Entropie und Evolution, Klett-Cotta, Stuttgart,1974. [Wittmann 1959] Wittmann, W.: Unternehmung und unvollkommene Information: unternehmerische Voraussicht, Ungewissheit und Planung. Westdt. Verlag, Köln [u.a.],1959. [Zemanek 1986] Zemanek, H.: Information und Ingenierwissenschaft. In: Hackl, C.: Der Informationsbegriff in Technik und Wissenschaft. Bd. 18, Oldenbourg Verlag, München, 1986, S. 17-52. [Ziegenbein 2004] Ziegenbein, K.: Controlling. Kiehl, Ludwigshafen (Rhein), 2004.
Schlüsselbegriffe: Informationsbegriff, Informationstheorie, Informationsmodell, Produktionsfaktor Information, Informationswirtschaft, Informationsmanagement.
24
2 Informationsqualität – Definitionen, Dimensionen und Begriffe Dr. Jan P. Rohweder, Gerhard Kasten, Dirk Malzahn, Andrea Piro, Joachim Schmid
2.1 Einleitung Die Verbesserung und Sicherstellung der Informationsqualität wird in immer mehr Unternehmen als eigenständige Managementaufgabe von großer Wichtigkeit begriffen. IQ-Management ist ein elementarer Baustein in Systemintegrationsprojekten. Aber auch in bestehenden Prozessen mit heterogenen Datenquellen und Informationsnutzern ist eine hohe Informationsqualität die Grundvoraussetzung für funktionierende betriebliche Abläufe. Voraussetzung für ein effektives IQ-Management ist die Bewertung der Informationsqualität [Lee et al. 2006, S. 13 und S. 27]. In vielen Unternehmen ist Informationsqualität nur ein gefühlter Wert. Die meisten Anwender bringen ein gewisses Misstrauen den Daten gegenüber zum Ausdruck, dies jedoch ohne genaue Angabe der Fehlerart und -häufigkeit. Nicht selten werden kostspielige Projekte angestoßen, um die Informationsqualität zu verbessern, ohne sich vor einer IQ-Maßnahme durch eine Analyse ein genaues Bild über die tatsächlichen Probleme zu verschaffen. Nur auf der Basis einer umfassenden Bewertung der Informationsqualität können die notwendigen Ressourcenentscheidungen herbeigeführt, Ziele gesetzt und der Erfolg des IQ-Management beurteilt werden. Dabei muss die Bewertung der Informationsqualität über Statistiken zur Vollständigkeit und Fehlerfreiheit der Objekte in Datenbanksystemen oder ITApplikationen hinausgehen. Eigenschaften wie Übersichtlichkeit oder Relevanz beschreiben weitere wichtige Merkmale, die die Qualität von Information bestimmen. Informationsqualität kann in einem umfassenden Sinne definiert werden als der „Grad, in dem … Merkmale eines Datenproduktes Anforderungen genügen“ [Hinrichs 2002, S. 26]. Mit Merkmalen von Datenprodukten sind z.B. die Übereinstimmung der Daten mit der Realität (Fehlerfreiheit) oder die Übersichtlichkeit der Darstellung gemeint. Die jeweilige Entscheidungssituation und die Ziele bestimmen die Anforderungen an die Information, und entsprechend findet sich eine Vielzahl von Modellen und Konzepten zur Beschreibung und Bewertung von Informationsqualität in der Literatur [Eppler & Wittig 2000] [Naumann & Rolker 2000]. Die Vielfalt der Konzepte erschwert dabei die Kommunikation über Themen des IQ-Managements durch Mehrdeutigkeiten in der Begrifflichkeit. Eines der meistzitierten Konzepte zur Beschreibung und Bewertung der Informationsqualität basiert auf einer Umfrage unter IT-Nutzern mit dem Ziel, Merkmale der Informationsqualität aus der Sicht der Anwender zu identifizieren (fit for use
25
A Informationsqualität – Grundlagen Konzept) [Wang & Strong 1996]. Mit statistischen Methoden wurden aus über 100 Attributen zur Beschreibung der Qualität von Information die 16 wichtigsten Oberbegriffe für Merkmale von Datenprodukten ausgewählt, die sogenannten IQDimensionen. Dieses IQ-Konzept bildet die Basis für eine Reihe von Veröffentlichungen zu Erhebungsmethoden und IQ-Managementkonzepten, allerdings vorwiegend im englischsprachigen Raum. Gestützt auf das Konzept von Wang und Strong wird im Folgenden ein Katalog von IQ-Dimensionen und Definitionen für Merkmale von Datenprodukten in deutscher Sprache aufgeführt. Ziel ist, die Kommunikation über Themen des IQManagements durch eindeutige und einheitliche Begrifflichkeiten zu vereinfachen und zu verbessern. Das vorliegende Kapitel, das die Dimensionen der Informationsqualität möglichst umfassend und durch überschneidungsfreie Begriffe beschreibt, ist das Ergebnis der Arbeit einer Projektgruppe in der DGIQ (Deutsche Gesellschaft für Informations- und Datenqualität). Umfassend bedeutet in diesem Zusammenhang, dass alle beobachteten Phänomene, die die Informationsqualität aus Sicht der Anwender beeinflussen, durch einen oder mehrere der vorgestellten Begriffe beschrieben werden können. Überschneidungsfrei sind Begriffe, wenn jede Veränderung der Informationsqualität aus Anwendersicht durch genau eine IQ-Dimension bzw. eine eindeutige Kombination aus IQ-Dimensionen beschrieben werden kann, es also keine Synonyme oder redundanten Begriffsfelder gibt.
2.2 IQ-Dimensionen und Definitionen Die Informationsqualität wird anhand von 15 Begriffen, den sogenannten IQDimensionen, definiert. Um die Definitionen der IQ-Dimensionen operational und konkret verständlich zu machen, werden zu der jeweiligen IQ-Dimension Beispiele für Stamm- und Bewegungsdaten beschrieben, die jeweils den Grad der Erfüllung der Anforderung an das Datenprodukt bestimmen. Stammdaten sind der „Datenbestand, auf dem Geschäftsprozesse aufbauen, und der über einen längeren Zeitraum unverändert gültig“ ist [Hildebrand 2006, S. 17]. Bewegungsdaten entstehen während einer betrieblichen Transaktion – der Buchung eines Geschäftsvorfalls (Auftrag, Rechnung) – und belegen dieses Ereignis. Die Abstufung der Informationsqualität im Hinblick auf die jeweilige IQ-Dimension kann unendliche viele Ausprägungen annehmen, was insbesondere für Metriken zur Vollständigkeit oder Fehlerfreiheit gilt. Um das relevante Spektrum der Informationsqualität anhand von Beispielen übersichtlich aufzuzeigen, werden deshalb jeweils zwei Ausprägungen je IQ-Dimension betrachtet: – brauchbare Information: Die Informationsqualität wird positiv bewertet, wenn der Nutzer sie für seine Zwecke gebrauchen kann. – inakzeptable Information: Die Informationsqualität wird negativ bewertet, wenn sie so weit unter der Grenze „brauchbar“ liegt, dass der Nutzer die Informationen für seine Zwecke nicht mehr verwenden kann.
26
2 Informationsqualität – Definitionen, Dimensionen und Begriffe Die Beispiele zur Erläuterung der Definition der jeweiligen IQ-Dimension beziehen sich auf digitale Zeichen, die elektronisch vervielfältigt werden können, ohne dass dies eine beabsichtigte oder bindende Einschränkung der Anwendung der vorliegenden IQ-Dimensionen ist. Einige der Wang/Strong´schen Begriffe liegen im umgangssprachlichen Gebrauch sehr eng bei einander, so dass die IQ-Dimensionen im gängigen Sprachgebrauch als redundant bzw. sich gegenseitig überschneidend erscheinen. Dieses Problem tritt vor allem bei den Begriffspaaren ´Hohes Ansehen – Glaubwürdigkeit´ sowie ´Relevanz – Wertschöpfung´ auf. Das Problem der Redundanz von Begriffen kann jedoch durch eine technische Begriffsbestimmung umgangen werden. In diesem Sinne wird Glaubwürdigkeit technisch definiert als eine Eigenschaft, die von der Aufbereitung der Information bestimmt wird, während hohes Ansehen durch wiederholte positive Erfahrungen mit ähnlichen Informationen (z.B. in einer Zeitreihe) erlangt wird. Bei Relevanz und Wertschöpfung gelingt die Abgrenzung nicht so klar, da einer wertschöpfenden Information schwerlich die Relevanz abgesprochen werden kann. Andersherum ist aber eine relevante Information nicht in jedem Fall wertschöpfend, da z.B. viele Suchergebnisse bei Internetrecherchen zwar relevant sind, aber nicht im betrieblichen Prozess mit klarem Wertschöpfungsbeitrag genutzt werden. Die Menge der wertschöpfenden Informationen ist also eine echte Teilmenge aller relevanten Informationen, wodurch das Prinzip der strengen Überschneidungsfreiheit der IQ-Dimensionen an dieser Stelle nur abgeschwächt gilt. Als Änderung gegenüber dem Konzept von Wang und Strong sind 2 Punkte hervorzuheben. Zum ersten wird Sicherheit (access security) nicht als originäre IQDimension angesehen. Diese Eigenschaft von Information(ssystemen) hat nämlich keinen Einfluss auf die Qualität von Information aus Sicht des Anwenders, die nicht durch die übrigen 15 IQ-Dimensionen beschrieben werden könnte. Etwas überspitzt könnte man diese Argumentationsweise so formulieren, dass es auch bei der Beschreibung der Nutzungseigenschaften von technischen Geräten nicht darauf ankommt, ob diese durch Patente geschützt sind oder nicht. Zum zweiten wird die ursprünglich als überflüssig erachtete IQ-Dimension „ease of operation“ gesondert aufgeführt, da dieser Aspekt der Informationsqualität von Wang und Strong in vielen späteren Veröffentlichungen als „ease of manipulation“ wieder aufgenommen worden ist. Im nachfolgenden Abschnitt 1.2.1 werden die 15 IQ-Dimensionen mit ihren Definitionen aufgelistet. Im Abschnitt 1.2.2 werden die 15 IQ-Dimensionen zu 4 Kategorien zusammengefasst und in einer graphischen Darstellung abgebildet, die es erlaubt, die 15 Dimensionen und 4 Kategorien in ihrem inhaltlichen Zusammenhang zu erfassen. Im Abschnitt 1.2.3 folgen dann 15 deutsche Begriffe jeweils mit der englischen Bezeichnung der IQ-Dimension und Beispiele zur Beschreibung der Informationsqualität.
27
A Informationsqualität – Grundlagen
2.2.1 Die 15 IQ-Dimensionen im Überblick: – 1) Zugänglichkeit (accessibility): Informationen sind zugänglich, wenn sie anhand einfacher Verfahren und auf direktem Weg für den Anwender abrufbar sind. – 2) Angemessener Umfang (appropriate amount of data): Informationen sind von angemessenem Umfang, wenn die Menge der verfügbaren Information den gestellten Anforderungen genügt. – 3) Glaubwürdigkeit (believability): Informationen sind glaubwürdig, wenn Zertifikate einen hohen Qualitätsstandard ausweisen oder die Informationsgewinnung und -verbreitung mit hohem Aufwand betrieben werden. – 4) Vollständigkeit (completeness): Informationen sind vollständig, wenn sie nicht fehlen und zu den festgelegten Zeitpunkten in den jeweiligen Prozess-Schritten zur Verfügung stehen. – 5) Übersichtlichkeit (concise representation): Informationen sind übersichtlich, wenn genau die benötigten Informationen in einem passenden und leicht fassbaren Format dargestellt sind. – 6) Einheitliche Darstellung (consistent representation): Informationen sind einheitlich dargestellt, wenn die Informationen fortlaufend auf dieselbe Art und Weise abgebildet werden. – 7) Bearbeitbarkeit (ease of manipulation): Informationen sind leicht bearbeitbar, wenn sie leicht zu ändern und für unterschiedliche Zwecke zu verwenden sind. – 8) Fehlerfreiheit (free of error): Informationen sind fehlerfrei, wenn sie mit der Realität übereinstimmen. – 9) Eindeutige Auslegbarkeit (interpretability): Informationen sind eindeutig auslegbar, wenn sie in gleicher, fachlich korrekter Art und Weise begriffen werden. – 10) Objektivität (objectivity): Informationen sind objektiv, wenn sie streng sachlich und wertfrei sind. – 11) Relevanz (relevancy): Informationen sind relevant, wenn sie für den Anwender notwendige Informationen liefern. – 12) Hohes Ansehen (reputation): Informationen sind hoch angesehen, wenn die Informationsquelle, das Transportmedium und das verarbeitenden System im Ruf einer hohen Vertrauenswürdigkeit und Kompetenz stehen. – 13) Aktualität (timeliness): Informationen sind aktuell, wenn sie die tatsächliche Eigenschaft des beschriebenen Objektes zeitnah abbilden. – 14) Verständlichkeit (understandability): Informationen sind verständlich, wenn sie unmittelbar von den Anwendern verstanden und für deren Zwecke eingesetzt werden können. – 15) Wertschöpfung (value-added): Informationen sind wertschöpfend, wenn ihre Nutzung zu einer quantifizierbaren Steigerung einer monetären Zielfunktion führen kann.
28
2 Informationsqualität – Definitionen, Dimensionen und Begriffe
2.2.2 Graphische Darstellung der 15 IQ-Dimensionen und 4 IQ-Kategorien Die 15 IQ-Dimensionen beschreiben die Informationsqualität umfassend. Jede einzelne IQ-Dimension ist ein kritischer Erfolgsfaktor für das Funktionieren eines Informationssystems, d. h. erst wenn alle IQ-Dimensionen eine hohe oder zumindest ausreichende Qualität aufweisen, ist die Funktionsfähigkeit eines Informationssystems gewährleistet. Z.B. sind vollständige und fehlerfreie Informationen, die jedoch für den Anwender nicht leicht zugänglich sind, ungeeignet für zeitkritische Prozesse. In der Abbildung 1 wird dies durch die Positionierung der Informationsqualität (IQ) im zentralen Kreis in der Mitte dargestellt: Informationen müssen den vom Nutzer verlangten Zweck erfüllen („fit for use“-Konzept), erst dann sind sie „rund“.
Bearbeitbarkeit
Zugänglichkeit
hohes Ansehen
Aktualität
systemunterstützt Wertschöpfung Fehlerfreiheit Vollständigkeit
Angemessener Umfang
zweckabhängig
IQ
inhärent Objektivität
darstellungsbezogen
Glaubwürdigkeit
Relevanz Verständlichkeit Übersichtlichkeit
einheitliche Darstellung
eindeutige Auslegbarkeit
Abbildung 1: 15 IQ-Dimensionen in 4 IQ-Kategorien
Die vom IQ-Kreis ausgehenden vier Dreiecke beleuchten die 15 Dimensionen der Informationsqualität – wie das Licht eines Leuchtturms, das nacheinander in die 4 Himmelsrichtungen scheint. Sie bilden zusammen ein Rechteck. Die geometrische Figur Rechteck weist darauf hin, dass es grundsätzlich keine wichtigen oder weniger wichtigen Dimensionen der Informationsqualität gibt. Mit den 15 Dimensionen können alle denkbaren Qualitätsaspekte von Informationen aus Anwendersicht beschrieben werden. Der Nutzer von Informationen kann die Qualitätsaspekte aus
29
A Informationsqualität – Grundlagen seiner Sicht priorisieren, aber erst, nachdem er über alle 15 Dimensionen nachgedacht hat, also bildlich gesprochen erst, nachdem er sich durch Blicke in alle 4 Himmelsrichtungen orientiert hat. Um die Darstellung übersichtlicher zu gestalten, wurden vier Ordnungsbegriffe für Gruppen von IQ-Dimensionen entwickelt, die sogenannten IQ-Kategorien. In Abbildung 1 wird dies durch das innere Rechteck dargestellt, welches die 4 Kategorien umschließt, zu denen sich die 15 Dimensionen der Informationsqualität zusammenfassen lassen. Die Gruppierung der IQ-Dimensionen ist gestützt auf eine Umfrage unter IT-Anwendern, die in 80% der Fälle dieselben IQ-Dimensionen in Gruppen zusammengefasst haben [Wang & Strong 1996, S. 19]. Es gibt die inhärente, systemunterstützte, darstellungsbezogene und zweckabhängige Informationsqualität (siehe Abb. 1). Die systemunterstützte IQ-Kategorie umfasst die IQDimensionen Zugänglichkeit und Bearbeitbarkeit. Die IQ-Dimensionen hohes Ansehen, Fehlerfreiheit, Objektivität und Glaubwürdigkeit sind Merkmale, die den Daten bzw. Informationen inhärent sind. Die darstellungsbezogene IQ-Kategorie umfasst die IQ-Dimensionen Verständlichkeit, Übersichtlichkeit, einheitliche Darstellung und eindeutige Auslegbarkeit. Die IQ-Dimensionen Aktualität, Wertschöpfung, Vollständigkeit, Angemessener Umfang und Relevanz beschreiben die Informationsqualität im Hinblick auf die zweckabhängige IQ-Kategorie. Betrachtet man die vier Kategorien, die gebildet wurden, kann man feststellen, dass diese ein Ordnungskonzept repräsentieren – die Gruppierung der IQDimensionen erfolgt anhand von inhaltlichen Zusammenhängen in Bezug auf den Untersuchungsgegenstand zur Beurteilung der Qualität von Information bzw. Daten. Der Zusammenhang zwischen den IQ-Kategorien und den Untersuchungsgegenständen ist in Tabelle 1 dargestellt. Tabelle 1: Jede Kategorie wird einem spezifischen Untersuchungsgegenstand zugeordnet
IQ-Kategorie
Untersuchungsgegenstand
systemunterstützt
System
inhärent
Inhalt
darstellungsbezogen
Darstellung
zweckabhängig
Nutzung
Die systemunterstützten IQ-Dimensionen Zugänglichkeit und Bearbeitbarkeit können nur untersucht werden, indem man sich das datenverarbeitende System und seine Benutzeroberfläche anschaut. Untersuchungsgegenstand für die Bewertung der systemunterstützten Informationsqualität ist also das System zur Informations- bzw. Datenverarbeitung. Die dateninhärenten IQ-Dimensionen hohes Ansehen, Fehlerfreiheit, Objektivität und Glaubwürdigkeit können nur mit einer Untersuchung des Inhaltes der Daten/Informationen eingeschätzt werden. Darstel-
30
2 Informationsqualität – Definitionen, Dimensionen und Begriffe lungsbezogene Dimensionen wie Verständlichkeit, Übersichtlichkeit, einheitliche Darstellung und eindeutige Auslegbarkeit können nur unter Berücksichtigung der eigentlichen Darstellung, zum Beispiel in Form von Grafiken, Statistiken oder Berichten, beurteilt werden. Die zweckabhängigen Dimensionen Aktualität, Wertschöpfung, Vollständigkeit, Angemessener Umfang und Relevanz können nur unter Berücksichtigung der eigentlichen Nutzung in den Unternehmensprozessen geprüft werden. Soll zum Beispiel die IQ-Dimension Fehlerfreiheit untersucht werden, bewertet man den Inhalt der entsprechend relevanten Daten. Bei einer Untersuchung der Übersichtlichkeit hingegen werden die eigentlichen Inhalte der Daten nicht betrachtet, sondern nur ihre Darstellung. Eine Untersuchung der Qualität in diesen beiden Dimensionen erfordert damit eine Betrachtung von zwei unterschiedlichen Gegenständen: Inhalt und Darstellung. Die vier Untersuchungsgegenstände können gemeinsam als die organische Struktur der Informationsverarbeitung eines Unternehmens bezeichnet werden. Abbildung 2 zeigt die Zusammenhänge dieser vier Untersuchungsgegenstände in einem Unternehmen.
Nutzung System Inhalt
13,50 € 14,60 € 19,52 € Maria Müller 256,23 € Volker Völler 445,00 € Paul Peters 19.02.2007 Nina Nun 28.06.2005 Horst Heil 01.01.2000 16.08.2001 26.09.1978
Darstellung
Abbildung 2: Die Untersuchungsgegenstände der Informationsqualität
31
A Informationsqualität – Grundlagen Kern eines jeden Informationssystems sind die Inhalte, die verarbeitet werden. Die Inhalte werden im System bzw. in Systemen verarbeitet und innerhalb des Unternehmens weitergeleitet. Die Inhalte werden mithilfe der Systemfunktionalitäten für die Nutzer in eine Darstellung überführt. Alle Prozesse der Informationsverarbeitung und Bereitstellung laufen im Kontext der Unternehmensprozesse unter Berücksichtigung der Nutzung ab. Die Unternehmensprozesse umfassen damit Systeme, Inhalte und Darstellung. Die Abbildung 2 soll veranschaulichen, dass die einzelnen gleichwertig zu betrachtenden Untersuchungsgegenstände der Informationsqualität ineinander verschachtelt sind. Gleichzeitig soll die Abbildung 2 eine Orientierungshilfe für die Entscheidung im Rahmen einer Bewertung von Informationsqualität darstellen.
2.2.3 Die 15 IQ-Dimensionen: Definitionen und Beispiele Im Folgenden werden die 15 IQ-Dimensionen definiert. Die Abschnitte zu den jeweiligen IQ-Dimensionen folgen dabei immer einem gleichen Aufbau: Nach einem deutschen Begriff mit dem englischen Wort aus der Untersuchung von Wang und Strong [Wang & Strong 1996] folgt eine kurze beschreibende, definitorische Begriffsbestimmung. Daran schließen sich jeweils positive und negative Beispiele zur Bestimmung der IQ-Dimension an. In einzelnen Fällen wird die kurze Definition durch eine erläuternde Anmerkung gegen andere Begriffe abgegrenzt bzw. genauer umschrieben.
2.2.3.1 Zugänglichkeit (accessibility): Informationen sind zugänglich, wenn sie anhand einfacher Verfahren und auf direktem Weg für den Anwender abrufbar sind.
Stammdaten Nach telefonischem Geschäftsabschluss eines Wertpapierhandelsgeschäfts bearbeitet das Back Office das Geschäft anhand der handgeschriebenen Angaben auf dem Händlerticket. Der Name des Kunden ist nicht lesbar. Nur die Kundennummer steht zur Verfügung. (positiv) Das Kundenstammdaten-System steht dem Back Office zur Verfügung und kann mit einfachem Login aufgerufen werden. (negativ) Das Kundenstammdaten-System steht dem Back Office aufgrund eines Systemfehlers nicht zur Verfügung. Der Name des Kunden kann nur per telefonische Rückfrage im Handel erfragt werden. Bewegungsdaten Nach Geschäftsabschluss im Front Office erstellt der Händler ein sog. Händlerticket mit Informationen zum Kunden und zu den Geschäftsbedingungen, welches an das Back Office zur Abwicklung weitergeleitet wird.
32
2 Informationsqualität – Definitionen, Dimensionen und Begriffe (positiv) Das Händlerticket wird auf elektronischem Weg an das Back Office System weitergeleitet und wird vom Back Office Mitarbeiter als neues Geschäft im System identifiziert und bearbeitet. (negativ) Das Händlerticket soll per Fax an das Back Office weitergeleitet werden. Durch einen Defekt der Telekommunikation erhält das Back Office das Fax nicht. Die Informationen sind damit vorhanden, jedoch im nächsten Prozess-Schritt nicht verfügbar.
2.2.3.2 Angemessener Umfang (appropriate amount of data): Informationen sind von angemessenem Umfang, wenn die Menge der verfügbaren Information den gestellten Anforderungen genügt.
Sowohl die Anzahl der Attribute pro Datensatz als auch die Anzahl der Datensätze selbst sollen für die gestellten Anforderungen einerseits ausreichend, andererseits aber auch nicht überflüssig groß sein. Stammdaten Für eine Rückfrage bei einem Kunden zu einem Auftrag wird ein Kontaktmanagementsystem aufgerufen. (Positiv) Der Mitarbeiter hat die Möglichkeit über die Eingabe der Kundennummer oder des Kundennamens die Telefonnummer angezeigt zu bekommen. (Negativ) Über die Abfrage mit der Kundennummer oder dem Kundennamen erhält der Mitarbeiter alle bislang erfassten Informationen zum Kunden. In der Abteilung für die Vertragerstellung benötigt der Sachbearbeiter umfassende Informationen zum Kunden. (positiv) Im oben genannten Kontaktmanagementsystem stehen alle Informationen zur Verfügung. (negativ) Im Kontaktmanagementsystem fehlen für diesen Prozess wesentliche Informationen zum Kunden. Bewegungsdaten Aus einer Kundendatenbank sollen die Kunden mit besonders hohem Kaufpotential ausgewählt werden. (positiv) Es existieren vergleichsweise viele Kundentransaktionen pro Kunde in der Datenbank, so dass sich aus den Kaufhistorien der einzelnen Kunden Rückschlüsse auf deren Kaufverhalten ziehen lassen. (negativ) Ist das Unternehmen jedoch neu am Markt oder wurden aus anderen Gründen bisher nur einzelne wenige Kundentransaktionen erfasst, dann ist die Anforderung Kaufpotentialeinschätzung aufgrund der Kaufhistorie nicht zu erfüllen. Die Menge der verfügbaren Information ist im Sinne der Anzahl der verfügbaren Datensätze nicht ausreichend.
33
A Informationsqualität – Grundlagen Anmerkung: Dies muss nicht notwendigerweise eine Verletzung der IQ Dimension Vollständigkeit bedeuten, weil etwa Pflichtfelder leer sind. Wichtig ist hier, dass die vorhandene Information kein umfassendes Bild des Kunden wiedergibt.
2.2.3.3 Glaubwürdigkeit (believability): Informationen sind glaubwürdig, wenn Zertifikate einen hohen Qualitätsstandard ausweisen oder die Informationsgewinnung und -verbreitung mit hohem Aufwand betrieben werden.
Für die Glaubwürdigkeit ist maßgebend, inwiefern die aktuell vorliegenden Informationen als vertrauenswürdig und zuverlässig angesehen werden – also durch eine deduktive Qualitätsbeurteilung. Entscheidend dafür ist die Aufmachung der Daten. Hier geht es im Kern um ein gutes Marketing der Informationen. Stammdaten (positiv) Eine vom Statistischen Bundesamt herausgegebene Informationsbroschüre zur Bevölkerungsentwicklung besitzt eine hohe Glaubwürdigkeit, und zwar unabhängig davon, inwieweit die Daten vollständig, fehlerfrei, eindeutig auslegbar, objektiv richtig, aktuell und verständlich sind. (negativ) Aufzeichnungen von Wetterdaten, deren Herausgeber unbekannt ist, haben dagegen eine niedrigere Glaubwürdigkeit. Bewegungsdaten (positiv) Daten aus einem mit großem Aufwand entwickelten Produktionsplanungs- und Steuerungssystem, die den Nutzern am PC zur Verfügung stehen, sind glaubwürdig. (negativ) Lediglich handschriftliche Aufzeichnungen der Mitarbeiter in der Produktion.
2.2.3.4 Vollständigkeit (completeness): Informationen sind vollständig, wenn sie nicht fehlen und zu den festgelegten Zeitpunkten in den jeweiligen Prozess-Schritten zur Verfügung stehen.
Informationen sind pünktlich, wenn sie zu einem festgelegten Zeitpunkt in einem bestimmten Prozessschritt zur Verfügung stehen. Durch diese Integration der Zeitdimension in die Definition der Vollständigkeit ist eine eigenständige, zusätzliche Dimension Pünktlichkeit nicht erforderlich. Vollständigkeit lässt sich in unterschiedlichen Ausprägungen beschreiben; so kann die Vollständigkeit z.B. für ein Schema, eine Tabelle oder eine Spalte ermittelt werden. Dabei ist es essentiell festzulegen, gegen welche Menge die Vollständigkeit verprobt wird.
34
2 Informationsqualität – Definitionen, Dimensionen und Begriffe Stammdaten (positiv): In der Vertriebsdatenbank eines Unternehmens ist für jedes Bundesland – wie verlangt – mindestens ein Vertriebsbeauftragter festgelegt. (negativ): Obwohl der Vertrieb des Unternehmens nach Bundesländern strukturiert ist, lässt sich für ein Bundesland kein Vertriebsbeauftragter ermitteln. Bewegungsdaten (positiv): Die monatliche Materialbestellung bei den Lieferanten erfolgt erst dann, wenn die Bedarfsmeldungen aller Filialen vorliegen. Dadurch wird sichergestellt, dass der Materialfluss in den Filialen nicht abreißt, bzw. dass fehlende Bedarfsmeldungen schnell identifiziert werden. (negativ): Die monatliche Materialbestellung erfolgt immer zum Stichtag, unabhängig davon, ob alle Filialen ihren Bedarf gemeldet haben. Dies kann zu dem Problem führen, dass in Filialen eine Materialunterdeckung entsteht, die nur durch aufwändige Nachbestellungen, Materialaustausch etc. behoben werden kann.
2.2.3.5 Übersichtlichkeit (concise representation): Informationen sind übersichtlich, wenn genau die benötigten Informationen in einem passenden und leicht fassbaren Format dargestellt sind.
Stammdaten Darstellung der Basis-Adressdaten eines Personenstammsatzes. (positiv) Brauchbare Verdichtung, gute Übersichtlichkeit analog dem Satzaufbau einer Visitenkarte: Martin Mustermann Bahnhofstr. 116 98999 X-Stadt Tel.: 0110-8877663
[email protected] (negativ) Zu starke Verdichtung durch Darstellung in einem fortlaufenden String: „MartinMustermannBahnhofstr.11698999X-Stadt01108877663m.musterm@tel.com“. Mit Zusatzinformationen überfrachtete Darstellung der strukturierten Adresse: ANREDE GESCHLECHT VORNAME NACHNAME TITEL STRASSENADRESSE HAUSNUMMER usw.
Herr Martin Mustermann Bahnhofstr. 116a
35
A Informationsqualität – Grundlagen Bewegungsdaten Währungs-Wechselkursentwicklung der letzten drei Monate. (positiv) Übersichtliche Darstellung in Candle-Stick-Chart (dadurch auf einen Blick: Eröffnungskurs, Schlusskurs, Höchst- und Niedrigstkurs sowie Richtung zwischen Eröffnungs- und Schlusskurs je Handelstag). (negativ) Zu starke Verdichtung durch Darstellung aller im Handelssystem realisierten Wechselkurse in einer einzigen Kurve (dadurch verschwimmt die Darstellung zu einem Band mit wechselnder Breite, Zeit- und Datumslinien erschweren die Lesbarkeit). Unübersichtliche Darstellung wegen mangelnder Verdichtung: Darstellung der Wechselkurse in einer Tabelle über mehrere Seiten oder Darstellung in vier gleichfarbigen Kurven übereinander (Eröffnungskurs, Schlusskurs, Höchstkurs, Niedrigstkurs). Durch Kurvenüberschneidungen wirkt diese Darstellung unübersichtlich.
2.2.3.6 Einheitliche Darstellung (consistent representation): Informationen sind einheitlich dargestellt, wenn die Informationen fortlaufend auf dieselbe Art und Weise abgebildet werden.
Eine einheitliche Darstellung bedeutet, dass ein Sachverhalt im selben Format, Layout und mit demselben Wertevorrat beschrieben wird, unabhängig vom Zeitpunkt (gestern, heute, letztes Jahr) und dem Datenerfasser. D.h. insbesondere, dass die Darstellung die selbe sein soll, auch wenn die Datenerfasser an verschiedenen Standorten arbeiten, aus unterschiedlichen Kulturkreisen stammen oder verschiedene Systeme zur Datenerfassung und Speicherung nutzen. Stammdaten Darstellung des Geschlechts einer Person. (positiv) Wertemenge: m, w (negativ) Wertemenge: w, f, m; wobei w = weiblich und f = female Bewegungsdaten Darstellung von Datumsangaben. (positiv)
(negativ)
„01.10.2007“
„1.10.2007“
„02.10.2007“
„02.10.07“
„03.10.2007“
„3.OKT 2007“
„04.10.2007“
„4.Oktober 2007“
„05.10.2007“
„FR, 05-10-07 12:00“
36
2 Informationsqualität – Definitionen, Dimensionen und Begriffe
2.2.3.7 Bearbeitbarkeit (ease of manipulation): Informationen sind leicht bearbeitbar, wenn sie leicht zu ändern und für unterschiedliche Zwecke zu verwenden sind.
Bearbeitbarkeit ist vom Grundsatz her wertneutral zu betrachten, d.h. eine gute Bearbeitbarkeit birgt einerseits die Gefahr der gewollten oder ungewollten Verfälschung, andererseits aber auch die Möglichkeit der leichten Anpassung und universellen Verwendung. Die Informationsqualität in Bezug auf die leichte Bearbeitbarkeit ist also nur dann positiv zu bewerten, wenn sowohl eine leichte Änderbarkeit für berechtigte und eine nicht allzu leichte Manipulierbarkeit/Verfälschung für unberechtigte Datennutzer gegeben ist. Daher beziehen sich die nachfolgenden Beispiele im Positivfall auf leichte Verwendbarkeit, im Negativfall auf gewollt erschwerte Verwendbarkeit, durch die ein Schutz vor ungewollter Verfälschung erreicht werden soll. Stammdaten (positiv) Die E-Mail-Adresse ist als mailto:-Link angegeben. Hier kann wahlweise der Link angeklickt und der E-Mail-Client gestartet werden oder die E-MailAdresse kann kopiert und an anderer Stelle eingefügt werden. (negativ) Die E-Mail-Adresse ist als Grafik angegeben, um sich vor E-MailAdressen-sammelnden Robots zu schützen. Hier muss die E-Mail-Adresse für beide o. g. Anwendungsfälle abgetippt werden. Bewegungsdaten (positiv): Bei der Bestellung über das Internet wird dem Kunden ein Vorschlag für die Konfektionierung des bestellten Produkts gemacht. Der Kunde kann alle Vorschlagswerte nach seinem Bedarf überschreiben, das System selber prüft, ob die Kundenvorschläge realisierbar sind. (negativ): Bei der Bestellung über das Internet wird neben Benutzerdaten und Passwort je Transaktion eine PIN abgefragt. Durch alleiniges Wissen der Benutzerdaten ist damit eine Transaktion nicht manipulierbar bzw. eine Bestellung nicht auslösbar.
2.2.3.8 Fehlerfreiheit (free of error): Informationen sind fehlerfrei, wenn sie mit der Realität übereinstimmen.
In Informationssystemen abgelegte Daten sind meist zwangsläufig eine Vergröberung der Realität. Übereinstimmung mit der Realität wird daher an dieser Stelle als Widerspruchsfreiheit zur Realität verstanden. Die Genauigkeit selbst ist ebenfalls Teil der Fehlerfreiheit. Eine ungenau erfasste Adresse, z.B. Prime Minister, Downing Street 12, führt durch den Fehler in der Hausnummer nicht zwangsläufig dazu, dass ein Brief nicht zugestellt werden kann.
37
A Informationsqualität – Grundlagen Stammdaten (negativ) Bundestag, 11111 Bärlin (positiv) Deutscher Bundestag, 11011 Berlin Bewegungsdaten (positiv) Bei jedem Verkauf eines Produktes wird die verkaufte Menge korrekt erfasst, so dass das Warenlager verlässlich automatisch wieder aufgefüllt werden kann. (negativ) Eingabefehler im Warenwirtschaftssystem führen zu Abweichungen vom tatsächlichen Warenbestand, was zu Lieferengpässen wegen fehlender Nachbestellung führt.
2.2.3.9 Eindeutige Auslegbarkeit (interpretability): Informationen sind eindeutig auslegbar, wenn sie in gleicher, fachlich korrekter Art und Weise begriffen werden.
Dabei ist maßgebend, dass die Informationen in geeigneter Sprache und Symbolen ausgedrückt und so klar formuliert sind, dass sie auf dem Weg vom Datensammler über alle Umwandlungsprozesse bis zum Nutzer stets in gleicher, fachlich korrekter Art und Weise begriffen werden. Stammdaten Die Laufzeit von Briefen kann beschrieben werden als Differenz zwischen dem Einlieferungsdatum und dem Auslieferungsdatum, ausgedrückt in jeweils vollen Tagen, unter Berücksichtigung des spätesten Entsorgungszeitpunktes der Einlieferungsstelle, ohne Berücksichtigung von Tagen ohne Zustellung. (positiv) Die „Laufzeit von Briefen“ ist eindeutig auslegbar, wenn die Merkmale (z. B. Einlieferungsdatum, Tag, Einlieferungsstelle) die internen Kundenanforderungen vollständig berücksichtigen, diese fehlerfrei definieren und dabei so klar beschreiben, dass alle Mitarbeiter dies in gleicher Weise begreifen. (negativ) Wären z. B. die „Tage ohne Zustellung“ oder die „spätesten Entsorgungszeitpunkte“ nicht eindeutig definiert und beschrieben, wäre die Laufzeit von Briefen nicht eindeutig auslegbar. Bewegungsdaten (positiv) Die in einem Aufgabenbereich eingesetzte Arbeitszeit könnte verschieden ausgedrückt sein: 1,5 Std oder 1h 30 min oder 90 min oder auch -1,75 Std oder -1h45min. Auch wenn diese Arbeitszeit mit einem negativen und damit offensichtlich falschen Wert angezeigt wird, ist dieser Wert immer noch eindeutig auslegbar.
38
2 Informationsqualität – Definitionen, Dimensionen und Begriffe (negativ) Die Erfassung der in einem Aufgabenbereich eingesetzten Arbeitszeit erfolgt in Tagen, wobei nicht definiert ist, ob es sich um die kalendarische Dauer von Beginn bis Ende der Arbeit oder die netto eingesetzten Arbeitstage handelt.
2.2.3.10 Objektivität (objectivity): Informationen sind objektiv, wenn sie streng sachlich und wertfrei sind.
Die Informationen müssen frei von Vorurteilen und unbefangen sein. Dies trifft grundsätzlich auf Rohdaten zu. Eine Bewertung und Messung von Objektivität kann nur in Kenntnis des Daten generierenden Prozesses vorgenommen werden. Im Umkehrschluss lässt sich Objektivität durch das Fehlen subjektiver Einflüsse definieren. Stammdaten Informationen über Herkunftsländer von Kunden im Kundenstammdatensatz. (positiv): Im Feld Land ist nur das Land in seiner offiziellen Bezeichnung enthalten: „Deutschland“ oder „Ghana“. Einträge wie „Sicher“ oder „Unsicher“ sind dann objektiv, wenn diese Einschätzung durch einen unabhängigen Sachverständigen anhand von festgelegten Kriterien vorgenommen wird. (negativ): Das Land wird um einen Zusatz wie „Entwicklungsland“, „Förderungswürdig“, „Sicher“ oder „Unsicher“ ergänzt. Dies ist nicht objektiv, wenn die Einschätzung auf Basis einer subjektiven Meinung des Informationsgebers getroffen wurde. Bewegungsdaten Für eine Wetterprognose werden die Wetterdaten der letzten Jahre an einem bestimmten Standpunkt benötigt. (positiv): Eine Übersicht enthält nur die Temperaturangaben. (negativ): Wetterdaten mit dem Zusatz „gutes Wetter“ oder „schlechtes Wetter“, wenn der Zusatz eine rein persönliche Präferenz wiedergibt, z.B. Schneefall = „schlechtes Wetter“.
2.2.3.11 Relevanz (relevancy): Informationen sind relevant, wenn sie für den Anwender notwendige Informationen liefern.
Notwendigkeit ist in diesem Zusammenhang nicht als mathematisch zwingende Bedingung für den Erfolg einer Entscheidung zu sehen. Vielmehr geht es darum, die Notwendigkeit der jeweiligen Information für eine Verbesserung der Zielerreichung zu beschreiben. D. h. auch wenn eine Information nur mit einer gewissen
39
A Informationsqualität – Grundlagen Wahrscheinlichkeit zu einer besseren Entscheidung führt, so ist diese Information für sich allein betrachtet doch notwendig, um diese Verbesserung zu erreichen. Die Abgrenzung zur IQ-Dimension „Wertschöpfung“ (value-added) liegt darin, dass Informationen relevant sein können, aber nicht unbedingt immer einen konkret quantifizierbaren, monetären Wertschöpfungsbeitrag leisten. Stammdaten Personendaten, die in CRM-Systemen (Customer Relation Management System) als Kontakt zu Firmenkunden dienen. (positiv) Der Vorname „Franz“ ist relevant für die Dublettenvermeidung im CRMSystem. (negativ) Sehr geringe bzw. keine Relevanz hat die Augenfarbe „graugrün“. Bewegungsdaten Zeitangabe aus Logistikprozess oder Produktion. (positiv) Eine hohe Relevanz hat die sekundengenaue Bestimmung des Zeitpunktes für den Start einer Rakete zur ISS (Internationale Raumstation). (negativ) Sehr geringe bzw. keine Relevanz hat die sekundengenaue Zeitangabe zum Anlieferungszeitpunkt von Rohstofflieferungen.
2.2.3.12 Hohes Ansehen (reputation): Informationen sind hoch angesehen, wenn die Informationsquelle, das Transportmedium und das verarbeitenden System im Ruf einer hohen Vertrauenswürdigkeit und Kompetenz stehen.
Ein hohes Ansehen ist das Ergebnis von länger andauernden positiven Erfahrungen mit einer Informationsquelle (inkl. Transport und Weiterverarbeitung) – quasi eine induktive Qualitätsbeurteilung. Das Ansehen spielt vor allem dann eine Rolle, wenn andere Dimensionen der Informationsqualität wie z.B. Fehlerfreiheit nicht oder nur unzureichend gemessen werden können. Stammdaten (positiv): Die aus einer Call-Center-Applikation übernommenen Telefonnummern genießen ein hohes Ansehen, wenn die Erfahrung gemacht wurde, dass in dem System nur Telefonnummern gespeichert werden, unter denen die entsprechende Person erreicht wurde. (negativ): Die aus einem Webportal übernommenen Telefonnummern haben kein hohes Ansehen, da erfahrungsgemäß Interessenten in dieses Pflichtfeld häufig fiktive Telefonnummern eintragen.
40
2 Informationsqualität – Definitionen, Dimensionen und Begriffe Bewegungsdaten (positiv): Bei Rechnungen, die von Abteilung Y erstellt werden, könnte die Gesamtsumme der Rechnung ein hohes Ansehen haben, da dort manuell berechnete Rabatte von einer weiteren Person geprüft werden und dadurch bisher Rechenfehler immer entdeckt wurden. (negativ) Bei Rechnungen, die von Abteilung X erstellt werden, könnte die Gesamtsumme der Rechnung ein niedriges Ansehen haben, da dort Rabatte manuell abgezogen werden und es dabei in der Vergangenheit immer wieder zu Rechenfehlern kam.
2.2.3.13 Aktualität (timeliness): Informationen sind aktuell, wenn sie die tatsächliche Eigenschaft des beschriebenen Objektes zeitnah abbilden.
Bei Aktualität von Information wird auf die Zeitdimension der Anpassung von Informationen an Änderungen in der realen Welt abgehoben. In diesem Sinne besteht ein enger Zusammenhang mit der Dimension Fehlerfreiheit. Pünktlichkeit (der Informationsbereitstellung) wird hingegen als Zeitdimension der Vollständigkeit betrachtet und nicht als eigenständige IQ-Dimension angesehen. Wenn sich die Nutzung der Informationen im Laufe der Zeit verändert, kann das eine Änderung der Anforderungen an die Information zur Folge haben. Dies stellt jedoch keine Änderung der Informationsqualität dar. Stammdaten Organisations-Kürzel in Controlling-Reports. (positiv): Perfekte Aktualität wäre gegeben, wenn die Organisationskürzel nach jeder Änderung in den Report-Formularen vor der Nutzung an die geänderte Realität angepasst sind. Alle generierten Analysen und Reports, die die Entscheidungsträger nutzen, berücksichtigen zum Zeitpunkt der Reporterstellung die durchgeführte Organisationsänderung. (negativ): Inakzeptabel wäre es, wenn die Anpassung geschäftskritischer Stammdaten so erfolgen würde, dass entsprechende Reports und Analysen nicht termingerecht erstellt werden könnten. Bewegungsdaten (positiv): Währungswechselkurse werde in einem Händlerinformationssystem alle 1-3 Sekunden an die geänderten Marktdaten angepasst. Dies erlaubt die Nutzung der Wechselkursinformation für kurzfristige Kauf- oder Angebotsentscheidungen. (negativ): Die Währungswechselkurse werde in einem Händlerinformationssystem mit 30 Sekunden Verspätung an die geänderten Marktdaten angepasst. Die Wechselkursinformationen können nicht mehr für kurzfristige Kauf- oder Angebotsentscheidungen herangezogen werden.
41
A Informationsqualität – Grundlagen
2.2.3.14 Verständlichkeit (understandability): Informationen sind verständlich, wenn sie unmittelbar von den Anwendern verstanden und für deren Zwecke eingesetzt werden können.
Stammdaten (positiv) Der Wohnort eines Kunden, an den Ware gesendet werden soll, ist als Adresse "Enge Gasse 17, 49152 Frankheim" erfasst. (negativ) Wohnort eines Kunden, an den Ware gesendet werden soll, ist als GPSKoordinate „642.85/156.50“ erfasst. Bewegungsdaten (positiv) Ein Produkt wird im Klartext „Deckenleuchte ‚matt’, 40 Watt,“ beschrieben. (negativ) Ein Produkt wird über eine Referenznummer „324-454-001“ beschrieben, die erst zusammen mit dem Produktionsdatum verständlich wird.
2.2.3.15 Wertschöpfung (value-added): Informationen sind wertschöpfend, wenn ihre Nutzung zu einer quantifizierbaren Steigerung einer monetären Zielfunktion führen kann.
Der Wertschöpfungsbeitrag von Information hängt direkt davon ab, dass die Nutzung der Information (Entscheidung) einen konkreten Wert im Sinne einer monetären Zielfunktion (Gewinn, Umsatz) hat. Der Wertschöpfungsbeitrag der Information bemisst sich dann an der Differenz zwischen dem Wert der Zielfunktion, der ohne die Information erreichbar wäre, und dem Wert, der durch die Nutzung der Information erreichbar ist. Da Informationen auch falsch genutzt oder (irrtümlich) ignoriert werden können, ist der Wertschöpfungsbeitrag einer Information auch dann gegeben, wenn sie nicht genutzt wird. Siehe auch die Anmerkung zu Relevanz (relevancy). Stammdaten Angaben zu Personen, die potenzielle Kunden sind, in Bezug auf die Zielfunktion Umsatz: (positiv) Der Nachname hat eine hohe Wertschöpfung, da durch die personalisierte Ansprache bei Direktmarketing der Erfolg (z.B. Bestellwahrscheinlichkeit, Umsatz) deutlich gesteigert werden kann. (negativ) Geschlechtsangaben haben eine niedrige Wertschöpfung, wenn gleichzeitig Anrede (Herr/Frau) und Vorname bekannt sind.
42
2 Informationsqualität – Definitionen, Dimensionen und Begriffe Bewegungsdaten Dokumentation eines Gesprächs in einem Call-Center in Bezug auf die Zielfunktion Reklamationsbearbeitung für Umsatz/ Kundenretention: (positiv) Die Wertschöpfung eines Gesprächsprotokolls zu einer ProduktReklamation ist hoch, wenn durch die Reaktion auf die Reklamation ein Kunde gehalten werden kann. (negativ) Die Wertschöpfung eines Gesprächsvermerks, in dem nur Datum und Uhrzeit vermerkt sind, ist ohne Vermerk des Gesprächsinhalts, Name und Kontaktdaten des Anrufers sehr gering.
2.2.3.16 Vollständigkeit der IQ-Dimensionen Die genannten 15 IQ-Dimensionen beschreiben die Anforderungen an Information aus Anwendersicht vollumfänglich. Es gibt jedoch einige Aspekte der Informationsqualität, die von Anwendern als sehr wichtig eingestuft werden, aber auf den ersten Blick scheinbar nicht durch die genannten IQ-Dimensionen abgedeckt werden. Hierzu zählt das Thema Dubletten bzw. Redundanzen (mehrfach vorhandene und veraltete Datensätze). Dass Dubletten und Redundanzen per se keine relevanten oder wertschöpfenden Daten für den Informationsnutzer darstellen, liegt auf der Hand. Dieser Aspekt wird durch die IQ-Dimension Wertschöpfung abgedeckt. Meist enthalten die Datensätze einer Dublettengruppe keine identischen Werte, obwohl sie dasselbe reale Objekt beschreiben. Dieser Umstand erschwert das Auffinden von Dubletten und rührt daher, dass einige dieser Datensätze in einem oder mehreren Datenfeldern eine der IQ-Dimensionen Fehlerfreiheit (z.B. Tippfehler), Aktualität (z.B. neue Adresse nach Umzug), einheitliche Darstellung (z.B. „J.S.Bachstr.“ vs „Johann-Sebastian-Bach-Str.“) oder Vollständigkeit verletzen. Als weiteres Thema ist die Sicherheit in vielerlei Hinsicht ein wichtiger Aspekt bei der Beurteilung von Informationen und Informationssystemen. Allerdings können alle Teilaspekte von Sicherheit als technische Hilfsmittel angesehen werden, die zu einer Qualitätssteigerung in einer oder mehreren der 15 IQ-Dimensionen führen und somit auch durch diese erschöpfend bewertet und beschrieben werden können. Z.B. stellt die Sicherheit vor unbefugtem Zugriff durch exklusive Kennworte eine Voraussetzung für die Wertschöpfung durch die exklusive Nutzung der Information dar. Dieser Aspekt der Sicherheit wird also durch die IQ-Dimension Wertschöpfung erklärt. Die folgenden datenschutzrechtlichen Sicherheitsaspekte stellen Voraussetzungen für die Verfügbarkeit von Daten her bzw. sicher, sind aber keine eigenständigen IQ-Dimensionen. Zum ersten stellt die Sicherheit vor unbefugtem Zugriff von personenbezogenen Daten die gesetzliche Voraussetzung für die Speicherung derartiger Daten dar. Und nur durch die Speicherung kann die Zugänglichkeit sichergestellt werden. Zum zweiten wird die Sicherheit vor Datenverlust zum Beispiel
43
A Informationsqualität – Grundlagen durch Notfallkonzepte für Serverfarmen erhöht und damit die dauerhafte Zugänglichkeit von Daten gewährleistet werden.
2.3 Zusammenfassung und Ausblick Informationsqualität ist ein hochkomplexes Thema, das je nach Anwendungssituation und Problemstellung durch unterschiedliche Begriffe beschrieben werden kann. In dem vorliegenden Beitrag wird ausgehend von den Anforderungen der Informations-Nutzer (fit-for-use Konzept) ein schlüssiges, umfassendes und überschneidungsfreies Konzept zur Beschreibung von Informationsqualität anhand von 15 IQ-Dimensionen vorgeschlagen. Ziel ist, die Kommunikation über Themen des IQ-Managementes durch eindeutige und einheitliche Begrifflichkeiten zu vereinfachen und zu verbessern. Durch Beispiele werden die Definitionen operationalisiert, ohne dass durch die Vorgabe von Metriken eine Einschränkung auf messbare IQ-Dimensionen erfolgt. Dieses Konzept stellt eine Grundlage des Managements von Informationsqualität in Unternehmen dar. Voraussetzung für den sinnvollen Einsatz der IQDimensionen ist, dass die Anforderungen an die Informationsqualität vom jeweiligen Anwender genau definiert werden. Einen allgemeingültigen Vorschlag hierzu kann es nicht geben, da jedes Unternehmen und sogar jede Organisationseinheit eines Unternehmens sehr unterschiedliche Anforderungen an Informationen hat. Eine prozessübergreifende Sicherstellung einer guten IQ kann nur erreicht werden, wenn die jeweiligen Datenkonsumenten/verwender/nutzer an den Schnittstellen ihre relevanten IQ-Dimensionen genau mit ihren Anforderungen unterlegen und diese auch aktuell halten. Damit hat man die Möglichkeit, die Messgegenstände zur Bewertung der IQ klar zu strukturieren und kann damit sogar ein Benchmarking innerhalb eines Unternehmens durchführen. So kann innerhalb des Prozessablaufes über verschiedene Organisationseinheiten hinweg eine steigende oder fallende IQ nachvollzogen werden. Die 15 IQ-Dimensionen und 4 IQ-Kategorien basieren auf Ergebnissen einer Umfrage unter IT-Nutzern in den USA im Jahr 1996 und können deshalb einen Praxisbezug für sich in Anspruch nehmen. Allerdings haben sich die technischen Umfeldbedingungen in den letzten 11 Jahren grundlegend geändert und damit auch die Anwendungsmöglichkeiten für Informationssysteme. Vor diesem Hintergrund erscheint es sinnvoll, eine erneute Erhebung unter IT-Nutzern durchzuführen, um zu prüfen, ob das vorliegende Konzept immer noch umfassend ist und alle relevanten Aspekte der Informationsqualität aus Anwendersicht widerspiegelt. Es wäre dann auch wünschenswert, eine Umfrage unter deutschsprachigen ITNutzern durchzuführen, um die gewählte Begrifflichkeit durch statistische Methoden abzustützen.
44
2 Informationsqualität – Definitionen, Dimensionen und Begriffe
Literaturverzeichnis [Eppler & Wittig 2000] Eppler, M. J.; Wittig, D.: Conceptualizing Information Quality: A Review of Information Quality Frameworks from the Last Ten Years. In: Proceedings of the International MIT Conference on Information Quality, Cambridge, 2000. [Hildebrand 2006] Hildebrand, K.: Stammdatenqualität – der Schlüssel für optimale Geschäftsprozesse. In: ISreport, 10. Jg., 2006, Heft 11, S. 17 - 19 [Hinrichs 2002] Hinrichs, H.: Datenqualitätsmanagement in Data WarehouseSystemen. Diss., Oldenburg, 2002 [Lee et al. 2006] Lee, Y. W.; Pipino, L. L.; Funk, J. D.; Wang, R. Y.: Journey to Data Quality.MIT Press, Cambridge, 2006 [Naumann & Rolker 2000] Naumann, F.; Rolker, C.: Assessment Methods for Information Quality Criteria. In: Proceedings of the International MIT Conference on Information Quality, Cambridge, 2000. [Wang & Strong 1996] Wang, R. Y.; Strong, D. M.: Beyond Accuracy: What Data Quality Means to Data Consumers. In: Journal of Management Information Systems, 12. Jg., 1996, Heft 4 (Spring), S. 5 - 34
45
B Methoden – Techniken – Tools – Regelwerke/Standards
1 Datenqualitätsmetriken für ein ökonomisch orientiertes Qualitätsmanagement Bernd Heinrich, Mathias Klier
1.1 Einleitung Für eine ökonomische Betrachtung der Datenqualität (DQ) und insbesondere die Planung von DQ-Maßnahmen unter Kosten-Nutzen-Aspekten sind DQ-Metriken unverzichtbar (vgl. z.B. [Heinrich & Klier 2006; Naumann 2007; Pipino et al. 2002]). Deswegen wird im Folgenden die Fragestellung aufgegriffen, wie DQ zweckorientiert und adäquat quantifiziert werden kann. Dazu werden Metriken entwickelt und vorgestellt, die zum einen eine quantitative Analyse der zum Messzeitpunkt vorhandenen DQ ermöglichen sollen, um Handlungsbedarfe zu identifizieren. Zum anderen sollen Auswirkungen auf die DQ, wie z. B. zeitlicher Verfall oder die Durchführung von DQ-Maßnahmen, zielgerichtet – durch Vergleich des DQNiveaus zu zwei oder mehreren Messzeitpunkten – untersucht werden können. Die Identifikation und Klassifikation von DQ-Dimensionen wird in einer Vielzahl von wissenschaftlichen und praxisorientierten Veröffentlichungen thematisiert (vgl. z. B. [Wang & Strong 1996, English 1999; Eppler 2003; Helfert 2002; Hinrichs 2002; Lee et al. 2002; Jarke & Vassiliou 1997; Redman 1996]). Nachfolgend werden die DQ-Dimensionen Vollständigkeit, Fehlerfreiheit, Konsistenz und Aktualität näher untersucht und mit entsprechenden Metriken versehen. Diese Dimensionen werden zum einen in wissenschaftlichen Veröffentlichungen besonders intensiv diskutiert. Zum anderen spielen die genannten Dimensionen aber auch in der Praxis eine wichtige Rolle: So fanden sich Vollständigkeit, Fehlerfreiheit, Konsistenz sowie Aktualität beispielsweise in einer Studie von Helfert, die unter 25 größeren Unternehmen in Deutschland, Österreich und der Schweiz durchgeführt wurde, allesamt unter den fünf meist genannten DQ-Dimensionen wieder (vgl. [Helfert 2002]). Neben der Selektion von betrachteten DQ-Dimensionen wird zudem im Folgenden die „fachliche“ DQ fokussiert, die hinsichtlich der Spezifikation des Datenmodells weitgehend automatisiert und objektivierbar gemessen werden soll (vgl. spezifikationsorientierte DQ bzw. Konformitätsqualität nach [Juran 1999] und [Seghezzi 1996]). Inwiefern den Anforderungen der Datenverwender bei der Spezifikation des Informationssystems Rechnung getragen wurde, ist dagegen den Bereichen Anforderungsmanagement und Bedarfsanalyse zuzurechnen und kann vor allem mittels Fragebögen und Interviews untersucht werden. Dieser Aspekt wird hier ebenso wie beispielsweise die Qualität der Datenrepräsentation, die eher auf die
49
B Methoden – Techniken – Tools – Regelwerke/Standards „technische“ DQ im Sinne von Datenformat und Datenspeicherung abzielt, nicht weiter betrachtet. Die Zusammenhänge zwischen DQ-Metriken und der Planung von DQMaßnahmen im Rahmen eines ökonomisch orientierten DQ-Managements lassen sich anhand des DQ-Regelkreises graphisch veranschaulichen (siehe Bild 1):
DQDimension
Kennzahl Kennzahl DQ-Niveau Kennzahl Kennzahl (gemessen mit DQ-Metrik)
Nutzen
DQMaßnahme
Kosten
Abbildung 1: Datenqualitätsregelkreis
Den Regler, über den in den Regelkreis eingegriffen werden kann, stellen die DQMaßnahmen dar. Die Durchführung von DQ-Maßnahmen soll dabei eine Verbesserung der DQ – gemessen anhand der Metriken – zur Folge haben, wodurch ein entsprechender ökonomischer Nutzen resultiert. Ausgehend von einem bestimmten DQ-Niveau kann umgekehrt ebenfalls mithilfe der Metriken ex ante bzw. ex post die Steigerung der DQ durch entsprechende Maßnahmen abgeschätzt bzw. gemessen werden. Werden ökonomische Maßstäbe zugrunde gelegt, muss jedoch die Auswahl der DQ-Maßnahmen unter Berücksichtigung von Kosten-NutzenGesichtspunkten erfolgen (vgl. z. B. [Campanella 1999; Feigenbaum 1991; Machowski & Dale 1998; Shank & Govindarajan 1994]). Beispielsweise würde man bei zwei zu bewertenden, sich ausschließenden Maßnahmen, aus denen (annähernd) der gleiche ökonomische Nutzen resultieren würde, nur die kostengünstigere in Betracht ziehen. Im nächsten Abschnitt werden zunächst die allgemeinen Anforderungen an DQMetriken formuliert, bevor im darauf folgenden Abschnitt ein kurzer Überblick über ausgewählte Ansätze zur Quantifizierung von DQ gegeben wird. Im Anschluss daran werden Metriken für die vier oben genannten DQ-Dimensionen entwickelt sowie deren Eigenschaften diskutiert. Bevor abschließend die Ergebnisse zusammengefasst und weiterer Forschungsbedarf identifiziert werden, soll eine kurze Anwendung der Metrik für Aktualität im Customer Relationship Manage-
50
1 Datenqualitätsmetriken für ein ökonomisch orientiertes Qualitätsmanagement ment eines Mobilfunkanbieters einen Einblick geben, wie die Metriken im Rahmen eines ökonomisch orientierten DQ-Managements genutzt werden können.
1.2 Anforderungen an Datenqualitätsmetriken Um eine wissenschaftliche Fundierung zu gewährleisten und gleichzeitig eine praktische Anwendung zu ermöglichen, werden nachfolgend Anforderungen an DQ-Metriken definiert (in Teilen ähnliche Anforderungen finden sich auch bei [Even & Shankaranarayanan 2005] und [Hinrichs 2002]): – [Normierung] Um die Interpretierbarkeit und Vergleichbarkeit der Metrikergebnisse zu gewährleisten, ist eine geeignete Normierung der Metrikergebnisse zu fordern. – [Kardinalität] Um eine Analyse der zeitlichen Entwicklung der Metrikergebnisse (DQ-Niveau) und eine ökonomische Bewertung von Maßnahmen zu unterstützen, ist die Kardinalität der Metriken erforderlich (vgl. [Bamberg et al. 2007]). – [Sensibilisierbarkeit] Um das DQ-Niveau zielgerichtet messen zu können, ist es notwendig, dass die Metriken für eine konkrete Anwendung sensibilisiert und für den jeweiligen Zweck, welcher der Messung zugrunde liegt, konfiguriert werden können. – [Aggregierbarkeit] Um bei Zugrundelegung eines relationalen Datenbankschemas einen flexiblen Einsatz zu ermöglichen, soll die Metrik Ergebnisse auf Attributwert-, Tupel-, Relationen- sowie Datenbankebene liefern können. Dabei muss jedoch die Aggregierbarkeit der Metrikergebnisse auf einer Ebene zur nächst höheren Ebene gewährleistet sein. – [Fachliche Interpretierbarkeit] In der praktischen Anwendung reicht in der Regel die bloße Normierung und Kardinalität der Metriken nicht aus. Vielmehr müssen die resultierenden Metrikergebnisse auch fachlich interpretierbar und reproduzierbar sein. Auf Basis dieser Anforderungen lassen sich existierende Beiträge (beispielsweise [Ballou et al. 1998; English 1999; Helfert 2002; Hinrichs 2002; Lee et al. 2002; Naumann et al. 2004; Redman 1996; Wang et al. 1995]) analysieren. Im folgenden Abschnitt wird kurz auf ausgewählte Beiträge eingegangen.
1.3 Bisherige Beiträge zur Messung von Datenqualität In der Literatur findet sich eine ganze Reihe von Ansätzen zur Quantifizierung von DQ, die sich neben den jeweils fokussierten DQ-Dimensionen vor allem in den zugrunde liegenden Messverfahren unterscheiden (vgl. z. B. Ansätze in [Wang et al. 1995]). So existieren nach [Helfert 2002] sowohl Verfahren, die auf der subjektiven Qualitätseinschätzung der Datenverwender beruhen, als auch Ansätze, die auf
51
B Methoden – Techniken – Tools – Regelwerke/Standards einer direkten Analyse des Datenbestands oder einer prozessorientierten Betrachtungsweise basieren. In der Folge werden ausgewählte Ansätze vorgestellt. Am Massachusetts Institute of Technology (MIT), das den Begriff des “Total Data Quality Managements“ geprägt hat, wurde zur Messung der DQ die AIM Quality (AIMQ)-Methode entwickelt [vgl. z. B. Lee et al. 2002]. Diese besteht aus drei Komponenten. Die erste ist das Product-Service-Performance-Model, das eine vorgefertigte Menge von DQ-Dimensionen in vier Quadranten aufteilt. Unterschieden wird dabei zum einen auf Grundlage der Messbarkeit des Kriteriums. Dabei wird differenziert, ob die Konformität hinsichtlich einer formalen Spezifikation (z. B. Vollständigkeit) oder einer subjektiven Erwartung des Datennutzers (z. B. Interpretierbarkeit) bestimmt werden kann. Zum anderen wird nach der Qualität des Datenprodukts (z. B. Fehlerfreiheit) und des Services (z. B. Rechtzeitigkeit) unterschieden. Die Messung der DQ erfolgt dann, basierend auf obigem Modell, mittels eines zweiten Bestandteils in Form einer Befragung der Endanwender nach deren Qualitätseinschätzungen. Als dritte Komponente von AIMQ werden mit Benchmark-Gap- und Role-Gap-Analyse eine anwendungsunabhängige sowie eine anwendungsabhängige Qualitätsanalyse der Messergebnisse vorgeschlagen. Problematisch bei der AIMQ-Methode ist, dass die Messung der DQ in der Regel auf einer subjektiven Qualitätseinschätzung basiert und anhand von Befragungen vorgenommen wird. Dieses Vorgehen ermöglicht in der Regel keine automatisierte, objektivierbare und beliebig reproduzierbare Analyse der DQ bzw. der erhaltenen Ergebnisse der Messung. Zudem ist eine zielgerichtete und fokussierte Messung der DQ auf den konkreten Anwendungszweck und -kontext hin nicht explizit vorgesehen, auch wenn diese durch die Befragung der Datennutzer in der Role-GapAnalyse natürlich implizit berücksichtigt wird. Da die Auswertung der Befragungsergebnisse über alle Datennutzer erfolgt, werden jedoch deren subjektive Qualitätseinschätzungen und somit die Anwendungskontexte vermischt. Dies kann zu Bewertungsproblemen führen, da die Nutzer in der Regel unterschiedliche Zielsetzungen verfolgen. Ein anderes hier zu nennendes Verfahren ist der Ansatz von Hinrichs. Dieser entwickelt Metriken für ausgewählte DQ-Dimensionen, um die Qualität eines Datenbestandes bewerten zu können (vgl. [Hinrichs 2002]). Das zugrunde liegende Verfahren zur Quantifizierung der DQ ist dabei sehr aussichtsreich, da eine objektivierbare, zielgerichtete Bewertung angestrebt und eine weitgehend automatisierte Messung ermöglicht wird. Allerdings können beim Praxiseinsatz durchaus auch Probleme auftreten, da die vorgestellten Metriken nur schwer interpretierbar sind, was eine Begründung und Erklärung der Messergebnisse in der Diskussion beispielsweise mit der Fachseite erschweren dürfte. So basieren einige Metriken, wie z. B. diejenige für die DQ-Dimension Fehlerfreiheit, auf der Bildung von Quotienten der Form
52
1 Datenqualitätsmetriken für ein ökonomisch orientiertes Qualitätsmanagement
1 , Abstandsbewertung 1 wobei die Abstandsbewertung aus dem Intervall [0; f] angibt, inwieweit ein Attributwert im Informationssystem von der entsprechenden Ausprägung der Realwelt-Entität abweicht. Dadurch wird zwar der Wertebereich der Metrik auf das Intervall [0; 1] beschränkt, jedoch geht durch die Quotientenbildung die Interpretierbarkeit der resultierenden Werte verloren (vgl. im Detail [Heinrich et al. 2007]). Zudem hängt die Größenordnung der Werte stark vom verwendeten Abstandsmaß und dessen Eigenschaften ab, was zusätzlich eine Vergleichbarkeit der Ergebnisse erschwert. Der Ansatz von Helfert unterscheidet grundsätzlich – basierend auf den Ausführungen von [Seghezzi 1996] und [Juran 1999] – die beiden Qualitätsfaktoren Designqualität und Ausführungsqualität (vgl. [Helfert 2002]). Dabei bezeichnet die Designqualität den Grad der Übereinstimmung zwischen den Anforderungen der Datennutzer und der entsprechenden Umsetzung in der Spezifikation des Informationssystems. Die Ausführungsqualität, die Helfert schwerpunktmäßig betrachtet, drückt dagegen aus, in welchem Maße diese Spezifikation durch das Informationssystem (tatsächlich) eingehalten wird. Diese Unterscheidung ist im Hinblick auf die Messung der DQ sinnvoll, da somit die (subjektive) Einschätzung der Konformität zwischen dem spezifizierten Datenangebot und dem Datenbedarf des Nutzers von der (objektivierbaren) Analyse der Übereinstimmung von vorhandenem und spezifiziertem Datenangebot getrennt wird. Den zentralen Aspekt bei Helfert stellt die Integration des DQ-Managements in die Metadatenverwaltung dar, die ein weitgehend automatisiertes und werkzeugunterstütztes Management der DQ ermöglichen soll. Die Qualitätsanforderungen sind dabei durch eine Regelmenge repräsentiert. Die Analyse der DQ basiert dann hauptsächlich auf der (automatisierten) Überprüfung derartiger Regeln, d. h. anhand der Analyse werden Qualitätsaussagen im Sinne von
Widerspruchsfreiheit 1
Anzahl verletzter Bedingungen Anzahl spezifizierter Bedingungen
abgeleitet. Derartige Qualitätsaussagen sollen in aggregierter Form als Größen zur Quantifizierung der DQ Verwendung finden und somit Auskunft über die Qualität des Datenbestands geben. Insgesamt stellt Helfert in seinen Ausführungen jedoch keine konkreten Metriken vor, sondern hat vielmehr den Anspruch, ein ganzheitliches, proaktives DQ-Management auf einer konzeptionellen Ebene zu beschreiben. Neben den wissenschaftlichen Ansätzen sollen auch die beiden bekannten Konzepte von English und Redman aus der Praxis genannt werden. English verfolgt dabei die Total Quality data Management-Methode (vgl. [English 1999]), die an die Konzepte des Total Quality Managements angelehnt ist. Dabei führt er Vorge-
53
B Methoden – Techniken – Tools – Regelwerke/Standards hensmuster zur Messung der Datendefinitions- und Architekturqualität (das Informationssystem betreffend) sowie der Qualität der Datenwerte und der Datenrepräsentation an. Obwohl das Verfahren in einer Reihe von Praxisprojekten Verwendung gefunden hat, gibt es hier kein allgemeines, dokumentiertes Vorgehen zur Quantifizierung der DQ. Vielmehr wird der gesamte DQ-Regelkreis auf einer konzeptionellen Ebene betrachtet. Redman verfolgt im Gegensatz zu English einen stark prozessorientierten Ansatz und kombiniert Messverfahren für gezielt ausgewählte Abschnitte im Informationsfluss mit dem Konzept der statistischen Qualitätskontrolle (vgl. [Redman 1996]). Konkrete Metriken zur Quantifizierung der DQ werden dabei allerdings nicht entwickelt. Da die bestehenden Ansätze die zuvor definierten Anforderungen jedoch nicht oder nicht vollständig erfüllen – auch infolge unterschiedlicher Zielsetzungen, da sie zum Teil beispielsweise die subjektive Qualitätseinschätzung der Datenverwender fokussieren –, wird im Folgenden ein eigener Ansatz vorgestellt, der einen Beitrag zur wissenschaftlichen Fundierung sowie zur praktischen Einsetzbarkeit von DQ-Metriken leisten will.
1.4 Metriken und Messverfahren für DQ Die im Folgenden vorgestellten Metriken für die Dimensionen Vollständigkeit, Fehlerfreiheit, Konsistenz und Aktualität werden – orientiert an der Anforderung der Aggregierbarkeit – jeweils für die Attributwert-, Tupel-, Relationen- sowie Datenbankebene definiert. Dabei wird jede Metrik „bottom up“ entwickelt – d. h. eine Metrik auf Ebene n+1 (z. B. Vollständigkeit auf Tupelebene) basiert auf der entsprechenden Metrik auf Ebene n (Vollständigkeit auf Attributwertebene).
1.4.1 Metrik für die DQ-Dimension Vollständigkeit Unter Vollständigkeit wird hier die Eigenschaft verstanden, dass die Attribute im Informationssystem mit Werten belegt sind, die (semantisch) vom Wert NULL abweichen. NULL ist dabei kein erforderlicher oder definierter Attributwert, sondern lediglich ein Platzhalter für die Nichtbefüllung. Die Metriken auf Attributwert-, Tupel- sowie Relationenebene sollen dabei in Anlehnung an Hinrichs (vgl. [Hinrichs 2002]) definiert werden. Zusätzlich wird darauf eingegangen, welche Probleme bei der praktischen Anwendung der Metrik auftreten können und wie diesen zu begegnen ist. Auf Datenbankebene muss die Metrik zudem anders ausgestaltet werden, um eine objektivierbare Messung zu ermöglichen. Auf Attributwertebene wird die Metrik für Vollständigkeit QVollst.(w) folgendermaßen definiert, wobei w einen Attributwert im Informationssystem symbolisiert:
0 QVollst.(w) : ® ¯1
54
falls w
NULL oder w zu NULL (semantisch) äquivalent sonst
1 Datenqualitätsmetriken für ein ökonomisch orientiertes Qualitätsmanagement Die Qualität eines Attributwertes wird also hinsichtlich Vollständigkeit mit dem Minimalwert von null bewertet, falls das entsprechende Attribut nicht befüllt ist oder einen zu NULL (semantisch) äquivalenten (Default-)Wert enthält (z. B. Dummy-Wert). Ansonsten ergibt sich der Wert der Metrik auf Attributwertebene zu eins. Probleme bei der Metrik können dann auftreten, wenn ein Attributwert nicht aus Mangel an verfügbaren Daten mit NULL belegt ist, sondern, weil der entsprechende Wert in der Realwelt gar nicht existiert (z. B. Name des Ehepartners bei ledigen Personen). In diesem Fall wäre das entsprechende Attribut mit dem Wert NULL in der Tat richtig belegt und die Bewertung hinsichtlich Vollständigkeit müsste den Wert eins und nicht den Wert null liefern. Schwierigkeiten dieser Art können umgangen werden, indem Indikatoren dafür eingeführt werden, dass der entsprechende Wert in der Realwelt nicht existiert. So kann beispielsweise das Attribut Name des Ehepartners (automatisiert) mit „nicht verheiratet“ belegt werden, falls bei der Erfassung des Familienstandes ledig angegeben wird. Somit ist das entsprechende Attribut in der Datenbank befüllt und die obige Metrik liefert auf Attributwertebene den korrekten Wert eins. Vor der ersten Anwendung der Metrik müssen die Daten somit hinsichtlich der vorgestellten Problematik untersucht und ggf. auftretende Schwachstellen beseitigt werden. Hierbei wäre beispielsweise an eine Vervollständigung des Datenbestands mit Indikatoren zu denken, sofern dies technisch sowie fachlich möglich und sinnvoll ist und keine Seiteneffekte auf Ergebnisse anderer Metriken besitzt. Im Folgenden wird, basierend auf den obigen Ausführungen zur Attributwertebene, die Metrik auf Tupelebene formuliert. Sei hierbei T ein Tupel mit den Attributwerten T.A1, T.A2, …, T.A|A| für die Attribute A1, A2, …, A|A| und gi [0; 1] die relative Wichtigkeit von Ai in Bezug auf Vollständigkeit. Dann ergibt sich unter Verwendung der Metrik auf Attributwertebene die Metrik auf Tupelebene als gewichtetes arithmetisches Mittel: A
QVollst . T :
¦Q
Vollst .
T . Ai gi
i 1
A
¦g
i
i 1
Die Vollständigkeit eines Tupels wird folglich basierend auf der Vollständigkeit der enthaltenen Attributwerte berechnet. Dabei ist es möglich, diese je nach Zielsetzung mit Gewichtungen gi zu versehen. Dies ist insofern sinnvoll, da je nach zugrunde liegendem Zweck in einem Anwendungskontext die Attribute von unterschiedlicher Bedeutung sind. So sind z. B. für die Durchführung von Mailingkampagnen Attribute wie Name, Vorname, Adresse oder E-Mail besonders relevant,
55
B Methoden – Techniken – Tools – Regelwerke/Standards wohingegen bei telefonischen Kampagnen vor allem die Telefonnummer und nicht Adresse und E-Mail von Bedeutung sind. Im nächsten Schritt wird die Metrik auf Relationenebene definiert. Sei hierbei R eine nicht leere Relation oder ein mehrelementiger View. Dann ergibt sich die Vollständigkeit der Relation R auf Basis des arithmetischen Mittels der Vollständigkeitsbewertungen für die einzelnen Tupel Tj aus R (j = 1, 2, …, |T|) wie folgt: |T |
QVollst . R :
¦ Q T Vollst .
j
j 1
|T |
Durch die Verwendung des arithmetischen Mittels werden dabei alle Qualitätsbewertungen auf Tupelebene gleich gewichtet und aufsummiert. Jedem enthaltenen Tupel kommt somit die gleiche Bedeutung zu. Dies ist deswegen sinnvoll, da in der Regel in einem Anwendungskontext die einzelnen, bereits selektierten Tupel (bspw. verschiedene Kundentupel in einer Marketingkampagne) nicht in unterschiedlicher Art und Weise behandelt oder genutzt werden. Sollte dies im Einzelfall notwendig sein, so sind ebenfalls Gewichtungsfaktoren nach obigem Muster denkbar. Für die Definition der Metrik für Vollständigkeit auf Datenbankebene sei D eine Datenbank, die sich als disjunkte Zerlegung der Relationen Rk (k = 1, 2, …, |R|) darstellen lässt – d. h., die gesamte Datenbank lässt sich in paarweise überschneidungsfreie Relationen Rk zerlegen, so dass jedes Attribut des Informationssystems in genau einer der Relationen enthalten ist (eine mathematische Formulierung dieses Sachverhaltes ist D = R1 R2 … R|R| Ri Rj = i z j). Weiter sei gk die relative Wichtigkeit der Relation Rk in Bezug auf die Dimension Vollständigkeit. Dann wird die Vollständigkeit der Datenbank wiederum auf Basis der Vollständigkeit der Relationen Rk (k = 1, 2, …, |R|) definiert: | R|
QVollst . D :
¦Q
Vollst .
Rk g k
k 1
| R|
¦g
k
k 1
Über die Gewichtungsfaktoren gk [0; 1] ist es dabei im Vergleich zu Hinrichs, bei dem sich die Vollständigkeit der Datenbank als ungewichtetes arithmetisches Mittel ergibt, möglich, die relative Wichtigkeit der einzelnen Relationen gemäß der jeweiligen Zielsetzung zu berücksichtigen. Das Vorgehen von Hinrichs hat zur Folge, dass hinsichtlich der verfolgten Zielsetzung kaum relevante Relationen genauso stark in die Berechnung eingehen wie besonders wichtige Relationen. Zudem ist für den Fall, dass das ungewichtete arithmetische Mittel Verwendung fin-
56
1 Datenqualitätsmetriken für ein ökonomisch orientiertes Qualitätsmanagement det, die Quantifizierung der Vollständigkeit auf Datenbankebene von der betrachteten Zerlegung der Datenbank abhängig. So kommt beispielsweise der Relation Rk mit k z 2 bei der disjunkten Zerlegung {R1, R2, R3, …, R|R|} ein relatives Gewicht von 1/|R| zu, wohingegen dieselbe Relation bei Verwendung der disjunkten Zerlegung {R1, R2', R2'', R3 …, R|R|} mit R2' R2'' = R2 und R2' R2'' = nur mit dem Faktor 1/(|R|+1) eingeht. Die Messung der Vollständigkeit mit Hilfe der Metrik kann in der Regel einfach mittels entsprechender SQL-Abfragen und bei Bedarf für den kompletten Datenbestand durchführt werden. Im nächsten Abschnitt wird eine Metrik für die DQDimension Fehlerfreiheit vorgestellt.
1.4.2 Metrik für die DQ-Dimension Fehlerfreiheit Unter Fehlerfreiheit wird hier die Eigenschaft verstanden, dass die Attributwerte im Informationssystem den zugehörigen Ausprägungen der modellierten Realwelt-Entität entsprechen – d. h., dass die im Informationssystem abgelegten Werte mit den tatsächlichen, realen Werten übereinstimmen. Nach Würthele existieren bei der Messung der Fehlerfreiheit grundsätzlich zwei Möglichkeiten: Beim „Alles oder Nichts“-Ansatz wird bei der Überprüfung ausschließlich zwischen fehlerfrei (Attributwert stimmt vollständig mit der Ausprägung der modellierten Realwelt-Entität überein) und nicht fehlerfrei (es existiert mindestens eine Abweichung) differenziert (vgl. [Würthele 2003]). Im Gegensatz dazu wird beim Toleranz-Ansatz der Umfang der Übereinstimmung (beziehungsweise der Abweichung) zwischen Attributwert und Ausprägungen der modellierten RealweltEntität gemessen und ist damit als Analyseergebnis zulässig. So kann berücksichtigt werden, ob die entsprechenden Attributwerte nur geringfügig oder in größerem Umfang von den realen Ausprägungen abweichen. Bei der im Folgenden entwickelten Metrik kann je nach verwendetem Abstandsmaß der „Alles oder Nichts“- oder der Toleranz-Ansatz Berücksichtigung finden. Die Vorteile der vorgestellten Metrik im Vergleich zu bisherigen Ansätzen liegen dabei vor allem in der Kardinalität und Interpretierbarkeit begründet. So können die resultierenden Werte grundsätzlich als prozentualer Wert für die Fehlerfreiheit des untersuchten Datenbestands verstanden werden. Im Weiteren wird die Metrik für Fehlerfreiheit dabei aus Platzgründen nur auf Attributwertebene vorgestellt. Sie kann jedoch analog zur Metrik für Vollständigkeit ebenfalls für die anderen Ebenen formuliert werden. Sei wI ein Attributwert im Informationssystem und wR der entsprechende Attributwert in der Realwelt. Sei zudem d(wI, wR) ein domänenspezifisches, auf das Intervall [0; 1] normiertes Abstandsmaß zur Bestimmung der Abweichung zwischen wI und wR. Mögliche Abstandsmaße sind beispielsweise folgende: – Der domänenunabhängigen Abstandsfunktion
57
B Methoden – Techniken – Tools – Regelwerke/Standards
0 falls wI wR d1 wI , wR : ® sonst ¯1 liegt der „Alles oder Nichts“-Ansatz zugrunde. Somit lassen sich zwei Fälle unterscheiden: Entweder der Attributwert im Informationssystem stimmt mit der Ausprägung der entsprechenden Realwelt-Entität überein (Abstand entspricht null) oder die Abweichung wird mit dem Maximalwert von eins festgelegt. – Ein Abstandsmaß, das speziell bei numerischen Attributwerten eingesetzt werden kann, ist die Abstandsfunktion D
§ · wI wR ¸ , d 2 ( wI , wR ) : ¨¨ ¸ ^ ` max | |, | | w w I R © ¹ die den Wert null ebenfalls nur bei vollständiger Übereinstimmung annimmt. Allerdings kann über den Parameter D IR+ – je nach untersuchtem Attribut und verfolgter Zielsetzung der Messung – beeinflusst werden, wie stark die Metrik auf relative Abweichungen von wI und wR reagieren soll. So kann es beispielsweise im Fall einer Marketingkampagne bei der Untersuchung des Attributs PLZ notwendig sein, dass kleine Abweichungen relativ stark ins Gewicht fallen, da hierdurch eventuell das Kundenanschreiben nicht mehr zugestellt werden kann – hier ist D < 1 zu wählen. Soll die Abstandsfunktion dagegen „toleranter“ gegenüber kleinen Abweichungen sein, ist D > 1 angebracht – wie z. B. beim Attribut Hausnummer, da die Zustellung hier trotzdem noch möglich ist. Bei Verwendung dieser Abstandsfunktion muss allerdings beachtet werden, dass die Normierung des Maßes auf das Intervall [0; 1] nur dann gegeben ist, wenn die Werte wI und wR gleiche Vorzeichen haben. Andere Abstandsmaße d(wI, wR), die es ermöglichen, die Ähnlichkeit von Zeichenketten zu bestimmen, können auf Basis von Editierabstand, Hamming-Distanz und N-Grammen gebildet werden, wobei hier zum Teil eine Normierung auf das Intervall [0; 1] notwendig ist: – Der Editierabstand dEdit.(wI, wR) ist als kleinste Menge elementarer Operationen definiert, mit denen eine Zeichenkette in eine andere transformiert werden kann, wobei Einfügen und Löschen von einzelnen Zeichen ebenfalls als elementare Operationen zu betrachten sind. Wird zusätzlich das Ersetzen von Zeichen erlaubt, spricht man von der Levenshtein-Metrik dLev.(wI, wR), die durch Hinzunehmen der Transposition (Vertauschung benachbarter Symbole) als weitere zulässige Operation zur so genannten DamerauLevenshtein-Metrik dDa.-Lev.(wI, wR) ausgebaut werden kann, die speziell zur Tippfehlerkorrektur entworfen wurde. Bei Verwendung dieser Abstandsmaße muss der resultierende Wert noch auf das Intervall [0; 1] normiert
58
1 Datenqualitätsmetriken für ein ökonomisch orientiertes Qualitätsmanagement werden. Diese Normierung kann dadurch erfolgen, dass die Werte durch das Maximum der Längen der beiden Zeichenketten wI und wR dividiert werden. – Die Hamming-Distanz dHam.(wI, wR) summiert die Anzahl der Positionen, in denen sich die beiden Zeichenketten wI und wR unterscheiden. Definitionsgemäß existiert die Hamming-Distanz dabei nur für Zeichenketten gleicher Länge – bei Strings unterschiedlicher Länge kann jedoch der jeweils kürzere mit „Dummy-Zeichen“ aufgefüllt werden, die als nicht übereinstimmend gelten. Für zwei gleich lange Strings wI und wR mit |wI| = |wR| = m ergibt sich die auf das Intervall [0; 1] normierte Hamming-Distanz zu:
d Ham. ( wI , wR ) :
^i ^1,2,...m`| wI [i] z wR [i]` m
– N-Gramme betrachten das gemeinsame Auftreten von Substrings in den zu vergleichenden Zeichenketten. Ein N-Gramm ist dabei ein zusammenhängender Teil einer Zeichenkette und hat die Länge N. Für die Zeichenketten wI und wR werden dabei jeweils alle enthaltenen N-Gramme gebildet und in entsprechenden Mengen abgelegt. Danach wird die Anzahl der in beiden Mengen gleichermaßen enthaltenen N-Gramme ins Verhältnis zur Anzahl der insgesamt in NG(wI) und NG(wR) enthaltenen N-Gramme gesetzt. So ergibt sich die Abstandsfunktion, deren Wertebereich auf das Intervall [0; 1] beschränkt ist, zu:
d N Gramm ( wI , wR ) : 1 2
NG ( wI ) NG ( wR ) NG ( wI ) NG ( wR )
Basierend auf einem Abstandsmaß d(wI, wR) kann die Metrik für Fehlerfreiheit auf Attributwertebene folgendermaßen definiert werden:
QFehl . wI , wR : 1 d wI , wR
Die Fehlerfreiheit eines Attributwertes wird somit mit dem Maximalwert von eins bewertet, falls der Attributwert im Informationssystem mit der modellierten Ausprägung der Realwelt-Entität (vollständig) übereinstimmt und das verwendete Abstandsmaß d(wI, wR) den Wert null liefert. Bei einer Abweichung zwischen wI und wR fällt der Wert der Metrik je nach verwendetem Abstandsmaß geringer aus. Allgemein ist bei Verwendung der Metrik für Fehlerfreiheit zu berücksichtigen, dass im Vorfeld möglicherweise (automatisierte) Data-Cleansing-Maßnahmen durchgeführt werden müssen. Dabei ist es insbesondere notwendig, dass eindeutig interpretierbare Abkürzungen über den gesamten Datenbestand hinweg „glatt gezogen“ und vervollständigt werden, damit die zugrunde liegenden Abstandsmaße und somit die darauf basierende Metrik richtig ausgewertet werden. Ein Beispiel für eine solche Maßnahme ist das Ersetzen der Abkürzung „Str.“ durch „Straße“. Nur durch Transformationen dieser Art kann sichergestellt werden, dass
59
B Methoden – Techniken – Tools – Regelwerke/Standards die Abstandsmaße korrekte Attributwerte auch als solche identifizieren und angemessene Ergebnisse liefern. Die Messung der Fehlerfreiheit kann dann direkt auf Basis obiger Metrik in Verbindung mit entsprechenden Abstandsmaßen zur Bestimmung der Fehlerfreiheit auf Attributwertebene erfolgen. Hierbei ist man in der Regel gezwungen, auf Stichproben zurückzugreifen und statistische Verfahren anzuwenden (vgl. z. B. [Helfert 2002]), da ein Abgleich zwischen den Attributwerten im Informationssystem und den tatsächlichen Ausprägungen der Realwelt-Entität erforderlich ist. Dieser Abgleich ist normalerweise nicht ohne weiteres technisch, automatisiert und mit akzeptablem Kostenaufwand für den gesamten Datenbestand durchführbar. Im Falle einer Stichprobe können jedoch bei ausreichend großem Umfang zumindest Schätzer für den Qualitätswert QFehl.(wI, wR) ermittelt und Rückschlüsse auf den gesamten Datenbestand gezogen werden. Im nächsten Abschnitt wird eine Metrik für die DQ-Dimension Konsistenz erläutert.
1.4.3 Metrik für die DQ-Dimension Konsistenz Unter Konsistenz ist die Eigenschaft der Widerspruchsfreiheit des Datenbestandes zu verstehen. Die Überprüfung basiert dabei im Folgenden auf logischen Zusammenhängen, die für die betroffene Datenmenge gelten sollen und durch die Regelmenge repräsentiert werden. Regeln, die auf statistischen Zusammenhängen beruhen und somit nur bestimmten Signifikanzniveaus genügen (d. h. im betrachteten Datenbestand ist der statistische Zusammenhang nicht notwendigerweise exakt und vollständig erfüllt), werden im Weiteren nicht betrachtet. Die Datenmenge ist demnach konsistent, wenn sie entspricht vice versa. Die Vorteile der im Weiteren vorgestellten Metrik liegen insbesondere in der Interpretierbarkeit, die durch Vermeidung der Quotientenbildung und die Wahrung der Kardinalität gewährleistet ist. Die resultierenden Werte der Metrik (auf Relationen- und Datenbankebene) sind dabei als prozentualer Anteil der untersuchten Datenmenge zu verstehen, der hinsichtlich der Regelmenge konsistent beziehungsweise regelkonform ist. Im Gegensatz zu anderen Ansätzen wird dabei auf Attributwert- und Tupelebene keine Priorisierung und Gewichtung innerhalb der Regelmenge vorgenommen, sondern lediglich zwischen konsistent und nicht konsistent im Sinne einer 0-1-Entscheidung differenziert. Dies entspricht dem obigen Verständnis von Konsistenz auf Basis logischer Zusammenhänge und verbessert die Ergebnisinterpretation. Im Weiteren wird die Metrik für Konsistenz nur auf Attributwert- und Tupelebene vorgestellt. Sie kann jedoch analog zur Metrik für Vollständigkeit ebenfalls auf Relationen- und Datenbankebene definiert werden. Sei w ein Attributwert im Informationssystem und eine ||-elementige Menge von Konsistenzregeln, die auf das entsprechende Attribut angewendet wird. Dabei
60
1 Datenqualitätsmetriken für ein ökonomisch orientiertes Qualitätsmanagement liefert jede Konsistenzregel rs (s = 1, 2, …, ||) den Wert null, falls der entsprechende Attributwert der Konsistenzregel genügt. Andernfalls ergibt die Auswertung der Regel den Wert eins:
0 falls w der Konsistenzregel rs genügt rs ( w) : ® sonst ¯1 Daraus ergibt sich die Metrik zur Bewertung der Konsistenz eines einzelnen Attributwertes:
QKons. ( w, ) :
1 r w s
s 1
Diese nimmt den Wert eins an, falls der Attributwert alle in der Regelmenge spezifizierten Konsistenzregeln erfüllt (d. h. rs(w) = 0 rs). Umgekehrt ist der resultierende Wert der Metrik auf Attributwertebene null, falls mindestens eine der spezifizierten Regeln verletzt ist (d. h. rs : rs(w) = 1). Als Konsistenzregel sind dabei unter anderem formalisierte Geschäftsregeln oder domänenspezifische Funktionen denkbar. Hierbei ist z. B. an Konsistenzregeln gedacht, die den Wertebereich eines Attributs überprüfen (z. B. 1067 d PLZ, PLZ d 99998, PLZ {0, 1, …, 9}5 oder Familienstand {„ledig“, „verheiratet“, „geschieden“, „verwitwet“}). Auf Tupelebene ergibt sich folgendes: Sei T ein Tupel und die Menge der vorhandenen Konsistenzregeln rs (s = 1, 2, …, ||), die auf das Tupel und die enthaltenen Attributwerte angewendet wird. Dann ergibt sich die Konsistenz des Tupels in Analogie zur Konsistenz auf Attributwertebene zu:
QKons. T , :
1 r T s
s 1
Das Ergebnis der Metrik hängt dabei zum einen von Konsistenzregeln ab, die lediglich einen einzelnen Attributwert betreffen. Zum anderen können auch Regeln einfließen, die sich auf mehrere Attributwerte oder das ganze Tupel beziehen. Die Metrik auf Tupelebene wird dabei dahingehend „bottom up“ entwickelt, dass diese auch alle Konsistenzregeln und damit auch die Bewertung der Konsistenz auf Attributwertebene umfasst. Falls somit ein Attributwert eines Tupels nicht konsistent bezüglich der Regeln auf Attributwertebene ist, so wird das betrachtete Tupel auch auf Tupelebene als nicht konsistent bewertet. Sind im Gegensatz dazu die Konsistenzregeln für alle einzelnen Attributwerte eines Tupels erfüllt, so müssen zudem auch alle Konsistenzregeln auf Tupelebene erfüllt sein, damit die Konsistenz gewährleistet ist. Ist anderenfalls mindestens eine Regel, die mehrere Attributwerte des Tupels (gleichzeitig) betrifft, nicht erfüllt, so erfolgt (insgesamt) eine Bewertung als nicht konsistent.
61
B Methoden – Techniken – Tools – Regelwerke/Standards Zusammenfassend wird ein Tupel somit nur dann als konsistent hinsichtlich der Regelmenge betrachtet, falls alle Regeln erfüllt werden (rs(T) = 0 rs). Ansonsten ergibt sich QKons.(T, ) zu null, egal ob eine Regel oder mehrere verletzt werden (Қrs : rs(T) = 1). Als Konsistenzregeln auf Tupelebene sind dabei neben denen, die bereits auf Attributwertebene zulässig sind, zusätzlich attributübergreifende Regeln und Zusammenhänge wie z. B. (Aktuelles Datum – Geburtsdatum < 16 Jahre) (Familienstand = „ledig“) denkbar. Die Messung der Konsistenz kann wiederum direkt mit Hilfe obiger Metrik in Verbindung mit entsprechenden SQL-Abfragen zur Prüfung der Konsistenzregeln erfolgen. Die Regeln auf Attributwert- und Tupelebene können dabei unter anderem unter Einbeziehung der Fachseiten auf Basis von Wertebereichen, Geschäftsregeln und logischen Zusammenhängen generiert werden. Im folgenden Abschnitt wird die Metrik für die DQ-Dimension Aktualität entwickelt.
1.4.4 Metrik für die DQ-Dimension Aktualität Unter Aktualität wird hier die Eigenschaft der Gegenwartsbezogenheit des Datenbestandes verstanden, d. h., inwiefern die im System erfassten Werte den aktuellen Gegebenheiten in der Realwelt entsprechen und nicht veraltet sind. Die Überprüfung basiert dabei – im Gegensatz zur Fehlerfreiheit – auf wahrscheinlichkeitstheoretischen Betrachtungen, um eine automatisierte Messung zu ermöglichen. Aktualität kann in diesem Zusammenhang als jene Wahrscheinlichkeit interpretiert werden, mit welcher die untersuchten Datenwerte noch aktuell sind. In dieser Interpretierbarkeit liegt auch der Vorteil der entwickelten Metrik im Vergleich zu existierenden Metriken, bei denen eine (wahrscheinlichkeitstheoretische) Interpretation der resultierenden Werte nicht möglich ist bzw. nicht vorgenommen wird. Die Metrik für Aktualität wird nur für die Attributwertebene vorgestellt, ist jedoch – analog zu oben – auch auf den anderen Ebenen definiert. Sei A ein Attribut, w ein entsprechender Attributwert im Informationssystem und Alter(w, A) das Alter des Attributwertes, das sich aus dem Zeitpunkt der Messung und dem Zeitpunkt der Datenerfassung errechnen lässt. Des Weiteren sei Verfall(A) die (ggf. empirisch ermittelte) Verfallsrate von Werten des Attributs A. Diese gibt den Anteil an Datenwerten des entsprechenden Attributs an, der durchschnittlich innerhalb einer Zeiteinheit inaktuell wird. Dann stellt sich die Metrik für Aktualität auf Attributwertebene wie folgt dar:
QAkt. w, A : exp(Verfall( A) Alter( w, A))
Unter der Annahme, dass die Gültigkeitsdauer der zugrunde liegenden Datenwerte exponentialverteilt mit dem Parameter Verfall(A) ist, stellt der Wert QAkt.(w, A) dabei die Wahrscheinlichkeit dar, mit welcher der vorliegende Attributwert w noch den aktuellen Gegebenheiten entspricht. Bei der Exponentialverteilung han-
62
1 Datenqualitätsmetriken für ein ökonomisch orientiertes Qualitätsmanagement delt es sich um eine typische Lebensdauerverteilung, die sich insbesondere im Rahmen der Qualitätssicherung bewährt hat. Bei Attributen wie z. B. Geburtsdatum oder Geburtsort, die sich in der Realwelt nie ändern, gilt Verfall(A) = 0 und die Metrik für Aktualität ergibt sich somit grundsätzlich zu eins:
QAkt . w, A exp(Verfall ( A) Alter ( w, A))
exp(0 Alter ( w, A))
exp(0) 1
Zudem wird die Aktualität von Attributwerten, die zum Betrachtungszeitpunkt neu erfasst werden – d. h. Alter(w, A) = 0 – ebenfalls mit eins bewertet:
QAkt. w, A exp(Verfall( A) Alter( w, A))
exp(Verfall( A) 0)
exp(0) 1
Die erneute Erfassung eines Attributwertes wird somit als Aktualisierung eines bereits vorhandenen Attributwertes interpretiert. Insgesamt ist festzuhalten, dass das Metrikergebnis und damit auch die DQ für ein bestimmtes, festes Alter umso geringer sind, je höher beim entsprechenden Attribut die Verfallsrate ist. Umgekehrt nimmt bei zunehmendem Alter die Wahrscheinlichkeit, dass der entsprechende Attributwert noch gültig ist, und somit das Metrikergebnis für die Aktualität auf Attributwertebene ab. Für die praktische Anwendung der Metrik ist es notwendig, für jedes Attribut den Parameter Verfall(A) der Wahrscheinlichkeitsverteilung festzulegen. Dieser ist als Verfallsrate zu verstehen und gibt an, welcher Datenanteil bezogen auf das jeweilige Attribut innerhalb einer Zeiteinheit inaktuell wird. Eine Verfallsrate von 0,2 drückt beispielsweise aus, dass im Laufe einer Periode von 100 Attributwerten des entsprechenden Attributs im Durchschnitt 20 Werte inaktuell werden. Dabei kann entweder auf Erfahrungswerte, statistische Werte (bspw. veröffentlichte Scheidungsraten des Statistischen Bundesamts als Grundlage zur Schätzung der Verfallsrate des Werts „verheiratet“ des Attributs „Familienstand“) zurückgegriffen oder mittels eigener Stichprobenuntersuchungen eine Schätzung vorgenommen werden. Betrachtet man z. B. eine Stichprobe vom Umfang M und misst für die entsprechenden Ausprägungen der Realweltobjekte die Änderungs- beziehungsweise Verfallszeitpunkte zu (u = 1, 2, …, M), dann ergibt sich ein im Sinne der Statistik erwartungstreuer Schätzer für den Verfallsparameter der zugehörigen Exponentialverteilung zu
M
.
M
¦z
u
u 1
Die Umsetzung der Messung hinsichtlich der DQ-Dimension Aktualität ergibt sich somit aus obiger Metrik in Verbindung mit den Schätzern für die Verfallsparameter und den Metadaten bezüglich des Zeitpunktes der Datenerfassung.
63
B Methoden – Techniken – Tools – Regelwerke/Standards Der nächste Abschnitt skizziert die Anwendung der Metrik für Aktualität im Rahmen des Customer Relationship Managements eines Mobilfunkanbieters.
1.5 Praktische Anwendung der Metrik für Aktualität Die praktische Anwendung der Metriken erfolgte im Rahmen des Kampagnenmanagement-Prozesses eines Mobilfunkanbieters. DQ-Probleme traten dabei u. a. bei der Kundenansprache auf. Diese führten bspw. bei Mailingkampagnen dazu, dass oftmals keine korrekte und individuelle Kundenansprache möglich war, was sich in geringeren Erfolgsquoten niederschlug. Am Beispiel der Vermarktung einer Tarifoption gestaltet sich die Anwendung der Metrik für Aktualität auf Tupelebene wie folgt: Zunächst gilt es, die relevanten Attribute und deren relative Wichtigkeit im Rahmen der Kampagne zu bestimmen. Dies waren die Attribute „Name“, „Vorname“, „Kontakt“ und „Produkt“ mit den zugehörigen Gewichtungen von 0,9, 0,2, 0,8 und 1,0. Demzufolge war insbesondere der aktuelle Tarif des Kunden („Produkt“) relevant, da eine Inanspruchnahme der Tarifoption nur für spezielle Tarife möglich war; der (korrekte) Vorname des Kunden hatte demgegenüber bspw. weniger Gewicht. Anschließend musste aus dem gegenwärtigen Zeitpunkt und dem Zeitpunkt der Datenerfassung bzw. der letzten Aktualisierung das Alter jedes einzelnen Attributwerts automatisiert berechnet werden. Im nächsten Schritt konnte dann, basierend auf empirisch bzw. mittels Stichprobentests ermittelten Verfallsparametern für die einzelnen Attribute, der Wert der Metrik auf Attributwertebene bestimmt werden. Für ein konkretes Beispiel siehe Tabelle 1: Tabelle 1: Ermittlung der Aktualität anhand der entwickelten Metrik (Beispiel) Ai
Name
Vorname
Kontakt
Produkt
gi
0,9
0,2
0,8
1,0
Alter(T.Ai,Ai) (in Jahren)
0,5
0,5
1,5
0,5
Verfall(Ai) (in 1/Jahr)
0,02
0,00
0,20
0,40
QAkt.(T.Ai,Ai)
0,99
1,00
0,74
0,82
Hier ergibt sich der Wert der Metrik auf Tupelebene durch Aggregation der Ergebnisse auf Attributwertebene unter Berücksichtigung der relativen Wichtigkeiten gi zu:
Q Akt. (T , A1 ,..., A4 )
0,99 0,9 1 0,2 0,74 0,8 0,82 1 | 0,863 . 0,9 0,2 0,8 1
Demzufolge liefert die Metrik für Aktualität für das Beispieltupel T einen Wert von 86,3% – d. h. das Tupel ist für den speziellen Anwendungsfall (Vermarktung einer Tarifoption) zu 86,3% aktuell. Derartige Werte können nun im Kampagnenmana-
64
1 Datenqualitätsmetriken für ein ökonomisch orientiertes Qualitätsmanagement gement genutzt werden. Bspw. wurden so aufgrund von Erfahrungswerten diejenigen Kunden, die einen Wert kleiner als 20% hatten, erst gar nicht angeschrieben. Auswertungen von früheren Kampagnen hatten beim Mobilfunkanbieter gezeigt, dass bei derartigen Kunden eine Erfolgsquote von nahezu 0 resultiert. Neben diesem kurzen Beispiel für die Anwendung der Metrik, bei dem die Kosten für die Kampagne gesenkt wurden, konnten eine Reihe weiterer DQ-Analysen durchgeführt werden, um Kosten zu sparen oder den Nutzen zu erhöhen. Insgesamt konnte beim Mobilfunkanbieter duch die Anwendung der Metriken ein direkter Zusammenhang zwischen den Ergebnissen der DQ-Messung und den Erfolgsquoten von Kampagnen hergestellt werden. Dies hatte zur Folge, dass der Prozess der Kundenselektion für die Kampagnen deutlich verbessert werden konnte. Zudem konnten der Einsatz von DQ-Maßnahmen auf Basis der Metriken gezielter erfolgen und der damit einhergehende ökonomische Nutzen besser abgeschätzt werden. Der folgende Abschnitt fasst die Ergebnisse zusammen und würdigt diese kritisch.
1.6 Zusammenfassung und Ausblick Im Beitrag wurde die Fragestellung aufgegriffen, wie DQ adäquat quantifiziert werden kann. Ziel war dabei, Metriken für die DQ-Dimensionen Vollständigkeit, Fehlerfreiheit, Konsistenz und Aktualität vorzustellen, die eine objektivierbare, zielgerichtete und weitgehend automatisierbare Messung auf den Ebenen Attributwert, Tupel, Relation und Datenbank ermöglichen. Dabei wurde im Gegensatz zu bestehenden Ansätzen der Fokus insbesondere auf die Anforderung der Kardinalität der Metriken gelegt, um eine Untersuchung von DQ-Maßnahmen unter Kosten-Nutzen-Gesichtspunkten zu unterstützen. Die Metriken ermöglichen somit eine Quantifizierung der DQ und bilden die Basis für eine ganze Reihe ökonomischer Analysen. So können zukünftige Auswirkungen auf die DQ, wie z. B. zeitlicher Verfall oder die Durchführung von DQ-Maßnahmen, untersucht und damit ex ante Planungswerte mit ex post Messwerten verglichen werden. Dies sowie die Eignung der Metriken konnte in Zusammenarbeit mit Unternehmen bereits für ausgewählte Fälle auch unter praktischen Gesichtspunkten verdeutlicht werden (vgl. [Heinrich & Klier 2006; Heinrich et al. 2007]). Zukünftig ist darüber hinaus an modellbasierten Ansätzen zur ökonomischen Planung von DQ-Maßnahmen zu arbeiten, für deren Operationalisierung Metriken und Messverfahren für DQ unbedingt erforderlich sind. Daneben sind die vorgestellten Metriken zu erweitern und zu verbessern: Beispielhaft ist hier die Metrik für Konsistenz zu nennen, für die neben logischen Zusammenhängen ebenfalls auch eine fundierte Formulierung für statistisch ermittelte Zusammenhänge erforderlich ist. Darüber hinaus stellen die Weiterentwicklung der Metrik für Aktualität für den Fall, dass die Annahme einer exponentialverteilten Gültigkeitsdauer nicht gerechtfertigt ist, sowie Ansätze zur Aggregation der Bewertungen für die einzel-
65
B Methoden – Techniken – Tools – Regelwerke/Standards nen DQ-Dimensionen zu einem Gesamtqualitätswert weiteren Forschungsbedarf dar.
Literaturverzeichnis [Ballou et al. 1998] Ballou, D. P.; Wang, R. Y.; Pazer, H.; Tayi, G. K.: Modeling information manufacturing systems to determine information product quality. In: Management Science 44 (1998) 4, S. 462–484. [Bamberg et al. 2007] Bamberg, G., Baur, F., Krapp, M.: Statistik. Oldenburg 2007. [Campanella 1999] Campanella, J.: Principles of quality cost. Milwaukee 1999. [English 1999] English, L.: Improving Data Warehouse and Business Information Quality. New York 1999. [Eppler 2003] Eppler, M. J.: Managing Information Quality. Berlin 2003. [Even & Shankaranarayanan 2005] Even, A.; Shankaranarayanan, G.: Value-Driven Data Quality Assessment. In: Proceedings of the 10th International Conference on Information Quality. Cambridge 2005, S. 221-236. [Feigenbaum 1991] Feigenbaum, A. V.: Total Quality Control. New York 1991. [Heinrich et al. 2007] Heinrich, B.; Kaiser, M.; Klier, M.: Metrics for measuring data quality - foundations for an economic oriented management of data quality. In: Proceedings of the 2nd International Conference on Software and Data Technologies. Barcelona 2007. [Heinrich & Klier 2006] Heinrich, B.; Klier, M.: Ein Optimierungsansatz für ein fortlaufendes Datenqualitätsmanagement und seine praktische Anwendung bei Kundenkampagnen. In: Zeitschrift für Betriebswirtschaft 76 (2006) 6, S. 559-587. [Helfert 2002] Helfert, M.: Planung und Messung der Datenqualität in DataWarehouse-Systemen. Dissertation. Bamberg 2002. [Hinrichs 2002] Hinrichs, H.: Datenqualitätsmanagement in Data WarehouseSystemen. Dissertation. Oldenburg 2002. [Jarke & Vassiliou 1997] Jarke, M.; Vassiliou, Y.: Foundations of Data Warehouse Quality – A Review of the DWQ Project. In: Proceedings of the 2nd International Conference on Information Quality. Cambridge 1997, S. 299–313. [Juran 1999] Juran, J. M.: How to think about Quality. In: Juran, J. M.; Godfrey, A. B. (Hrsg.): Juran’s Quality Handbook. New York 1999, Kap. 2, S. 1-18. [Lee et al. 2002] Lee, Y. W.; Strong, D. M.; Kahn, B. K.; Wang, R. Y.: AIMQ: a methodology for information quality assessment. In: Information & Management 40 (2002) 2, S. 133–146.
66
1 Datenqualitätsmetriken für ein ökonomisch orientiertes Qualitätsmanagement [Machowski & Dale 1998] Machowski, F.; Dale, B. G.: Quality costing: An examination of knowledge, attitudes, and perceptions. In: Quality Management Journal 5 (1998) 3, S. 84-95. [Naumann et al. 2004] Naumann, F.; Freytag, J.-C.; Leser, U.: Completeness of integrated information sources. In: Information Systems 29 (2004) 7, S. 583-615. [Naumann 2007] Naumann, F.: Aktuelles Schlagwort: Datenqualität. In: Informatik Spektrum 30 (2007) 1, S. 27-31. [Pipino et al. 2002] Pipino, L.; Lee, Y.; Wang, R.: Data quality assessment. In: Communications of the ACM 45 (2002) 4, S. 211-218. [Redman 1996] Redman, T. C.: Data Quality for the Information Age. Norwood 1996. [Seghezzi 1996] Seghezzi, H. D.: Integriertes Qualitätsmanagement – das St. Galler Konzept. München 1996. [Shank & Govindarajan 1994] Shank, J. M.; Govindarajan, V.: Measuring the cost of quality: A strategic cost management perspective. In: Journal of Cost Management 8 (1994) 2, S. 5-17. [Wang et al. 1995] Wang, R. Y.; Storey, V. C.; Firth, C. P.: A Framework for analysis of data quality research. In: IEEE Transaction on Knowledge and Data Engineering 7 (1995) 4, S. 623-640. [Wang & Strong 1996] Wang, R. Y.; Strong, D. M.: Beyond Accuracy: What Data Quality Means to Data Consumers. In: Journal of Management Information Systems 12 (1996) 4, S. 5-33. [Würthele 2003] Würthele, V. G.: Datenqualitätsmetrik für Informationsprozesse. Norderstedt 2003.
67
2 Datenqualitätsmanagement – Steigerung der Datenqualität mit Methode Niels Weigel Daten- und Informationsqualität ist ein Thema von enormer Reichweite. In den meisten Organisationen werden Problem und Schwierigkeiten mit dem vorhandenen Qualitätsniveau meist nur reaktiv erkannt und behandelt. Dass die mangelhafte Datenqualität nicht nur ein Problem spezieller Branchen ist, sondern sich übergreifend in der gesamten Wirtschaft präsentiert, zeigt eine kleine Übersicht, öffentlich bekannt gewordener Datenqualitätsprobleme. – Im September 1999 verlor die NASA ihren Mars Climate Orbiter nach mehr als 9 Monaten Flugzeit auf Grund einer fehlerhaften Übersetzung von englischen Maßeinheiten nach metrischen Maßeinheiten in einem Bereich der Navigationssoftware. [Isbell & Savage 1999] – Am 24. Juli 2002 wurden neun Minenarbeiter der Quecreek Kohlemine in Western Pensylvania durch einen Wassereinbruch aus einem alten Querstollen für drei Tage eingesperrt. Untersuchungen ergaben, dass die alten Karten nicht vollständig aktualisiert wurden. [MSHA 2003] – Im Dezember 2005 versuchten Broker der Mizuho Securities 610.000 Aktien zum Wert von jeweils 1 Yen zu verkaufen. Gewünscht war der Verkauf von 1 Aktie im Wert von 610.000 Yen. Es handelte sich um einen Eingabefehler. [BBC 2005] Die Behandlung von Daten und Informationen analog zu Produkten in der Fertigungsindustrie ermöglicht es, die dort entwickelten Methoden zur Qualitätssicherung und zum Qualitätsmanagement auch auf die Daten und Informationen anzuwenden. Unterliegen Informationen einem strengdefinierten Produktionsprozess, so kann deren Qualität überwacht werden.
2.1 Die Bedeutung des Total Data Quality Management Der Begriff Total Data Quality Management enthält zusätzlich zu der „Datenqualität“ zwei wichtige Beschreibungen, die die grundlegenden Gedanken sehr gut darstellen. Unter dem Begriff “Management” versteht man die Steuerung des Ergebnisses. Er leitet sich von seiner lateinischen Bedeutung “manum agere = an der Hand führen” ab. Generell beinhaltet er einen Prozess, bei dem durch aktives Handeln unter Nutzung von Ressourcen erwünschte oder geplante Ergebnisse erzielt werden oder erzielt werden sollen. Das bedeutet, dass man mit allen Aktivitäten auf ein gemeinsames Ziel hin arbeitet. „Total“ wird im Deutschen häufig mit „ganzheitlich“ übersetzt und soll ausdrü-
68
2 Datenqualitätsmanagement – Steigerung der Datenqualität mit Methode cken, dass die Datenqualität nicht mehr ein beliebiges Produkt einzelner Aktivitäten im Unternehmen ist, sondern gezielt vom gesamten Unternehmen getragen werden muss. Daraus ist ersichtlich, dass eine Total Data Quality Management Initiative in einem Unternehmen nicht nur Einfluss auf die Datenqualität selbst hat, sondern weitreichende Auswirkungen auf das gesamte Unternehmen hat. Datenqualität ist als ein elementarer Bestandteil der Unternehmensstrategie zu betrachten, und muss sich als solcher auch im organisatorischen Aufbau des Unternehmens wiederfinden.
2.1.1 Vorgehensmodelle In der Praxis haben sich verschiedene Vorgehensmodelle für Datenqualitätsprojekte etabliert. Ihre grundlegenden Wurzeln haben sie in den schon lange bekannten Methoden des Qualitätsmanagements, wie zum Beispiel Six Sigma zum Prozessmanagement in der Fertigungsindustrie. Aus diesen Methoden wurden für die speziellen Belange des Datenqualitätsmanagements Ableitungen von verschiedenen Pionieren gelegt. Einer der Pioniere des Total Data Quality Management ist Professor Richard Wang, der am MIT in Boston bereits 1988 begann, die Informationen und Daten ähnlich wie die Produkte in der Fertigungstechnik zu betrachten. Informationssysteme, die in den Unternehmen für die Verarbeitung von Daten und Informationen verantwortlich sind, sind dabei analog zu den Fertigungsstraßen in der Industrie zu betrachten. Dort werden qualitätssichernde Maßnahmen auch nicht nur am Ende des Produktionsprozesses ergriffen, sondern schon an einer Vielzahl von Stellen innerhalb des gesamten Herstellungsprozesses implementiert. Aus dieser Analogie „Daten wie ein Produkt betrachten“ ergaben sich aus den Arbeiten von Richard Y. Wang, Yang Lee, Elisabeth Pierce, Leo Pepino, Stuart Maddick et al. einige grundlegende wichtige Theorien. Beispiele hierfür sind die Definition der 3C (Collector, Custodian, Customer), den drei Arten von Informationsverarbeitern, die entsprechend unterschiedliche Anforderungen an die Datenqualität besitzen [Wang 1996] oder die einfache Visualisierung von Daten- bzw. Prozessflüssen aus der Datenqualitätssicht in den sogenannten Information Product Maps (IP Maps) [Balou 1998]. Sehr früh beschäftigte sich auch Tom Redman mit einem allgemeinen Ansatz zum Datenqualitätsmanagement. Dabei griff er die Qualitätsmerkmale von Deming auf und entwickelte daraus im Rahmen seiner praktischen Arbeit bei AT&T Bell Labs die für die Datenqualität relevanten Methoden [Redman 1996]. Einen vergleichbaren Ansatz dazu propagiert Larry English [English 1999] in seiner Theorie des Total Information Quality Management (TIQM). Er zieht für die Planung einer Datenqualitätsinitiative die klassischen Methoden von Six Sigma heran. Nach seinen Arbeiten durchlaufen Datenqualitätsprojekte die verschiedenen Phasen DefineMeasure-Analyse-Improve-Control, kurz auch als DMAIC bezeichnet.
69
B Methoden – Techniken – Tools – Regelwerke/Standards Weitere Modelle, teilweise auch in Abwandlung von den oben beschriebenen Basismodellen finden sich für spezielle Anwendungsgebiete wie zum Beispiel für das Business Intelligence Umfeld [Moss 2004] [Helfert 2002] oder allgemeines Enterprise Knowledge Management [Loshin 2001]. Auch wenn diese Methoden zunächst unterschiedlich ausgeprägt sind und je nach Autor mal mehr Fokus auf die Werkzeuge, die Daten oder die Prozesse legen, haben sie doch alle einen gemeinsamen Nenner.
2.1.2 Datenqualitätsmanagement sichert Ihren Unternehmenserfolg Der Erfolg eines Unternehmens hängt elementar von der Qualität der im Unternehmen vorhandenen und genutzten Daten ab. Unternehmerische Planungen, strategische Entscheidungen, Kundenbeziehungen und Marketingaktivitäten im CRM-Umfeld stehen und fallen mit der Güte der zugrundeliegenden Datenbanken. Data Warehouse Systeme bilden die Grundlage für Geschäftsentscheidungen und liefern die Basis für Auswertungen. Fehlerhafte Daten liefern hier falsche Ergebnisse und führen somit zu falschen Entscheidungen. Die Sicherstellung der Datenqualität ist ein häufig immer noch unterschätzter Punkt in den Planungen der Unternehmen. Punktuelle Datenbereinigungen, die häufig ereignisgetrieben durchgeführt werden, erzielen nur kurzfristige Wirkung. Eine wirklich effektive Datenqualitätssteigerung, die auch nachhaltig den Erfolg eines Unternehmens sichert, basiert auf den Techniken des Total Data Quality Management (TDQM). Dabei werden die im Unternehmen vorhandenen Daten entlang ihres gesamten Lebenszyklus (Data Lifecycle) analysiert und qualitätsgesichert.
2.2 Phasen eines ganzheitlichen Datenqualitätsmanagements Unabhängig davon, woher der Anstoß zu einem Projekt zur Einführung des ganzheitlichen Datenqualitätsmanagements kommt, werden sich die einzelnen Projektschritte gleichen. Der ursprüngliche Auslöser für ein Datenqualitätsmanagement kann in der Fachabteilung liegen, die in der Zwischenzeit leidgeprüft ständig immer nur augenscheinlichen Datenqualitätsmängeln hinterher jagt. Oder in der IT, die wieder von allen anderen Abteilungen beschuldigt wird, dass “ihre” Daten wieder so schlecht sind, dass eine Marketing-Kampagne nicht erfolgreich verlief. Ebenso kann aus der Finanzabteilung der Anstoß kommen, da eine zentrale Sicht auf alle Lieferantendaten nicht möglich ist oder die Reports nicht den Anforderungen entsprechen, weil das zugrunde liegende Datenmaterial unzureichend ist. Die Initiative kann aber auch aus dem Führungsgremium kommen, da hier in der Zwischenzeit das Bewusstsein wächst, dass die Erfüllung unterschiedlicher rechtlicher Regularien im Unternehmen nur mit einer transparenten, guten Datenbasis möglich ist.
70
2 Datenqualitätsmanagement – Steigerung der Datenqualität mit Methode
Abbildung 1: Der FUZZY! DataCare® Process als Vorgehensmodell für Datenqualitätsprojekte
Ein Vorgehensmodell für Datenqualitätsprojekte, das sich im praktischen Einsatz bewährt hat, soll hier nun vorgestellt werden. Grundsätzlich muss sich ein Unternehmen, das sich für TDQM entschieden hat, die Projektschritte kombinieren, die für seine spezielle Aufgabenstellung notwendig sind. Die Vorgehensmodelle können nur eine Art Leitfaden darstellen, an denen sich die Unternehmen orientieren können.
2.2.1 Initiierung des Datenqualitätsprojekts Wie in allen Qualitätsmanagement-Projekten ist auch im TDQM die Vorbereitung und Initiierung des Projekts die wichtigste Phase. Nur wenn vor dem eigentlichen Kick-Off des Projekts alle vorbereitenden Aufgaben erledigt und die Rahmenbedingungen abgestimmt wurden, sind die Grundlagen für ein erfolgreiches Projekt geschaffen.
Definition der Datenqualitätsstrategie Die Datenqualitätsstrategie beschreibt, wie in dem Unternehmen die Qualität der Daten in Zukunft betrachtet werden soll. Die Bedeutung der Datenqualität für und der Einfluss auf das Unternehmen wird verbal beschrieben. Jeder Mitarbeiter kann daraus ablesen, warum gerade er einen Beitrag zur Datenqualität im Unternehmen leisten muss. Ebenso kann er auf der anderen Seite auch sehen, wie er von guter Datenqualität profitieren wird. Die vorhandene Datenqualität muss als ein wert-
71
B Methoden – Techniken – Tools – Regelwerke/Standards voller Beitrag zum Unternehmenserfolg formuliert werden und als solcher auch in der Unternehmensstrategie verankert werden. Wie dieser Beitrag sichergestellt wird, ist Inhalt der Datenqualitätsstrategie.
Definition der Zielsetzung Um den Erfolg des Datenqualitätsmanagements messen zu können, müssen konkrete Ziele formuliert werden. Es wird klar beschrieben, wohin die Reise zur Datenqualität gehen soll. Dabei gilt es zunächst auch, sich auf bestimmte Bereiche zu fokussieren und festzulegen, welche Daten, Systeme, Anwendungen oder Geschäftsprozesse in erster Priorität betrachtet werden sollen. Die Erfahrung zeigt, dass es für ein Unternehmen unmöglich ist, alle Datenqualitätsprobleme sofort anzugehen. Eine Analyse aller vorhandenen Daten würde das Projektteam zunächst erschlagen, da vermutlich eine sehr große Menge von unbewerteten Datenfehlern identifiziert wird. Es gilt also zunächst einen Fokus auf die wichtigsten, geschäftskritischsten Daten zu legen. Deren Bereinigung und Überwachung wird definitiv einen direkten Nutzen für das Unternehmen bringen. Eine einfache Befragung von Schlüsselpersonen im Unternehmen kann genutzt werden, um einen ersten Eindruck der vorhandenen Probleme zu erlangen. Dabei sollte die Fragestellung so gewählt sein, dass der Befragte sowohl seine subjektive Bewertung zu der vorhandenen Qualität einbringen kann, als auch eine Bewertung zu dem Einfluss der vorhandenen Datenqualität auf seine tagtägliche Arbeit und auf den Unternehmenserfolg. Mit diesen Informationen, gesammelt in verschiedenen Unternehmensbereichen und auf verschiedenen Hierarchieebenen, kann eine erste Priorisierung durchgeführt werden, um festzulegen, welche Informationen eine „gefühlte schlechte Datenqualität“ und dazu aber auch noch eine „hohe Relevanz für den Unternehmenserfolg“ besitzen.
Rollen im Datenqualitätsmanagement Innerhalb des Datenqualitätsmanagements sind vielfältige Rollen und Positionen zu besetzen. Das gilt nicht nur in einer späteren Projektphase, wenn erste Erkenntnisse zu dem aktuellen Status vorliegen und durch entsprechende organisatorische Maßnahmen die Qualität langfristig gesteigert wird, sondern auch in der frühen Phase der Projektteamzusammenstellung.
72
2 Datenqualitätsmanagement – Steigerung der Datenqualität mit Methode
Abbildung 2: Rollen des Datenqualitätsmanagement
Der Sponsor des gesamten Datenqualitätsmanagements ist unter anderem verantwortlich für den Aufbau einer entsprechenden Datenqualitätsstrategie innerhalb seines Unternehmens und die Definition der entsprechenden Kennzahlensysteme. Er muss einen Überblick über das gesamte Unternehmen besitzen und verstehen, welchen Einfluss schlechte Datenqualität auf das gesamte Unternehmen hat. Er kennt die elementare Bedeutung der betrachteten Daten für die Geschäftsprozesse und kann ebenso die Wichtigkeit und Relevanz der Geschäftsprozesse für den Unternehmenserfolg abschätzen. Er fällt Entscheidungen, verfügt über finanzielle Mittel zur Beschaffung von notwendigen Ressourcen und besitzt die Weisungsbefugnis über die im Projekt beteiligten Mitarbeiter. Der Sponsor muss eine übergreifende Strategie für ein unternehmensweites Datenqualitätsmanagement entwickeln, in das Unternehmen hineintragen und permanent vorantreiben. Die Erstellung und Publikation der unternehmensweiten Datenqualitätsvision gehört ebenfalls zu seinen Aufgaben. Der Sponsor muss dafür sorgen, dass alle organisatorischen Veränderungsmaßnahmen, die sich aus dem Datenqualitätsprojekt ergeben auch wirklich in dem Unternehmen umgesetzt werden. In vielen Projekten unterliegt diese Aufgabe dem CIO des Unternehmens.
73
B Methoden – Techniken – Tools – Regelwerke/Standards Die eigentliche Verantwortung für die laufende Überwachung und Verbesserung der Datenqualität unterliegt dann dem Datenqualitätsbeauftragten. In sein Aufgabengebiet fällt die Definition von firmeninternen Datenstandards. Er steuert die Anpassungen der IT-Infrastruktur passend zu den Anforderungen des Datenqualitätsmanagement. Diese Position des Data Quality Officer findet sich immer häufiger in den Unternehmen, die sich das Thema Datenqualitätsmanagement auf die Agenda geschrieben haben. Eine wichtige operative Rolle nimmt der Datenverwalter ein, der durch seine tägliche Arbeit tiefe Kenntnisse über unterschiedliche Daten im Unternehmen erlangt hat. Bei aufkommenden Fragen bezüglich der Qualität dieser Daten ist er unmittelbar einzubinden. Durch seine Erfahrung im Unternehmen formuliert er gemeinsam mit den Fachbereichen die bekannten Geschäftsregeln und fachliche Wertebereiche für einzelne Daten. Dieser Datenverwalter arbeitet in den ersten Phasen des Datenqualitätsprojekts eng mit dem Datenanalysten zusammen, der zunächst die vorhandenen Daten des Unternehmens durchleuchtet und versucht einen ersten Status Quo im Bezug auf die aktuell vorhandene Datenqualität zu ermitteln. Auffälligkeiten innerhalb der Daten, die er aufgrund statistischer Analysen ermittelt und hinter denen er entsprechende Datenqualitätsregeln vermutet, diskutiert er mit dem Datenverwalter. Weitere wichtige Rollen, die in dem Datenqualitätsmanagement involviert sind und zu Projektstart auch identifiziert und benannt werden müssen, sind die Qualitätsbeauftragten des Unternehmens, die Prozessverantwortlichen, die Prozessoder Anwendungsdesignverantwortlichen, die Datenbankadministratoren, der Datenschutzbeauftragte sowie externe Datenlieferanten. Alle diese Rollen müssen dem Datenqualitätsmanagement zuarbeiten und für Rückfragen jederzeit zur Verfügung stehen.
2.2.2 Definition der Datenqualitätsanforderungen Gemäß dem Grundsatz „You can only improve what you can measure!“ gilt es in einem Datenqualitätsprojekt zunächst alle Anforderungen an die Daten aufzunehmen und in entsprechende Datenqualitätsregeln umzuformulieren. Diese Datenqualitätsregeln (oder auch Business Rules) sind die Anforderungen unterschiedlicher Nutzer der Informationen. Es ist zu beachten, dass für ein und dasselbe Datenobjekt durchaus unterschiedliche Anforderungen an die Qualität der Daten existieren. Die Anforderungen an die Aktualität, Vollständigkeit und Fehlerfreiheit eines Interessentendatensatzes und von dessen Adress- und Kommunikationsdaten in einem Unternehmen werden innerhalb einer Organisation in verschiedenen Bereichen zu unterschiedlichen Zeitpunkten häufig wechseln. Das Marketing stellt für die Durchführung seiner Mailing-Kampagnen an alle drei IQ-Dimensionen hohe Anforderungen, schließlich soll das Werbematerial den Interessenten auch erreichen. Der Vertrieb dagegen hat
74
2 Datenqualitätsmanagement – Steigerung der Datenqualität mit Methode vielleicht primär ein viel höheres Interesse an einer korrekten Telefonnummer, da der Außendienstmitarbeiter den Weg zum Interessenten schon kennt und diesen bei einer Verzögerung auf jeden Fall anrufen möchte. Für die kaufmännische Abwicklung ist es wiederum enorm wichtig, dass die Firmierung aktuell und korrekt ist. Um nun zu einer bestimmten Information alle Anforderungen aufnehmen zu können, müssen unterschiedliche Wege eingeschlagen werden.
Externe Rechtliche Anforderungen Für eine Vielzahl von Prozessen und daran beteiligten Daten werden durch den Gesetzgeber Vorgaben gemacht, die die Inhalte der Daten, die Form der Verarbeitung oder aber auch die Verfügbarkeit der Daten und den Zugriff auf die Daten festlegen. Eines der größten Aufgabengebiete liegt hier zum Beispiel in der korrekten Archivierung von Daten im Unternehmen in Bezug auf die unterschiedlichen Aufbewahrungsfristen von steuerrechtlich oder vertraglich relevanten Dokumenten. Hier ist zu beachten, dass der Zugriff und damit die Verfügbarkeit von Informationen vom Gesetzgeber vorgegeben ist. Ebenso gibt es in einer Vielzahl von Branchen und Geschäftsprozessen bestimmte Informationen und Daten, die als Pflichtangaben erhoben und gespeichert werden müssen. Dies betrifft zum Beispiel die Legitimationsdaten, also Ausweisdaten, von Kunden einer Bank bei der Kontoneuanlage.
Externe Referenzinformationen Unternehmen, die auch außerhalb der Bundesrepublik Deutschland Geschäfte tätigen, werden in dem immer stärker aufkommenden Bereich Compliance vom Gesetzgeber verpflichtet, ihre Kundenbeziehungen zu überwachen und nur mit solchen Geschäftspartnern zu agieren, die nicht auf entsprechenden Embargooder Denied Person Listen stehen. Die Geschäftsführung muss hierzu nachweisen, dass sie in den Prozessen entsprechende Maßnahmen zur Vermeidung illegaler Geschäfte ergriffen hat. Zusätzlich zu diesen Negativlisten, gibt es natürlich auch je nach Anwendungsfall eine ganze Palette von Referenzlisten, die auf der Inhaltsebene vorgeben, wie die Daten, die in einem Unternehmen gespeichert werden, aussehen müssen. So werden zum Beispiel von der Nomenclature Générale des Activités Economiques dans l'Union Européene für Europa offizielle Branchencodes vorgegeben, die gerade beim Austausch von Informationen verwendet werden sollten. Sie stellen also ebenfalls Anforderungen an die genutzten Daten dar.
Unternehmenseigene Standards Neben diesen offiziell bekannten Datenqualitätsanforderungen, die sich sehr häufig branchenspezifisch als allgemeine Vorlagen in Projekten verwenden lassen, dürfen natürlich die vielfältigen, in jedem Unternehmen individuell gestalteten
75
B Methoden – Techniken – Tools – Regelwerke/Standards eigenen Standards in entsprechende Datenqualitätsregeln umgewandelt und erhoben werden. Das Auffinden und Dokumentieren dieser individuellen Standards ist häufig Aufgabe des Datenanalysten. Dabei greift er zunächst auf die in den Unternehmen häufig unterschiedlich gut ausgeprägten Dokumentationen zurück. Beschreibungen der Geschäftsprozesse, Datenmodelle, Schnittstellenbeschreibungen, Arbeitsanweisungen und Schulungsunterlagen dienen ihm als Quelle für mögliche Datenqualitätsregeln. Zusätzlich lässt sich aber auch in den vorhandenen Daten häufig eine Vielzahl von impliziten Datenqualitätsregeln identifizieren. Hierzu werden die Methoden des Data Profiling und des Data Mining angewandt, um auf den vorhandenen Daten eine ausführliche Analyse und Auswertung durchzuführen. Mit den entsprechenden Werkzeugen lassen sich auch aus größten Datenmengen Auffälligkeiten und Datenfehler erkennen, die sich dann gemeinsam mit dem zuständigen Fachbereichsmitarbeiter oder Datenverwalter (Data Steward) in zusätzliche Datenqualitätsregeln umformulieren lassen.
Technische Anforderungen (System, Anwendung, Datenbank) Zusätzlich zu den aufgeführten fachlichen und rechtlichen Anforderungen existieren noch eine ganze Reihe von technischen Anforderungen an die Daten, die sich meist aus Limitierungen der benutzten IT-Systemen ergeben. Auch wenn immer mehr Standardisierungen in technische Systeme Einzug nehmen, sind immer noch eine Vielzahl von unterschiedlichen Rahmenbedingungen für die in heterogenen Systemlandschaften verwendeten Anwendungen oder Datenbanken zu beachten. Gerade der Austausch von Informationen zwischen verschiedenen Systemen stellt eine häufige Quelle für Datenqualitätsprobleme dar. Deshalb ist es besonders wichtig, in der frühen Projektphase alle systemtechnischen Anforderungen aufzunehmen und zu dokumentieren. Hier gewinnt das Thema Metadaten-Management zunehmend an Bedeutung. Eine saubere, zentrale Dokumentation und Verwaltung der „Daten über die Daten“ bringt einen erheblichen Mehrwert. So kann zum Beispiel schon frühzeitig erkannt werden, dass in verschiedenen Systemen unterschiedliche Datentypen verwendet werden oder die Bezeichnungen von Daten variieren werden, da Feldbezeichnungen unterschiedlich lang sein können.
Umsetzten der fachlichen Anforderungen in technische Datenqualitätsregeln Für die Anwendung von Datenqualitätsregeln gilt es in den meisten Fällen von den Fachbereichen aufgestellte oder formulierte Anforderungen in meist sehr technische Aussagen zu übersetzten. Die eigentliche Messung der vorhandenen Datenqualität erfolgt im Allgemeinen auf entweder in Tabellenform vorliegenden Daten oder auf Datenströmen. Eine der größeren Herausforderungen des Datenqualitätsmanagements liegt hierbei darin, das in den Unternehmen häufig vorherrschende DatenqualitätsEsperanto aufzulösen. Fachliche Formulierungen aus den Geschäftsbereichen wie
76
2 Datenqualitätsmanagement – Steigerung der Datenqualität mit Methode zum Beispiel „Eine natürliche Person muss immer ein formal korrektes Geburtsdatum besitzen“ müssen von dem Datenanalysten bei der Implementierung der Datenqualitätsregeln in technische Formeln wie „If pflag =“N“ then FORMAT(DOB)=YYYY-MM-DD“ umgesetzt werden. Oder umgekehrt wird der Datenanalyst beim Data Profiling erkennen, dass die Spalte P_SCHL_X neben der Ausprägung „Herr“, „Frau“, „Firma“ noch in wenigen Fällen Werte wie „M“, „W“ und „unb.“ enthält. Den Anwender der FrontendApplikation, von dem er den gültigen Wertebereich für dieses Datenfeld erfahren möchte, muss er aber nach den möglichen Werten der Drop-Down-Liste im Datenfeld „Anrede“ auf der CRM-Maske fragen.
Zentrale Bereitstellung der Datenqualitätsanforderungen im Unternehmen Die in der ersten Phase ermittelten Datenqualitätsregeln spiegeln die gesamten Anforderungen des Unternehmens an die Datenqualität wieder. Diese umfassen die Geschäftsprozessregeln des Unternehmens, aber auch standardisierte oder rechtliche Vorgaben für Informationen. Die zentrale Verwaltung, Dokumentation und Bereitstellung dieser Regeln gehört zu den größten Herausforderungen, stellt aber auch einen wichtigen Meilenstein im gesamten Datenqualitätsmanagement dar. Die gemeinsame Abnahme der definierten Datenqualitätsregeln sollte den letzten Schritt in dieser Projektphase darstellen. Im Laufe des Projekts wird der Datenanalyst, der zum Beispiel im Data Profiling Auffälligkeiten in den Daten entdeckt, diese mit dem Datenverwalter abstimmen und dafür dann eine entsprechende Datenqualitätsregel aufstellen und prüfen. Erst nach Prüfung der Ergebnisse aus seinen Tests wird die Regel dann für die weitere Verarbeitung freigegeben.
77
B Methoden – Techniken – Tools – Regelwerke/Standards
Abbildung 3: Data Profiling und Regeldefinition
2.2.3 Messung der vorhandenen Datenqualität Nach der klaren und eindeutigen Formulierung der Datenqualitätsanforderungen in Form von Datenqualitätsregeln werden diese nun auf die zu analysierenden Daten angewandt.
Ermittlung der objektiven Datenqualitätszahlen Mit Hilfe dieser Datenqualitätsregeln erfolgt dann die eigentliche Messung der Datenqualität. Die gemeinsam festgelegten Regeln werden auf den gesamten Datenbestand angewandt. Üblicherweise wird ermittelt, wie viele Datensätze diesen Regeln widersprechen. Durch die Verwendung unterschiedlicher Metriken kann nun eine Qualitätszahl für die entsprechende Regel ermittelt werden.
78
2 Datenqualitätsmanagement – Steigerung der Datenqualität mit Methode
Abbildung 4: 15 IQ-Dimensionen
Für die meisten IQ-Dimensionen lassen sich einfache Metriken definieren. Für die Vollständigkeit wird zum Beispiel ein einfacher Quotient aus der Anzahl der gefüllten Datenfelder und der Anzahl der vorhandenen Datensätze gebildet. Dabei ist zunächst die Definition der Grundgesamtheit, das bedeutet, die Menge der Datensätze, für die eine bestimmte Datenqualitätsregel angewandt werden soll, von elementarer Bedeutung. In den meisten Fällen werden die implementierten Datenqualitätsregeln nicht auf komplette Tabellen angewandt, sondern nur auf einen relevanten Teil oder Ausschnitt einer Tabelle. Zu diesem Zweck werden hier häufig verschiedene Sichten oder Views auf die Tabellen generiert, die dann nur die relevanten Daten herausfiltern. So wird zum Beispiel für die Datenqualitätsregel „Eine natürliche Person muss immer ein gültiges Geburtsdatum besitzen“ auf die Geschäftspartner-Stammdatentabelle eine View generiert, die auf Grund eines Kennzeichens nur die Menschen herausfiltert. Nur auf diese Teilmenge wird dann entsprechend auch die Datenqualitätsregel angewandt.
Durchführung der Datenqualitätsmessung Nach der zentralen Implementierung der Datenqualitätsregeln kann die Anwendung der Regeln auf den Datenbestand und damit die eigentliche Datenqualitätsmessung in die einzelnen Fachbereiche verlegt werden. Durch entsprechende Pro-
79
B Methoden – Techniken – Tools – Regelwerke/Standards jektorganisation und Zugriffsrechte, können mit den verfügbaren Werkzeugen, die zentral definierten Datenqualitätsregeln von den einzelnen Mitarbeitern in ihrer Projektsicht angewandt und durchgeführt werden. So kann zum Beispiel durch eine entsprechende User-Verwaltung die Messung der Datenqualität auch für sensible Daten in einem gemeinsamen unternehmensweiten System implementiert und durchgeführt werden. Die Finanzbuchhaltung kann ihre rechnungsspezifischen Daten prüfen, die Personalabteilung die Qualität ihrer Mitarbeiterdaten und die Produktion ihre Produktionsdaten. Jeder Bereich kann nur seine Messungen sehen, das Datenqualitätsmanagement jedoch hat Zugriff auf alle Teilprojekte und kann die Gesamtdatenqualität des Unternehmens überblicken.
Fehlerlisten und Review der Regeln Neben den reinen Messergebnissen interessiert natürlich auch ein Aufstellung der fehlerhaften Daten zu jeder Datenqualitätsregel. Basierend auf diesen ermittelten Datenqualitätsfehlern wird der Datenanalyst auch eine Review-Phase für die Datenqualitätsregeln aufsetzten. Dies dient der eigentlichen Qualitätssicherung der Regeln und damit einer endgültigen Freigabe der implementierten Regeln. Gemeinsam mit dem Fachbereich wird der Datenanalyst die Ergebnislisten durchgehen und sich aus dieser optischen Kontrolle eine Abnahme der Datenqualitätsregeln einholen. Die Fehlerlisten können sehr unterschiedliche Formate besitzen. So kann eine Aufteilung nach Datenqualitätsregeln erforderlich sein oder eine konsolidierte Darstellung auf Datensatzebene, so dass jeder Datensatz nur einmal aufgeführt wird, egal ob er einer oder mehreren Datenqualitätsregeln widerspricht. Ebenso kann eine Gruppierung der Fehlerlisten nach Sachbearbeitern oder Teams notwendig sein. Alle diese Aspekte müssen bei der Aufbereitung von Fehlerlisten beachtet werden. Entscheidend hierfür ist die Frage nach der weiteren Verarbeitung der Listen im Unternehmen.
Wiederholbarkeit der Messung Die zentrale Verwaltung der Datenqualitätsregeln ermöglicht eine Nutzung und Anwendung dieser Regeln an verschiedenen Stellen im Unternehmen. Für eine laufende Überwachung der Datenqualität durch regelmäßig wiederkehrende Messungen auf dem Datenbestand ist es von Bedeutung, dass die definierten Regeln so flexibel gestaltet sind, dass sie ohne Aufwand auf unterschiedliche Datenstände angewendet werden können. Neben der interaktiven Messung der Datenqualität durch einzelne Mitarbeiter, die sicherlich in der ersten Phase wichtig ist, muss das System auch entsprechend aufgebaut sein, dass automatisierte Messungen der Datenqualität im Hintergrund möglich sind. Eine Einbindung der Datenqualitätsmessung in umfangreichere Abläufe ist von großer Bedeutung.
80
2 Datenqualitätsmanagement – Steigerung der Datenqualität mit Methode
Aufnahme der subjektiven Datenqualitätszahlen Einige der IQ-Dimensionen stellen keine rein technisch messbare Größe dar, sondern beruhen auf subjektiven Einschätzungen, die zum Beispiel im Rahmen ausführlicher Assessments von Mitarbeitern ermittelt werden können. Ein gutes Beispiel hierfür ist die IQ-Dimension „Hohes Ansehen“ – einer Information werden in dieser Dimension höhere Qualitätsmesswerte zugeordnet, wenn sie nach Einschätzung der befragten Anwender eine hohe Vertrauenswürdigkeit besitzt.
Darstellung der Datenqualität Eine der wichtigen Aufgaben des Datenqualitätsmanagement liegt darin, die in der Messung ermittelten Datenqualitätszahlen unterschiedlichen Interessengruppen in der von diesen gewünschten aussagekräftigen Form zu präsentieren. Dazu sind sowohl die Darstellungsformen als auch der Detaillierungsgrad zu beachten. Das Top-Management sieht die Datenqualität im Unternehmen als eine der wichtigen Kennzahlen für die gesamte Unternehmenssteuerung an, will aber eben auch nur diese eine Zahl in dem monatlichen Bericht oder im Management-Dashboard sehen. In der mittleren Managementebene ist der Wunsch nach etwas mehr Detaillierung größer, da sich die verschiedenen Bereiche vergleichen möchte. Auf der Fachbereichsebene ist ein sehr hoher Detaillierungsgrad erwünscht. Hier ist neben der ersten Sicht auf die gemessene Datenqualität, häufig der Wunsch vorhanden, im Bedarfsfall durchaus auf die einzelnen Komponenten, aus denen sich eine Gesamtbewertung zusammensetzt, zugreifen zu können. Daraus haben sich verschiedene Modelle für die Berechnung der verschiedenen Datenqualitätskennzahlen entwickelt. In sie fließen neben den technisch ermittelten objektiven Datenqualitätszahlen auch subjektive Einschätzungen oder Meinungen ein. Ein gut strukturiertes mehrdimensionales Datenqualitätskennzahlenmodell ermöglicht ähnlich einem Data Warehouse auch eine Vielzahl von Sichten und Darstellungen. Egal wie umfangreich eine Visualisierung im Unternehmen implementiert wird, Ziel der Datenqualitätsmessung soll die Transparenz bezüglich der vorhandenen Datenqualität sein. Dann endlich werden harte Fakten die endlosen Diskussionen bezüglich der Datenqualität beenden.
2.2.4 Analyse der Fehlerursachen Die Messung der Datenqualität zeigt einem Unternehmen, wie gut die gesammelten Daten den Anforderungen im Hinblick auf die Qualität entsprechen. Sinn und Zweck des Datenqualitätsmanagement soll es nun sein, die gefundenen Datenfehler nicht einfach nur zu bereinigen, sondern auf langfristige Sicht dafür zu sorgen, dass die entsprechenden Fehler nicht wieder auftreten können. Dazu gilt es herauszufinden, was die eigentlichen Ursachen für die Datenfehler sind.
81
B Methoden – Techniken – Tools – Regelwerke/Standards
Daten, Prozesse, Menschen Mögliche Ursachen für Datenqualitätsmängel können vielfältig sein. Diese finden sich nicht nur in den Daten selbst, sondern sehr häufig auch in den, die Daten verarbeitenden Anwendungen und Prozessen oder aber auch in den Mitarbeiter, Kunden, Lieferanten, ... also all denen, die die im Unternehmen anfallenden Daten bearbeiten. Aus diesem Grund muss die Fehlerursachenanalyse sich auch auf alle drei Bereiche erstrecken und sich keineswegs nur auf die Daten selbst beschränken.
Abbildung 5: Fehlerquellen: Daten, Prozesse, Menschen
Eine Vielzahl von Fehlerursachen wird sich erst durch intensive Diskussionen mit einzelnen Mitarbeitern im Unternehmen ermitteln und bewerten lassen. Die ITAbteilung wird wertvolle Informationen zu den eigentlichen technischen Systemen geben können und auch zu historischen Anwendungen und Verarbeitungen geben können. Aussagen wie: „Das kann nicht sein, da haben wir eine Plausibilitätsprüfung in das System eingebaut“ finden sich genauso schnell wie: „Ach je, der letzte User war MIGR, die Daten kommen alle aus der Datenmigration nach der Übernahme des Geschäftsbereichs“. Hier ist das Expertenwissen der Mitarbeiter nicht zu unterschätzen und muss aktiv eingefordert werden. Ähnliches gilt natürlich für die Analyse der Datenerfassung, die häufig als Fehlerquelle für Daten identifiziert wird. Daher ist es hilfreich sich den Prozess der Datenerfassung genau erklären zu lassen und dann auch noch einmal live zu beobachten, wie Daten wirklich erfasst werden. Häufig gibt es erhebliche Unterschiede zwischen den vorgeschriebenen und den aus praktikablen oder zeitlichen Aspekten gewählten Wegen, wie Daten in das System gelangen.
82
2 Datenqualitätsmanagement – Steigerung der Datenqualität mit Methode
Dokumentation Zur Dokumentation der verschiedenen Fehlerursachen können unterschiedliche Hilfsmittel zum Einsatz kommen. Eine der möglichen Fehlerursachen kann in dem technischen Datenmodel begründet sein. Häufig füllen großformatige Darstellungen der benutzten Datenbanken, deren darin enthaltenen Tabellen und Relationen die Wände der Projekträume. Trotzdem kann es hilfreich sein, für die innerhalb des Datenqualitätsprojekts verwendeten Datenquellen ein separates ER-Diagramm, unter Verwendung der entsprechenden Metadaten, aufzustellen. Vergleicht man dieses mit den bereits vorhandenen Dokumentationen, lassen sich sehr häufig Unterschiede zwischen Theorie und Praxis erkennen. Um die Verarbeitungsschritte der Daten innerhalb der Anwendungen sauber zu dokumentieren und zu protokollieren, können Datenflussdiagramme verwendet werden. Diese werden in verschiedenen Detaillierungsstufen genutzt und können schon erste Hinweise geben, wenn bei der Verarbeitung der Daten innerhalb eines Systems Probleme auftreten. Um bei anwendungsübergreifenden Prozessen eine Transparenz zum Datenaustausch zu erhalten, können Schnittstellenanalysen durchgeführt werden, um auszuschließen, dass gleiche Informationen in unterschiedlichen Systemen unterschiedlich genutzt werden. Neben diesen allgemeinen Verfahren zu der Dokumentation von Anwendungen und Daten, kann noch die sogenannte Information Product Map (IPMap) verwendet werden, mit denen die Verarbeitung von Daten in einem Informationsverarbeitungssystem graphisch dargestellt werden kann [Balou et. al. 1998].
Planung und Konzeption der Verbesserungsschritte Nach der Analyse und Dokumentation der einzelnen Fehlerursachen, gilt es nun die nächsten Verbesserungsschritte zur Steigerung der Datenqualität zu planen. Häufig ergibt sich eine Vielzahl von Datenqualitätsproblemen in unterschiedlichen Ausprägungen. Zunächst erscheint rein intuitiv ein Beginn mit der Korrektur und Bereinigung der häufigsten Fehler sinnvoll. Es sollte jedoch in Betracht gezogen werden, dass die reine Anzahl an Fehlern immer nur ein Aspekt für die Priorisierung bei der Datenqualitätsverbesserung ist. Wichtiger ist in Betracht zu ziehen, wie groß der Einfluss eines Datenfehlers auf das Unternehmen wirklich ist. Zusätzlich ist in Betracht zu Ziehen, welche Kosten und Aufwände durch den Datenfehler selbst und durch die Bereinigungsaufwände entstehen. Die Aufstellung einer Kosten-Nutzen-Rechnung für die Bereinigung oder die Nicht-Beseitigung eines Datenfehlers gehört zu der Konzeption der Verbesserungsschritte, genauso wie die detaillierte Ausarbeitung der einzelnen Aktivitäten mit möglichen Alternativen.
2.2.5 Verbesserung der Datenqualität Nach der Analyse der Datenfehler gilt es, im darauffolgenden Schritt die Ursachen zu bekämpfen und für die Verbesserung der Datenqualität zu sorgen. Hierbei können einmalige Bereinigungen für die initiale Optimierung sorgen. Zugleich gilt
83
B Methoden – Techniken – Tools – Regelwerke/Standards es aber, permanente qualitätssichernde Maßnahmen, zum Beispiel durch Prozessoptimierung oder Integration von qualitätssichernden Werkzeugen direkt in die Anwendungen, zu ergreifen. Bei allen aufgeführten Alternativen ist genau zu bewerten, welcher Weg der für das Unternehmen sinnvollste ist.
Datenbereinigung Die eigentliche Bereinigung der identifizierten Datenfehler ist einer der möglichen Schritte, die vorhandene Datenqualität zu verbessern. Als einmalige Aktivität implementiert, werden die aufgedeckten Datenfehler korrigiert und in den entsprechenden Tabellen gemäß den Anforderungen abgelegt. Dies kann durch automatisierte Prozesse erfolgen, wo dies mit entsprechender Werkzeugunterstützung möglich ist. In anderen Fällen kann es notwendig sein, dass die Bereinigung durch Mitarbeiter manuell erfolgen muss. Eine permanente Sicherstellung von guter Datenqualität erfordert eine Integration von Datenqualitätsmessungen und Datenqualitätsverbesserungsmodulen direkt in die Geschäftsprozesse oder Anwendungen. Getreu dem Bestreben, Qualitätsmängel bereits an der Stelle der Entstehung zu identifizieren und zu korrigieren, müssen entsprechende Datenqualitätstools bereits bei der Datenerfassung eingesetzt werden. Die verschiedenen Toolhersteller bieten dazu schon heute eine Vielzahl von sogenannten Links oder Connectoren, die eine einfache und direkte Integration in annähernd alle Standard-Anwendungssysteme ermöglichen. [BARC 2004].
Systemoptimierung Neben der reinen Bereinigung der Daten gilt es natürlich auch die Informationssysteme an sich zu betrachten und zur Steigerung der Datenqualität zu verbessern. Dies kann eine Anpassung und Veränderung des benutzten Datenmodells sein. Die Einführung von selbstdefinierten Normen für die Bezeichnung von Datenfeldern gleicher Bedeutung in unterschiedlichen Tabellen kann ebenso die Verständlichkeit steigern, wie die intensive Nutzung und Implementierung von verschiedenen Constraints oder Schlüsselbeziehungen, die die strukturelle Qualität der Daten sicherstellen. Dazu müssen eventuell die verwendeten Applikationen selbst und vor allem die Abbildungen der Geschäftsprozesse in den Systemen angepasst und überarbeitet werden. Dadurch kann sichergestellt werden, dass bei der Verarbeitung von Daten auf dem Weg von der Datenerfassung bis zur Datenspeicherung oder gar weiter zur Datennutzung keine Fehler entstehen. Die Weitergabe von Daten über eigentliche Systemgrenzen hinweg stellen auch sehr häufig Fehlerquellen dar. Deshalb ist für die Datenqualitätssteigerung auch auf die Gestaltung der verwendeten Schnittstellenprogramme ein besonderes Augenmerk zu legen.
Geschäftsprozessoptimierung Die Geschäftsprozesse bilden das Gerüst eines Unternehmens. Meist sind dies eingespielte Prozesse, die auf Grund ihrer Komplexität häufig nur ungern verän-
84
2 Datenqualitätsmanagement – Steigerung der Datenqualität mit Methode dert werden. Trotzdem kann es im Sinne der Sicherstellung guter Datenqualität notwendig sein, auch in die Kernprozesse eines Unternehmens einzugreifen. Die Geschäftsprozesse bestimmen wie die Daten verarbeitet werden. Anpassungen und Optimierungen von Geschäftsprozessen können notwendig sein, um identifizierte Datenqualitätsfehler langfristig zu beseitigen.
Schulung von Mitarbeitern Ein weiterer wichtiger Punkt für die Verbesserung der Datenqualität liegt in der intensiven Schulung der Mitarbeiter. Neben den Versuchen, die Mitarbeiter durch möglichst viele technische Maßnahmen bei der Arbeit mit den Daten zu entlasten, ist es ebenso wichtig, sie durch entsprechende Arbeitsanweisungen für ihre täglichen Aktivitäten zu unterstützen. Durch entsprechende Schulungsmaßnahmen können die Mitarbeiter außerdem dazu informiert werden, wie sie mit den entsprechenden Daten umgehen müssen und warum ihre tägliche Arbeit durchaus zu einer unternehmenswichtigen guten Datenqualität beitragen kann.
2.2.6 Permanente Überwachung der Datenqualität Die bisher beschriebenen Phasen eines Datenqualitätsprojekts führen dazu, dass im Unternehmen endlich ein einheitliches Verständnis herrscht was unter dem Begriff Datenqualität überhaupt verstanden wird. Durch Implementierung entsprechender Regeln kann wiederholt eine Ermittlung des aktuellen Stands der Datenqualität durchgeführt werden. Die Fehlerursachen wurden identifiziert und analysiert. Entsprechende Verbesserungsmaßnahmen wurden etabliert. Nun gilt es den einmalig erreichen hohen Qualitätsgrad nicht wieder absinken zu lassen, sondern durch regelmäßige Messungen mit denselben Datenqualitätsregeln eine permanente Überwachung zu realisieren. Aus diesen automatisierten Datenqualitätsmessungen können automatische Berichte generiert werden, die dann im Unternehmen publiziert die zeitliche Veränderung der Datenqualität zum Beispiel im Intranet darstellen. Durch entsprechende Überwachungsmechanismen können bei Erreichen vorher festgelegter Schwellwerte unterschiedliche Aktivitäten angestoßen werden. Diese können von der einfachen Benachrichtigung von Systemverantwortlichen per SMS oder E-Mail bis hin zur Aktivierung von automatisierten Folgeprozessen reichen. Die fortlaufende Überwachung der Datenqualität ermöglicht es dem Unternehmen auch jederzeit Auskunft über den aktuellen Status zu liefern.
2.3 Anreize für ein Datenqualitätsmanagement Eine der wichtigsten Aufgabenstellungen auf dem Weg zur Information Excellence ist es, das Thema Datenqualität nicht als eine alleinstehende, einmalige Aktion zu betrachten, sondern entsprechende organisatorische Maßnahmen zu ergreifen, die ein ganzheitliches Datenqualitätsmanagement unterstützen.
85
B Methoden – Techniken – Tools – Regelwerke/Standards Was sich ein Unternehmen also von einem ganzheitlichen Datenqualitätsmanagement erwarten kann, lässt sich in Anlehnung an Thomas Redman [Redman 1996] folgendermaßen formulieren:
Diejenigen, die erfolgreich ein Datenqualitätsprojekt durchlaufen haben, werden den Einfluss von schlechter Datenqualität verstehen. Sie werden weiterhin bemüht sein, die Qualität ihre Daten zu erhöhen, weil sie verstanden haben, dass qualitativ hochwertige Daten einen echten Mehrwert für ihr Unternehmen darstellen und nicht nur eine lästige Pflichtaufgabe.
Diejenigen, die erfolgreich ein Datenqualitätsprojekt durchlaufen haben, werden organisatorische Maßnahmen ergreifen, um entsprechende Verantwortungsbereich für die Datenqualität zu etablieren. Sie werden die Daten und Informationen, die in ihrem Unternehmen genutzt werden, als einen echten Unternehmenswert betrachten. Ein Hauptaugenmerk wird auf der Erzeugung und Verwaltung von qualitativ hochwertigen Daten liegen. Alle im Unternehmen, die Daten erfassen, werden sich an der Qualität der von ihnen erfassten Daten messen lassen müssen.
Diejenigen, die erfolgreich ein Datenqualitätsprojekt durchlaufen haben, werden ein perfektes Verständnis für ihre Geschäftsprozesse haben. In dem Unternehmen ist es vollkommen transparent, wer der Kunde ist und wie seine Anforderungen an die Prozesse und Daten sind. Für die Messung und Überwachung der Datenqualität sind stabile regelmäßige Prozesse etabliert. Zu den wichtigsten Daten können permanent Aussagen über deren Qualitätszustand gemacht werden. Auftretende Probleme können frühzeitig erkannt werden und man kann proaktiv dagegen ankämpfen.
Es gibt also eine ganze Reihe von guten Gründen, warum sich ein Unternehmen Gedanken zum Datenqualitätsmanagement machen sollte. Dabei gilt es aus den Erfahrungen Anderer zu profitieren und sich auf bewährte Prozesse und Methoden zu verlassen. Damit schaffen es die Unternehmen, am Markt wettbewerbsfähig zu bleiben oder sich um einen entscheidenden Schritt von den anderen Marktteilnehmern abzuheben.
86
2 Datenqualitätsmanagement – Steigerung der Datenqualität mit Methode
Literaturverzeichnis [Balou 1998] Balou, D., Wang, R., Pazer, H. & Tyi, G., Modeling Information Manufacturing Systems to Determine Information Product Quality, 1998, In: Management Science (44:4), April 1998, S. 462-484 [BARC 2004] Mathes, T., Bange, C., Keller, P., Datenqualitätsmanagement – 13 Werkzeuge zur Steigerung der Datenqualität, Oxygon Verlag, München, 2004, ISBN 3-937818-08-1 [BBC 2005] Probe into Japan share sale error, 9. Dezember http://news.bbc.co.uk/2/hi/business/4512962.stm (Zugriff am 30.5.2007)
2005,
[English 1999] English, L., Improving Data Warehouse and Business Infomration Quality, Wiley Computer Publishing, New York, 1999, ISBN 0-47125-383-9 [Helfert 2002] Helfert, M., Proaktives Datenqualitätsmanagement in DataWarehouse-Systemen, Logog Verlag, Berlin 2002 [Isbell & Savage 1999] Isbell, D. & Savage, D.: Mars Climate Orbiter Failure Board Releases Report, Numerous NASA Actions Underway in Response, 10. November 1999, http://www.spaceref.com/news/viewpr.html?pid=43 (Zugriff am 30.5.2007) [Loshin 2001] Loshin, D., Enterprise Knowledge Management – The Data Quality Approach, Academic Press, 2001, ISBN 0-12-455840-2 [Moss 2004] Moss, L., TDWI Data Cleansing: Delivering High-Quality Warehouse Data, The Data Warehousing Institute, February 2004 [MSHA 2003] Mine Safety and Health Administration: MSHA Issues Quecreek Investigation Report, 12. August 2003 http://www.msha.gov/Media/PRESS/2003/NR030812.htm (Zugriff am 30.5.2007) [Wang 1996] Wang, R., Strong, D., Beyond Accuracy: What Data Quality Means to Data Consumers. In: Journal of management Information Systems, 12 (1996) 4, S. 533 [Redman 1996] Redman, T. C., Data Quality for the Information Age, Artech House Computer Science, Boston, 1996, ISBN 0-89006-833-6
87
3 Strukturierte Datenanalyse, Profiling und Geschäftsregeln Marcus Gebauer, Ulrich Windheuser
3.1 Datenqualität In heutigen Diskussionen zum Thema Datenqualität wird häufig der Begriff der Informationsqualität synonym verwendet. Dies ist für die pragmatische Anwendung nicht von entscheidender Bedeutung, jedoch bestehen ein paar grundsätzliche, auch für das Verständnis der Datenqualität, wichtige Unterschiede. Aber auch die Autoren verwenden die Begriffe synonym. Die Abbildung 1 stellt den Zusammenhang zwischen Daten und Information dar.
Abbildung 1: Daten und Informationen (nach www.dmsbasics.de) Grundsätzlich können Informationen eines Unternehmens in solche, die formell strukturiert sind, und solche, die informell existieren, unterschieden werden. Betrachten wir im Weiteren die fassbaren ‚Formellen Informationen’, so bestehen diese immer aus zwei Teilen, den Daten und dem dazugehörenden Kontext. Ohne einen Bezug zu einem Kontext sind Daten wertlos, sie gehorchen immer einem Zweck innerhalb eines Prozesses. Erst vor dem Hintergrund einer zielgerichteten Nutzung werden aus Daten Informationen abgeleitet. Somit ist natürlich auch die Qualität von Daten nur im Kontext ihrer Nutzung beurteilbar. In diesem Sinne kann dann auch der Begriff der Informationsqualität synonym verwendet werden. Als pragmatische Definition der Datenqualität bietet sich folgende an:
88
3 Strukturierte Datenanalyse, Profiling und Geschäftsregeln Datenqualität ist die Gesamtheit der Ausprägungen von Qualitätsmerkmalen eines Datenbestandes bezüglich dessen Eignung, festgelegte und vorausgesetzte Erfordernisse zu erfüllen.
Als verkürzendes Schlagwort haben sich der Begriff Zweckeignung oder der englische Ausdruck Fitness for Use eingebürgert. Nun ist die oben genannte Definition sehr eingängig, dennoch bleibt die Aufgabe, diese mit Leben zu füllen, eine Operationalisierung herbeizuführen. Anhand der in Abbildung 2 dargestellten Datenqualitätspyramide lassen sich drei Stufen erfolgreicher Operationalisierung erschließen.
Datenqualität Datenqualitätsmerkmale
Datenqualitätsmetrik
Gesamtheit unterschiedlicher Qualitätsmerkmale
Einzelaspekt der Datenqualität
Objektive, messbare Größe, die in Bezug auf unterschiedliche Ausprägungen eines Qualitätsmerkmals sensitiv reagiert.
Abbildung 2: Datenqualitätspyramide Datenqualität lässt sich als Obermenge aller Datenqualitätsmerkmale verstehen, die die zweite Ebene der Pyramide bilden. Zur Evaluierung der Datenqualitätsmerkmale sind Datenqualitätsmetriken notwendig. Sie bilden das Qualitätsmaß, mit dem eine quantitative Aussage möglich ist. Diese Qualitätsmetriken bilden die operationelle Basis zur Bestimmung der Datenqualität. Bis hierher ist die Datenqualitätspyramide eine rein technische Vorgehensbeschreibung. Im Folgenden werden die Begriffe DQ-Merkmale und DQ-Metriken detaillierter erläutert.
89
B Methoden – Techniken – Tools – Regelwerke/Standards
3.2 Merkmale der Datenqualität Ein bekannter Ansatz zur Strukturierung der DQ-Merkmale ist der nach Larry English [English 1999]. Er unterscheidet die folgenden drei Hauptmerkmale mit ihren insgesamt 10 Untermerkmalen: – Qualität der Datendefinition o Datenspezifikation o Geschäftsregeln o Integritätsbedingungen – Inhaltliche Datenqualität (Korrektheit der Datenwerte) o Vollständigkeit o Eindeutigkeit o Einhaltung der Geschäftsregeln o Genauigkeit und Fehlerfreiheit – Qualität der Datenpräsentation o Rechtzeitige Bereitstellung o Angemessenheit des Formats o Verständlichkeit des Formats Die Betrachtung der Datendefinitionsqualität ist der Einstieg und gleichzeitig die Basis für die weiteren Betrachtungen. Ohne vernünftige Definition ist z. B. eine nachvollziehbare Qualifizierung der inhaltlichen Qualität nicht möglich. Bei der Analyse eines Datenbestandes ist also zunächst auf die Metadaten, bestehend aus Pflichtenheft, Systemdokumentation, Datenmodell, etc. zu achten. In diesen sollten sich verständliche und vollständige Informationen zu den Datenobjekten finden. Die Datenspezifikation beschreibt die einzelnen Objekte wie z. B. Tabellen und Felder in ihrer absoluten fachlichen Bedeutung und Modellierung im System bzw. in der Datenbank. Es geht um Fragen wie „Welche Dinge der realen Welt (Produkte, Kunden, Verträge, …) finden sich im System? Wie und mit welchen Ausprägungen sind sie verschlüsselt?“, um klarzustellen, mit welcher „Sprache“ im System gearbeitet wird. Qualitätsaussagen zur Datenspezifikation drehen sich hierbei um „Existenz, Verfügbarkeit und Aktualität einer Dokumentation“, „Vollständigkeit der beschriebenen Objekte“ und „Verständlichkeit der Beschreibung“. Die Betrachtung der Geschäftsregeln geht noch einen deutlichen Schritt weiter. Geschäftsregeln beschreiben Abhängigkeiten und Beziehungen der modellierten Objekte untereinander. Drücken sich diese Abhängigkeiten im Datenmodell aus, so können diese in Form von Referenziellen Integritäten geprüft werden. Aber nicht alle Beziehungen können in einem System ausmodelliert werden. Diese sind implizit vorhanden, wenn beispielsweise die Programmlogik darauf aufbaut. Plausibilitätsprüfungen an einer manuellen Eingangsschnittstelle sind ein weiterer Hinweis auf die Existenz und Nutzungsmöglichkeit von Geschäftsregeln. Qualitätsaussagen hierzu behandeln offensichtlich die Güte des Datenmodells und die Existenz, Vollständigkeit und Richtigkeit von Plausibilitätsprüfungen am Dateneingang. Oftmals
90
3 Strukturierte Datenanalyse, Profiling und Geschäftsregeln leiden solche Qualität sichernden Maßnahmen unter höher gewichteten Performance-Anforderungen. Die inhaltliche Datenqualität ist bei akzeptabler Datendefinitionsqualität leicht prüfbar. Über die Datenspezifikation gelangt man leicht zu Kriterien zur Korrektheit (Vollständigkeit, Eindeutigkeit und Genauigkeit) der Datenwerte eines isoliert betrachteten Feldes. Mithilfe der Geschäftsregeln lassen sich Unplausibilitäten im Verhältnis zu anderen Feldinhalten und über die Integritäten Unstimmigkeiten zu in Beziehung stehenden anderen Datensätzen aufdecken. Im Unterschied zu den anderen Hauptmerkmalen lässt sich die inhaltliche Datenqualität automatisiert und reproduzierbar messen, wenn die bekannten Spezifikationen und Geschäftsregeln zur eindeutigen Aufdeckung von Datenfehlern genutzt werden. Die Qualität der Datenpräsentation ist durch Fragen der (zeitlichen) Verfügbarkeit, Angemessenheit des Formats und Verständlichkeit geprägt. Was nützen sauber dokumentierte und inhaltlich zu 100% korrekte Daten, wenn diese für den Nutzer zu spät oder gar nicht verfügbar sind. Weitere Probleme können z. B. die Darstellung von rein technischen Sichten (Feldnamen und Feldinhalte) sein, die für den Endanwender erst durch Studium und Auswendiglernen von Schlüsseltabellen zu fachlichen Inhalten werden. Die Anforderungen an die Präsentationsqualität sind also überwiegend durch die Anwender getrieben und nicht durch technische Gegebenheiten der Anwendung. Daher ist eine Feststellung dieser Qualität nur durch eine direkte Einbeziehung der Anwender möglich. Als Sonderfall ist sicherlich noch zu betrachten, dass auch nachgelagerte Systeme, die über eine Schnittstelle mit Daten versorgt werden, Anforderungen an die Datenpräsentation haben. Diese sind eher technisch orientiert. Über Transformationsmethoden können Daten umgeschlüsselt und damit dem lesenden System „verständlich“ gemacht werden. Daher ist Datenpräsentation in diesem Kontext nicht kritisch. Wichtiger sind vielmehr die Aspekte der korrekten Datendefinition. Ein alternativer Ansatz zur Strukturierung der DQ-Merkmale ist der nach Richard Wang [Wang 1996]. Wie in den vorangegangenen Abschnitten beschrieben unterscheidet English drei Bereiche, nach denen Datenqualität betrachtet werden kann. Dieses Modell ist insoweit recht pragmatisch, als dass es sich an den Erfordernissen eines zu implementierenden Datenmodells orientiert. Metainformationen zu Datenfeldern werden hier in dem Bereich der Datendefinition hinterlegt. Im Ansatz nach Richard Wang lassen sich zwei grundsätzliche Unterschiede erkennen. Zum einen legt Wang stärker den Datennutzer und damit das Thema Informationsqualität in den Vordergrund, zum anderen unterliegen in seinem Modell Metadaten den gleichen Anforderungen der Datenqualität wie Daten. Dies hat den Vorteil, dass keine akademische Diskussion über den Unterschied zwischen Metadaten und Daten geführt werden muss.
91
B Methoden – Techniken – Tools – Regelwerke/Standards Es sei bereits jetzt angemerkt, dass es letztlich in der Anwendung unerheblich ist, nach welchem Modell vorgegangen wird. In der praktischen Durchführung kommt es auf die Vollständigkeit der Überprüfung aller Bereiche an. Wang definiert Merkmale in vier Datenqualitätskategorien, die sich wiederum in insgesamt 16 Datenqualitätsdimensionen unterteilen. – Intrinsisch o Exaktheit o Objektivität o Glaubwürdigkeit o Reputation – Kontextbezug o Vollständigkeit o Zeitgerechtigkeit o Wert steigernd o Relevanz o Informationsmenge – Repräsentation o Interpretierbarkeit o Konsistenz o Durchgängigkeit o Verständlichkeit – Verfügbarkeit o Bearbeitbarkeit o Zugang o Zugangssicherheit Intrinsisch bedeutet, dass Informationen Qualität aus sich heraus haben können. Exaktheit ist wie beschrieben allerdings nur eine Form, wenn auch eine, die objektiv bestimmbar ist. Die anderen drei Dimensionen repräsentieren die mehr subjektive Beurteilung von Daten in deren Nutzung. Im Sinne der Informationsqualität werden Daten immer innerhalb eines bestimmten Kontextes betrachtet. So müssen sie relevant, zeitgerecht, in geeigneter Menge vorliegen und vollständig sein und im Sinne eines Betrages auch Wert steigernd sein. Im Gegensatz hierzu findet sich die Zeitgerechtigkeit im Modell nach English in der Datenrepräsentation. Die Kategorien der Repräsentation und der Verfügbarkeit betonen mehr die Bedeutung der IT-Systeme. Um die Informationsqualität zu beurteilen, sind die subjektive Kundensicht und die objektive Sicht, wie Daten im System hinterlegt sind, zu betrachten. Es ist notwendig beide Sichtweisen zu betrachten, da nur so die Qualität der Daten und Informationen umfassend betrachtet werden kann.
92
3 Strukturierte Datenanalyse, Profiling und Geschäftsregeln
3.3 Geschäftsregeln In den vorangegangen Abschnitten ist bereits deutlich geworden, dass die Prüfbarkeit von Datenqualität eng mit der Kenntnis von Geschäftsregeln zusammenhängt. Die Definition von geeigneten Metriken ist ohne Geschäftsregeln überhaupt unmöglich. Betrachten wir z. B. den einfachen Fall, dass in einem Kundenstammdatensystem die Adresse stets vollständig angegeben sein muss. Dies ist mindestens durch die Verwendungsnotwendigkeit im Schriftverkehr begründet und daher durch eine Geschäftsregel motiviert. Die resultierende Vollständigkeits-Metrik ist der Anteil der Kunden mit vollständig gefüllter Adresse. Dies lässt sich leicht auf die Betrachtung von Gültigkeitsbereichen, Plausibilitäten und Integritäten fortsetzen. Die Datenqualitätspyramide kann also um eine 4. Ebene ergänzt werden (s. Abbildung 3).
Datenqualität Qualitäts-
Gesamtheit unterschiedlicher Qualitätsmerkmale Einzelaspekt der Datenqualität
merkmale
Objektive, messbare Größe, die in Bezug auf unterschiedliche AuspräQualitätsmetriken
gungen eines Qualitätsmerkmals sensitiv reagiert Verschiedene Geschäftsobjekte werden
Geschäftsregeln
in einen fachlich logischen Zusammenhang gebracht
Abbildung 3: Erweiterte Datenqualitätspyramide Der Ansatz über Geschäftsregeln ist plausibel, jedoch nicht problemfrei. Denn: – Geschäftsregeln sind selten dokumentiert: In den Dokumentationen unserer Systeme finden wir sicherlich Beschreibungen der Felder. Aber eine Beleuchtung des fachlichen Hintergrunds, warum ein Objekt definiert ist wie es ist fehlt in der Regel. Beschreibungen von Zusammenhängen zu anderen Datenobjekten werden ebenfalls nur selten zu finden sein. – Geschäftsregeln werden nicht konsequent angewendet: Existieren z. B. Handlungsanweisungen, wie Daten zu pflegen sind, so werden diese oftmals umgangen. Dies geschieht teilweise bewusst, wie die Nutzung von Default-Werten oder der Ausprägung „Sonstige“, oder unbewusst, da in der täglichen Arbeit eben Fehler passieren.
93
B Methoden – Techniken – Tools – Regelwerke/Standards – Geschäftsregeln sind oft nur unscharf formuliert: Geschäftsregeln sind in der Regel (umgangs-)sprachlich dokumentiert und dadurch unscharf. Teilweise sind sie veraltet und daher nicht vollständig korrekt oder generisch formuliert und nur durch die Anwendung von Zusatzwissen anwendbar. Insgesamt sind Geschäftsregeln nicht direkt für eine systembezogene Nutzung geeignet und müssen durch Zusatzmaßnahmen für die Nutzung im Datenqualitäts-Management veredelt werden.
3.4 Methoden der Datenanalyse Die oben geschilderten Probleme mit der Bekanntheit und Exaktheit von Geschäftsregeln können mit Methoden der Datenanalyse gelöst werden. Die dahinter liegende Idee ist dabei, dass das in den Daten einer Datenbank versteckte Wissen dazu genutzt wird. Auch wenn die Datenqualität eines Datenbestandes verbesserungswürdig ist, so wird dieser dennoch erfolgreich in der Praxis eingesetzt und besitzt damit eine zumindest akzeptable Datenqualität. Somit ist das indirekt in einer Datenbank gespeicherte Wissen nicht falsch. Im Folgenden wollen wir beschreiben, wie mit einfachen Mitteln der Datenanalyse Geschäftsregeln gefunden werden können. Die geschilderten Beispiele stammen aus der Praxis (ein Projekt zur Kundendaten-Qualitätsanalyse).
01.02.1998
01.01.1998
01.01.1800
01.01.1950
Abbildung 4: Beispiele für Datenanalyse Die einfachste Art ist die Häufigkeitsauszählung von kategorischen Variablen. In Abbildung 4 links oben ist zu erkennen, dass die dritte Ausprägung von links nur
94
3 Strukturierte Datenanalyse, Profiling und Geschäftsregeln sehr selten vorkommt. Dies ist verdächtig und sollte weiter verfolgt werden. Eine Durchsicht der Dokumentation ergibt, dass das betrachtete Feld die „Anrede des Kunden“ und „Fräulein“ die auffällige Ausprägung ist. Es stellt sich heraus, dass dieser Kunde vor langer Zeit eingerichtet wurde (als die Ausprägung „Fräulein“ noch erlaubt war), zwischenzeitlich deaktiviert, aber nun wieder aktiviert worden ist. Ergebnis: Die Verschlüsselung ist fehlerhaft und muss korrigiert werden. Die Geschäftsregel lautet: Die Ausprägung „Fräulein“ ist als Anrede nicht mehr zugelassen. Bei der Betrachtung von kontinuierlichen Variablen sollte der Fokus auf die Ränder der Verteilung gelegt werden. In Abbildung 4 links unten wird gezeigt, dass in einem Datumsfeld die meisten Ausprägungen im Zeitraum 1900 bis heute angesiedelt sind, nur am linken Rand treten auffälligerweise Ausprägungen zu Anfang des 19. Jahrhunderts auf. Eine Betrachtung der Metadaten zeigt, dass es sich um das Feld „Geburtsdatum des Kunden“ handelt, welches zunächst den logischen Schluss einer Fehlverschlüsselung zulässt. Erst ein weiteres Nachlesen in der Feldbeschreibung zeigt, dass damit auch das Gründungsdatum eines Firmenkunden gemeint ist, welches durchaus im 19. Jahrhundert liegen kann. Ergebnis: Die gefundenen Auffälligkeiten sind also keine Fehler. Es ist jedoch zu empfehlen, die Feldbezeichnung zu erweitern, z. B. zu „Geburts- bzw. Gründungsdatum“. Die korrekte Geschäftsregel lautet: Ein Geburtsdatum vor dem 1.1.1900 ist bei natürlichen Personen (in Abgrenzung zu juristischen Personen) unplausibel. Die isolierte Betrachtung eines Feldes erlaubt, wie wir oben gesehen haben, nur die Erkennung von Fehlern am Rand einer Verteilung, jedoch nicht inmitten dieser. Die Betrachtung der rechten Seite von Abbildung 4 zeigt einen Zugang, dieses Manko zu umgehen. Und zwar können durch Gegenüberstellen zweier (in diesem Fall Datums-)Felder ggf. Muster erkannt werden, die wiederum zu Ausreißervermutungen führen. In dem gezeigten Beispiel liegen die Datenpunkte größtenteils auf der Hauptdiagonalen oder darunter. Nur ein Datenpunkt liegt oberhalb der Diagonalen und kann als Ausreißer angenommen werden. Eine fachliche Prüfung kommt zu folgendem Ergebnis: Der Ausreißer stellt den prozessual nicht möglichen Fall dar, dass einem Kunden ein Kredit ausgezahlt wurde, bevor dieser bewilligt worden ist. Ergebnis: Der Fehler ist im Stammdatensystem zu korrigieren. Die Geschäftsregel lautet: Das Kapitalauszahlungsdatum liegt nie vor dem Kapitalgenehmigungsdatum. Die Chronologie der Beispiele zeigt, dass das Hinzuziehen von weiteren Feldern bei der Erkennung von Fehlern hilft. Die Methoden der Visualisierung sind allerdings auf eine geringe Zahl von Feldern beschränkt. Sollen mehr als 3 – 4 Felder gleichzeitig betrachtet werden, so müssen weiterführende Analysemethoden eingesetzt werden. In der Praxis hat sich dabei die Data Mining-Methode der Regelinduktion besonders bewährt. Die Dimensionsgröße (= Anzahl der gleichzeitig betrachteten Felder) ist theoretisch unbeschränkt. Das Resultat der Regelinduktion sind klar formulierte „if-then“-Regeln, die direkt als Abfragen auf einer Datenbank
95
B Methoden – Techniken – Tools – Regelwerke/Standards angewendet werden können und auch für einen Laien leicht verständlich sind (natürlich vorausgesetzt, ihm ist die Bedeutung der Feldbezeichner bekannt). Beispiel für das Ergebnis einer Regelinduktion (hier auf Basis von Wertpapierstammdaten): IF Wertpapierstatus = „Nicht abgelaufen“ AND Wertpapierart = „Aktie“ THEN Zinssatz = ; SUPPORT = 40%, CORRECTNESS = 99,5%
Methoden der Regelinduktion erkennen solche Zusammenhänge automatisch, auch oder gerade wegen einer gewissen Unschärfe-Toleranz. Die oben genannte Regel hat einen Anwendungsbereich von 40% der Grundgesamtheit, d. h. der Bedingungsteil der Regel trifft auf 40% der gesamten Daten zu, und eine Korrektheit von 99,5%, d. h. die Einschränkung auf „Nicht abgelaufene Aktien“ bewirkt, dass das Zinssatzfeld fast immer leer ist. Die Regel hat also eine Unschärfe von 0,5 %. Genau solche Unschärfen sollen aber bei DQ-Analysen aufgedeckt werden. Ergebnis: Die identifizierte Unschärfe ist zu korrigieren. Die Geschäftsregel ergibt sich aus der „if-then“-Regel selbst: Bei nicht abgelaufenen Aktien ist das Zinssatzfeld leer.
3.5 Metriken im Detail In den voran gegangenen Abschnitten wurde der Zusammenhang zwischen Metriken und Geschäftsregeln erläutert und beispielhaft belegt. Außerdem wurde dargestellt, wie mit Mitteln der Datenanalyse Geschäftsregeln ermittelt werden können. Im Folgenden wird nun ausgeführt, wie verschiedene Regeltypen im Sinne von Metriken genutzt werden können. Grundsätzlich können drei Regeltypen unterschieden werden, die der Überprüfung verschiedener Aspekte von Datenqualität dienen. Die Regeln können in Messprojekten einzeln oder gemeinsam verwendet werden. Dabei ziehen unterschiedliche Messprojekttypen typischerweise auch die Verwendung unterschiedlicher Regeltypen nach sich: – Key Rules zur Überprüfung der die Tabellen verbindenden Felder gefolgt von – Matching Rules zur Überprüfung, inwieweit die Tabellen überhaupt zueinander passen, gefolgt von – Content Rules zur Überprüfung der Konsistenz der Inhalte der Datenzeilen, auch der unterschiedlicher Tabellen, die zueinander passen. Alle Regeln erzeugen numerische Messergebnisse, die sich über selbst definierbare arithmetische Ausdrücke zu Qualitätsmetriken kombinieren lassen. Außerdem erzeugen alle Regeln auf Wunsch Fehlerlisten, die jeweils genau den Ausschnitt
96
3 Strukturierte Datenanalyse, Profiling und Geschäftsregeln aus der analysierten Datentabelle beinhaltet, der eine gegebene Regel verletzt. Beide Outputs – Metriken und Fehlerlisten – sind für die Validierung von Regeln und die Bewertung von Messergebnissen wesentlich. Die Regeln können hierarchisch in einer Baumstruktur hinterlegt werden, wobei die gleiche Regel in mehr als einem Zweig des Baums vorkommen kann. Dies ermöglicht es, verschiedene Sichten auf die Regeln zu definieren, etwa nach Priorität, betroffenen organisatorischen Bereichen, betroffenen Daten nutzenden Systemen oder auch fachlichen Gesichtspunkten. Die Baumstruktur wird im Reporting gespiegelt, so dass auch die Messergebnisse nach den definierten Sichten ausgewertet werden können (s. u.). Key Rules dienen zur Überprüfung von Schlüssel- und allgemeiner MultiplizitätsEigenschaften einzelner oder zusammengesetzter Felder. Vorzugeben ist die zu überprüfende Feldkombination sowie die erlaubten Multiplizitäten für gleiche Ausprägungskombinationen. Matching Rules dienen zur Überprüfung eines Matchings zwischen zwei Tabellen. Vorzugeben ist die Bedingung, über die die Tabellen zueinander in Beziehung stehen, sowie die erlaubten Multiplizitäten. Content Rules dienen zur Überprüfung von Dateninhalten. Die Überprüfung von Dateninhalten erfolgt stufenweise, wobei die Einschränkungen an die Inhalte mit jeder Stufe schärfer werden. Diese Messstufen sind nicht zu verwechseln mit den 16 Dimensionen der Datenqualität wie sie zum Beispiel in [Wang 1999] beschrieben sind. Dabei besteht nicht die Anforderung, dass die Datenfelder in der Prüfung alle Stufen bis zur höchsten durchlaufen müssen. Wird ein Datensatz auf einer Stufe als Fehler erkannt, durchläuft er die übrigen Stufen nicht weiter. Dies vermeidet, dass bei der Validierung der Regel, Fehler auf Fehlerlisten mehrfach betrachtet werden. Im Falle eines Geburtsdatums, dessen exakte Ausprägung sich häufig nur bei Überprüfung gegen Aktenlage bestimmen lässt, und gerade nicht automatisiert, kann die Stufe der Exaktheit nicht erreicht werden. Die einzelnen Stufen sind: – Completeness – die Überprüfung auf korrekte Füllung und Nicht-Füllung – Format – die Überprüfung eines Feldinhalts auf Konsistenz mit einem vorgegebenen Muster – Range – die Überprüfung eines Feldinhalts auf Zugehörigkeit zu einem vorgegebenen Wertebereich – Plausibility – die Überprüfung von ein- oder mehrdimensionalen Relationen zwischen Feldern eines Datensatzes – Accuracy – die Überprüfung ein- oder mehrdimensionaler funktionaler Abhängigkeiten zwischen Feldern eines Datensatzes
97
B Methoden – Techniken – Tools – Regelwerke/Standards
3.6 Datenqualität in der Anwendung Wie wir bereits im vorangegangenen Abschnitt dargestellt haben, lassen sich systematische, metrikbasierte Datenqualitätsmessungen ganz allgemein zur Beurteilung verschiedener Anforderungen aus dem Datenmanagement verwenden. Grundsätzlich unterscheiden wir die Messprojekttypen – Typ a: Prüfung auf Konsistenz innerhalb eines Datenbestandes, – Typ b: Prüfung von Daten haltenden Systemen gegen führende Systeme oder externe Referenzbestände, – Typ c: Prüfung von Daten haltenden Systemen untereinander und – Typ d: Prüfung von Datenmigrationen Abbildung 5 stellt die Informations- und Datenlandschaft eines Unternehmens mit den zugehörigen Abgleichen auf Datenebene dar. Ebene 0 spiegelt die Gesamtlage wider, auf Ebene 1 werden die vorhandenen Informationen in sogenannte Informationsgruppen gegliedert, denen wiederum auf der Ebene 2 Datenbestände zugeordnet werden, die die Grundlage der Informationen bilden. In der letzten Schicht sind die Messprojekttypen auf diesen Datenbeständen dargestellt.
Abbildung 5: Informationsgruppen und Ebenen der Datenqualität Grundsätzlich ist die Wahl der Informationsgruppen hochgradig unternehmensspezifisch und die Anzahl der Gruppen beliebig. Wir haben hier einen nicht untypischen Fall der Informationslandschaft als Beispiel genommen, wie er in Banken anzutreffen ist. So finden wir dort als Beispiel Stammdaten und Bewegungsdaten, wobei diese sich wieder in die entsprechenden Untergruppen aufteilen können. Auch diese Unterteilung ist wieder rein subjektiv. Im Grunde ist dieses Herunterbrechen die Kernaufgabe des Datenmanagements, die sich allerdings an den fachlichen Bedürfnis-
98
3 Strukturierte Datenanalyse, Profiling und Geschäftsregeln sen orientiert. Auf der untersten Gliederungsebene (z.B. Kunde, Mitarbeiter) sind den Informationsgruppen in der Regel Datenbestände zugeordnet. Diese bilden die Ebene 2 und auf ihnen erfolgen letztendlich die Prüfungen. In der Ebene 2 finden wir drei unterschiedliche Typen Datenbestände. Dies ist zum einen der Referenzbestand (Bestand 0), der häufig durch eine externe Datenquelle gebildet wird. Unter Unständen kann dies jedoch auch ein physischer Ordner sein, in dem Daten ‚auf Papier’ gehalten werden. Unternehmen definieren zudem einen führenden Bestand (Bestand 1), der neben den offiziellen Daten des Referenzbestandes auch interne unternehmensspezifische Daten / Informationen enthalten kann (Abbildung 6). Die nachgelagerten Bestände (Bestand 2) greifen dann auf diesen führenden Bestand zu und halten ihrerseits wiederum zusätzliche Informationen, die für die Nutzer dieser Systeme in ihrer täglichen Arbeit notwendig sind. Die beschriebene Vorgehensweise der zusätzlichen Speicherung erzwingt eine disziplinierte Umgangsweise mit Daten, ist jedoch operativ notwendig, begründet in den anwendungsspezifischen Anforderungen unterschiedlicher Fachbereiche.
Abbildung 6: Abgleichvarianten Abbildung 6 macht noch mal die verschiedenen Abgleichvarianten beispielhaft anhand inhaltlicher Daten-Ausprägungen in den unterschiedlichen Bestandstypen deutlich. Abgleiche unter den drei Bestandstypen (grüne, rote Pfeile) umfassen Prüfungen zum einen auf inhaltliche Identität oder Korrektheit logischer Ableitung. Information und Daten, die im Führenden Bestand zusätzlich gehalten werden, unterliegen der internen Konsistenzprüfung. Im Beispiel wird ein offiziell
99
B Methoden – Techniken – Tools – Regelwerke/Standards vergebener Branchenschlüssel mit einem intern abgeleiteten verglichen. Die Darstellung macht deutlich, dass sich aus technisch logischer Sicht die Abgleiche nicht unterscheiden. Die eigentliche Arbeit erfolgt auf der inhaltlichen Ebene, die im Wesentlichen von den prozessualen Gegebenheiten geprägt ist. Bei Ablösungen von Systemen wird regelmäßig die Qualität der neuen Software in Testzyklen auf Basis der Erfahrungen mit dem alten System oder der Erwartung an das neue System überprüft. Diese Tests werden mittlerweile durch ausgereifte Testsysteme unterstützt, mit deren Hilfe die Realität abbildende Testfälle abgearbeitet werden. Diese Testzyklen stellen sicher, dass die neue Software in ihren neuen und alten Funktionalität korrekt arbeitet. Dies bedeutet allerdings in der Regel nicht, dass die Daten und Informationen, die durch das System repräsentiert werden, nach der Migration auch wiedergefunden werden können. Diese gehen schlicht auf dem Weg von einem zum anderen System ‚verloren’, da – die den Systemen zugrunde liegenden Datenmodelle unterschiedlich sind, o dadurch gleiche Sachverhalte unterschiedlich verschlüsselt werden und o Informationen in unterschiedlicher Granularität abgelegt werden. – das Datenmodell des Altsystems über seine Lebensdauer hinweg unkontrolliert angepasst wurde oder – Wissen über das Altsystem und des zugehörigen Datenmodells nicht mehr oder nur eingeschränkt vorhanden ist. Somit kann auch der Erfolg von Datenmigrationen mit den im vorangegangenen Abschnitt beschriebenen Methoden anhand der vorgefundenen Datenqualität beurteilt werden. In der Regel müssen die genutzten Datenqualitätsregeln hierbei angepasst werden. Reine Datenqualitätsmessungen sind für viele Bereiche eine operativ notwendige Maßnahme. Nur eine hohe Datenqualität erlaubt es Unternehmen z.B. regulatorischen Anforderungen zu genügen oder auch Business Intelligence erfolgreich zu betreiben. Insofern ist die Überprüfung der Datenqualität immer zielgerichtet durchzuführen und sollte keinem Selbstzweck folgen. Deming [Deming 1986] hat dies bereits in den 50er Jahren in einer seiner Regeln deutlich formuliert. Mitarbeiter werden, wenn sie quantitative Datenqualitätsziele erreichen müssen, diese, koste es was es wolle, zu erreichen suchen. Dies kann im schlechtesten Falle am Ende bedeuten, dass Unternehmen Geld für diese Messungen und Maßnahmen ausgeben, ohne dass irgendjemand davon profitiert.
100
3 Strukturierte Datenanalyse, Profiling und Geschäftsregeln
Literaturverzeichnis [English 1999] English, Larry P.; ‘Improving Data Warehouse and Business Information Quality’, Wiley & Sons, New York, 1999 [Wang 1996] Wang, Richard Y.; Strong, Diane M.; ‚Beyond Accuracy: What Data Quality Means to Data Consumers’, Journal of Management Information Systems, 1996, Vol. 12, No. 4, pp.5-34 [Deming 1986] Deming, J. Edwards; ‘Out of the crisis’; MIT Press, Cambridge, Massachusetts, 1986
101
4 Datenbereinigung zielgerichtet eingesetzt zur permanenten Datenqualitätssteigerung 4 Datenbereinigung zielgerichtet eingesetzt zur Datenqualitätssteigerung
Marcus Zwirner Sind Datenfehler mit Hilfe der in den vorangegangenen Kapiteln beschriebenen Methoden und Techniken identifiziert worden, ist die Datenqualität damit (leider) noch nicht automatisch verbessert. Man hat zwar nun einen qualifizierten Überblick über die tatsächliche Situation und die existierenden Fehlerkonstellationen, aber die Korrektur steht noch bevor und stellt in einem Datenqualitätsprojekt oftmals eine besondere Herausforderung dar, da hierfür mitunter ein nicht unbedeutender Aufwand erbracht werden muss. Dank der vorherigen ausführlichen Datenqualitätsanalyse und –messung ist man nun jedoch in der Lage, – gezielt zu analysieren, wodurch die Datenfehler entstanden sind, – zu definieren, welche Maßnahmen ergriffen werden müssen, um die Fehlerquellen zu beseitigen und die Datenfehler zu bereinigen und – die verschiedenen Datenfehler und die notwendigen Maßnahmen zu priorisieren und in einen entsprechenden Projektplan zu überführen. In diesem Kapitel wird schwerpunktmäßig das Vorgehen für effektive Korrekturmaßnahmen thematisiert, daneben aber auch die Methoden für ein Datenqualitätsmanagement und die Aspekte beschrieben, die zu berücksichtigen sind, um die für den jeweiligen Einzelfall sinnvollste Datenqualitätsmaßnahme ergreifen zu können.
4.1 Definition “Datenbereinigung” Bevor die verschiedenen Aspekte eines Datenbereinigungsprojektes vertieft werden, zunächst eine Definition des Begriffs “Datenbereinigung”. Bei Wikipedia [http://de.wikipedia.org/wiki/Datenbereinigung] ist beispielsweise folgende Definition zu finden: Zur Datenbereinigung (engl. data cleansing oder data scrubbing) gehören verschiedene Verfahren zum Entfernen und Korrigieren von Datenfehlern in Datenbanken oder anderen Informationssystemen. Die Fehler können beispielsweise aus inkorrekten (ursprünglich falschen oder veralteten), redundanten, inkonsistenten oder falsch formatierten Daten bestehen.
102
4 Datenbereinigung zielgerichtet eingesetzt zur Datenqualitätssteigerung Wesentliche Schritte zur Datenbereinigung sind die Duplikaterkennung (Erkennen und Zusammenlegen von gleichen Datensätzen) und Datenfusion (Zusammenführen und Vervollständigen lückenhafter Daten). Die Datenbereinigung ist ein Beitrag zur Verbesserung der Informationsqualität. Allerdings betrifft Informationsqualität auch viele weitere Eigenschaften von Datenquellen (Glaubwürdigkeit, Relevanz, Verfügbarkeit, Kosten...), die sich mittels Datenbereinigung nicht verbessern lassen.
Anders formuliert: Unter einer Datenbereinigung wird üblicherweise eine einmalige oder wiederholte (aber nicht permanente) Aktion zur Wiederherstellung einer korrekten Datenbasis verstanden. Selbst bei regelmäßig wiederholten Bereinigungsaktionen handelt es sich aber immer wieder um eine nachträgliche Korrektur bereits entstandener Datenfehler. Dieses Vorgehen kann im Einzelfall (z.B. bei relativ statischen Daten) durchaus sinnvoll und ausreichend sein. Bei kritischen Datenfehlern und hochdynamischen Daten liegt in solchen punktuellen Ansätzen jedoch oftmals ein Problem: Sie helfen i.d.R. nur temporär (kurzfristig) und verursachen einen erhöhten (Bereinigungs-) Aufwand und das u.U. sogar wiederholt. Zur Verdeutlichung folgendes Beispiel: Überträgt man seine Kontakte z.B. aus Microsoft Outlook® auf sein Mobiltelefon und stellt später fest, dass eine Telefonnummer nicht mehr aktuell ist, wird sehr häufig die Telefonnummer nur auf dem Mobiltelefon geändert. Nach einer erneuten Übernahme der Kontaktdaten aus Microsoft Outlook® ist die Änderung im Telefon u.U. wieder mit den ursprünglichen, veralteten Daten überschrieben und damit verloren (falls man bei der Synchronisation nicht entsprechende Einstellungen vornimmt). Die Korrektur der Telefonnummer muss erneut vorgenommen werden (nach einer u.U. wiederholten aufwändigen Recherche).
4.2 Ursachenanalyse Ein solches Vorgehen ist sicherlich nicht effektiv und stellt die Datenqualität vor allem nicht dauerhaft sicher. Idealerweise werden deshalb ergänzend zur Datenbereinigung auch Maßnahmen ergriffen, die die erneute Entstehung von Datenfehlern möglichst verhindern. Deshalb bedarf es vor einer Bereinigung einer genauen Analyse der Fehlerursachen, in der auch die bestehenden Prozesse und Datenflüsse untersucht werden müssen, um die Maßnahmen zielgerichtet durchzuführen. Im oben aufgeführten Beispiel mit der Telefonnummer ließe sich dann erkennen, dass die eigentliche Bereinigung besser im führenden Quellsystem (in diesem Beispiel Microsoft Outlook®) durchzuführen ist und sich durch die (regelmäßige oder
103
B Methoden – Techniken – Tools – Regelwerke/Standards bei Bedarf auch im Zusammenhang mit der Datenbereinigung außerplanmäßige) Synchronisation der Daten auf das Mobiltelefon dort ebenfalls auswirkt. Gleichzeitig könnte sich ein Bedarf für die Änderung der bisherigen Prozesse ergeben. Da es sich in der Praxis nicht als effektiv erweisen würde, eine neue Telefonnummer zunächst im Quellsystem (Microsoft Outlook®) zu erfassen, dann eine Synchronisation auf das Mobiltelefon durchzuführen, um damit endlich den Anruf tätigen zu können, wäre eine Lösungsmöglichkeit, auch eine Synchronisation in umgekehrter Richtung (vom Mobiltelefon nach Microsoft Outlook®) vorzunehmen (in der Praxis wird heute deshalb auch eine Synchronisation in beide Richtungen ermöglicht).
4.3 Bewertungskriterien für Datenfehler und Korrekturmaßnahmen Die Ursachen für Datenfehler können vielfältig sein. Angefangen beim Datenmodell und den Anwendungen, mit denen die Daten bearbeitet werden, über die Datenflüsse und bestehenden Prozesse, bis hin zu den beteiligten Anwendern „lauert“ überall der „Fehlerteufel“. Speziell der menschliche Einflussfaktor ist hierbei nicht zu vernachlässigen. Neben den allzu menschlichen Schwächen, wie z.B. Hör- und Tippfehler, können auch mangelnde Sorgfalt oder kriminelle Absichten zu Datenfehlern führen. Und schließlich darf auch der Erfindungsreichtum der Anwender nicht vergessen werden, wenn es darum geht, die Daten so „hinzubiegen“, dass die realen Geschäftsprozesse auch mit den durch Anwendungen gelegentlich eingeschränkten Möglichkeiten abgebildet werden können. Da wird beispielsweise schon mal ein Datenfeld, das eigentlich für den Ortsteil vorgesehen ist, für eine Telefonnummer „missbraucht“, da diese wichtige Empfängerinformation anderweitig nicht auf einen Lieferschein gedruckt werden kann. Entsprechend vielfältig können auch die Maßnahmen sein, die ergriffen werden müssen, um die bestehenden Fehler zu korrigieren und das Entstehen neuer Fehler zu verhindern oder zumindest das Risiko dafür zu reduzieren. Aus diesem Grund ist es unabdingbar, die notwendigen und möglichen Verbesserungsmaßnahmen zu konzipieren und zu bewerten. Oftmals wird man nämlich nicht in der Lage sein, alle auf Basis der erkannten Datenfehler identifizierten möglichen und notwendigen Maßnahmen gleichzeitig umzusetzen. Um eine Bewertung der existierenden Datenfehler (und davon abgeleitet der notwendigen Maßnahmen) vornehmen zu können, bieten sich die nachfolgend aufgeführten Kriterien an: – Bedeutung der Daten Hier gilt es zu bewerten, welche Bedeutung die betroffenen Daten für das Unternehmen und die Geschäftsprozesse haben und welche Konsequenzen sich aus Datenfehlern ergeben.
104
4 Datenbereinigung zielgerichtet eingesetzt zur Datenqualitätssteigerung Mögliche Konsequenzen können beispielsweise sein: o
Imageschaden, da Fehler in den Kundendaten in Mailingaktionen zu einer fehlerhaften Ansprache führen oder die Zielgruppe nicht eindeutig identifiziert werden kann und somit Cross-SellingPotenziale nicht genutzt werden können.
o
Fehlentscheidungen (strategisch wie auch operativ), da die für eine Entscheidung herangezogenen Informationen unvollständig und fehlerhaft und die “Verlässlichkeit” der Entscheidungsbasis nicht bekannt ist.
o
Erhöhtes Risiko, da ein Kunde mehrfach im Bestand ist (Dublette) und damit mehrfach ein Kreditlimit eingeräumt bekommt.
o
Schlechtere Einkaufskonditionen, da der Umsatz mit bestimmten Lieferanten nicht genau bekannt ist, wenn diese mehrfach im Lieferantenstamm existieren.
o
Zusatzaufwände für die Bearbeitung eines Geschäftsvorfalls, die Erstellung von Auswertungen und Analysen die Entwicklung und den Betrieb eines Systems, da Datenfehler immer erst adhoc korrigiert werden müssen.
o
Akzeptanz- und Vertrauensverlust eines Systems, da die Informationen nicht verlässlich sind oder erscheinen.
o
Fehlplanungen, da fehlerhafte Zahlen eine falsche Planungsbasis ergeben, was dann wiederum zu einer fehlerhaften Preiskalkulation und Rentabilitätsrechnung führen kann.
– Grundlage der Anforderungen an die Datenqualität Hier wird bewertet, welche Bedeutung eine Quelle hat, in der Anforderungen an die Datenqualität direkt oder indirekt definiert sind und welche Konsequenzen bei Mißachtung der Anforderungen drohen. Mögliche Grundlagen sind: o
Gesetzliche Anforderungen, wie z.B. Basel II oder SOX (SarbanesOxley Act), bei denen die Richtigkeit und Verlässlichkeit von Finanzdaten unabdingbar sind und in denen auch entsprechende Kontrollmechanismen gefordert werden.
o
Aufsichtsrechtliche Anforderungen, wie z.B. die Meldung von Großund Millionenkrediten von Banken an das BaFin (Bundesanstalt für Finanzdienstleistungsaufsicht) gemäß KWG (Gesetz über das Kreditwesen).
o
Offizielle, öffentliche Standards, wie z.B. Adressierungsrichtlinien der Post
105
B Methoden – Techniken – Tools – Regelwerke/Standards o
Strategische Entscheidungen eines Unternehmens, die beispielsweise Themen wie Optimierung der Geschäftsprozesse zur Kostenreduzierung oder Serviceverbesserung Forcierung einer CRM- / Marketing-Strategie Image-Kampagnen zur Kundenbindung und Neukundengewinnung zum Ziel haben.
o
Projektspezifische Anforderungen, die sich aus einem Projektauftrag ergeben.
o
Firmeninterne Standards, die sich z.B. aus Arbeitsanweisungen ergeben.
– Art der Fehler Bei der Art der Fehler gilt es zu klassifizieren, ob es sich bei den Fehlern um eher technische oder fachliche Fehler handelt. Technische Fehler können beispielsweise sein: o
Widersprüche gegen eine logische, aber nicht in der Datenbank definierte referentielle Integrität (z.B. Adresse, die einem nicht existierenden Lieferanten zugeordnet ist)
Fachliche Fehler sind z.B.: o
Inhaltlich falsche, widersprüchliche oder unplausible Werte (z.B. E-Mail-Adresse ohne gültige Top-Level-Domain)
Die Fehlerkategorie lässt bereits Rückschlüsse auf die Art der möglichen Bereinigungsmaßnahmen und die Verantwortung für die Durchführung der Korrektur zu. So lassen sich technische Fehler oftmals nicht manuell durch einen Fachbereich bereinigen, da die zur Verfügung stehenden Anwendungen diese Art von Änderungen nicht unterstützen. – Art der möglichen Bereinigungsmaßnahmen Die Art der möglichen Bereinigungsmaßnahme hängt primär vom Fehlerfall und der zur Verfügung stehenden Anwendungen ab. Grundsätzlich gibt es die Optionen o o o
manuelle Bereinigung maschinelle Bereinigung und eine Mischform aus den beiden erstgenannten Varianten.
Eine manuelle Bereinigung wird entweder dann vorgenommen, wenn die Fehleranzahl und damit der manuelle Aufwand gering ist, oder wenn es keine einfachen Regeln gibt, nach denen ein gültiger Wert maschinell ermittelt und automatisiert korrigiert werden kann.
106
4 Datenbereinigung zielgerichtet eingesetzt zur Datenqualitätssteigerung Die maschinelle Bereinigung kommt meistens dann zum Tragen, wenn es sich um eine (sehr) große Anzahl von Fehlern handelt und diese nach spezifizierbaren Regeln oder durch Abgleich gegen Referenzverzeichnisse automatisiert korrigiert werden können. Die Bereinigung selbst kann dann entweder über ein Anwendungsprogramm, das ggf. speziell für diese Bereinigung realisiert werden muss, oder mit Hilfe von Datenbankmitteln (z.B. SQL) erfolgen. Die Mischform aus manueller und maschineller Bereinigung kommt dann zur Anwendung, wenn ein Großteil der Daten nach einfachen Regeln maschinell korrigiert werden kann und identifizierbare Sonder- oder Zweifelsfälle einer manuellen Bearbeitung und Entscheidung bedürfen. – Änderungshäufigkeit der Daten Die Änderungshäufigkeit der Daten ist ein Indiz dafür, wielange es nach einer Bereinigung der Datenfehler dauern kann, bis wieder eine größere Anzahl von Fehlern entstanden ist und damit erneut eine Bereinigung notwendig wird. Um bei hoch dynamischen Daten eine häufige und aufwändige Bereinigung zu vermeiden, ist eine entsprechende Datenqualitätsstrategie zu wählen, die dieser Dynamik Rechnung trägt. Hierzu gehören neben der initialen Bereinigung auch Überlegungen, wie Datenfehler künftig am besten vermieden werden. Andererseits kann es bei eher statischen Daten genügen, diese initial zu bereinigen und ggf. in größeren zeitlichen Abständen regelmäßig zu überprüfen und bei Bedarf eine erneute Bereinigung durchzuführen. – Anzahl der Datenfehler Ein wichtiger Aspekt für die Beurteilung der Datenqualitätssituation ist sicherlich die Anzahl der vorhandenen Datenfehler. Eine große Anzahl von Fehlern stellt i.d.R. ein entsprechend großes Problem dar, sowohl in der Auswirkung, als auch für die Bereinigungsmaßnahmen. Setzt man an dieser Stelle mit Datenqualitätsmaßnahmen an, kann umgekehrt aber auch ein entsprechend großer positiver Effekt erzielt werden. Es muss allerdings berücksichtigt werden, dass bei einer großen Fehleranzahl manuelle Bereinigungen i.d.R. nicht mehr wirtschaftlich sinnvoll möglich sind. Die Fehleranzahl darf allerdings nicht alleine betrachtet werden, da es immer auch die Auswirkungen der Datenfehler zu bewerten gilt (siehe oben “Bedeutung der Daten”). Sollte man bei der Bewertung allerdings zu dem Schluss kommen, dass die Anzahl der Fehler hoch ist, die Auswirkungen jedoch gering sind, muss man u.U. auch den Datenbestand grundsätzlich in Frage stellen.
107
B Methoden – Techniken – Tools – Regelwerke/Standards – Maßnahmen zur Vermeidung neuer Fehler Häufig werden in Datenqualitätsprojekten zunächst einmal Maßnahmen zur (einmaligen) Bereinigung der festgestellten Datenfehler geplant. Wenn man allerdings bedenkt, wie aufwändig solche Maßnahmen z.T. sind und dass sie u.U. künftig nochmals notwendig werden, wenn die Fehlerquellen nicht beseitigt werden, stellt sich die Frage, ob es nicht effektivere Maßnahmen gibt. Hierzu zählen vor allem solche Maßnahmen, durch die die Entstehung neuer Datenfehler möglichst verhindert werden. Bei der Projektplanung gilt es o o
zu prüfen, ob für den einzelnen Fehlerfall eine permanente Fehlervermeidung erforderlich ist oder ob es ausreicht, einmalig oder regelmäßig wiederholt eine Bereinigung durchzuführen und diejenigen Maßnahmen zu identifizieren, die für den jeweiligen Fehlerfall geeignet und wirtschaftlich sinnvoll umsetzbar sind.
– Aufwand für Datenqualitätsmaßnahmen Last but not least gilt es in einem Datenqualitätsprojekt selbstverständlich auch den Aufwand für Datenqualitätsmaßnahmen zu bewerten. Einerseits können mit wenig Aufwand “Quick wins” erzielt werden, die einen kurzfristig erzielbaren Nutzen bringen. Andererseits kann es auch sehr aufwändig sein, bestimmte Fehler bzw. Fehlerquellen zu beheben, insbesondere dann, wenn ein hoher manueller Anteil an der Korrektur notwendig ist. Sollte man sich allerdings aus Aufwandsgründen dafür entscheiden, bestimmte Maßnahmen nicht durchzuführen, muss man sich der Konsequenzen daraus bewusst sein und diese im weiteren Verlauf stets berücksichtigen (z.B. bei der Verlässlichkeit von Auswertungen und Analysen).
4.4 Methoden des Datenqualitätsmanagements Nachdem die verschiedenen Datenfehler und die zur ihrer Korrektur und ggf. künftigen Vermeidung notwendigen Maßnahmen bewertet sind, gilt es zu entscheiden, wie im weiteren Projektverlauf vorangegangen wird. Grundsätzlich gibt es für ein Datenqualitätsmanagement (DQM) folgende unterschiedliche Vorgehensweisen: – “Laissez faire” Kommt man zu der Erkenntnis, dass bestimmte Datenfehler o o
108
unkritisch sind und / oder nur so selten vorkommen, dass dadurch keine nennenswerten negativen Auswirkungen zu erwarten sind,
4 Datenbereinigung zielgerichtet eingesetzt zur Datenqualitätssteigerung kann das Ergebnis lauten, dass keine besonderen Maßnahmen zu ergreifen sind, um die Fehler zu beheben. Der Aufwand ist in solchen Fällen an anderer Stelle sinnvoller investiert. Die Datenfehler bleiben erhalten oder werden u.U. im Rahmen der täglichen Arbeit “nebenbei” behoben, wenn zufällig ein solcher Fall bearbeitet wird. – Reaktives Vorgehen Bei einem reaktiven Vorgehen wird ein bestimmtes Datenqualitätsproblem genau dann durch eine einmalige Bereinigungsaktion behoben, wenn es auffällt. Diese Bereinigung kann manuell oder maschinell durchgeführt werden. Maßnahmen zur künftigen Vermeidung dieser Fehlerkonstellation werden ebenso nicht ergriffen, wie Überwachungsmechanismen eingeführt. Man geht dabei davon aus, dass die Datenfehler, falls sie in der Zukunft erneut auftreten, irgendwann durch ihre Auswirkungen wieder auffallen und man dann wieder darauf reagieren kann (z.B. durch eine erneute Bereinigungsaktion). Demzufolge helfen solche reaktiven Maßnahmen immer nur punktuell und temporär. Aufgrund der mangelnden Überwachung und des damit verbundenen Risikos, dass Datenfehler erst spät erkannt werden, sollte diese Methode nur dann gewählt werden, wenn die Auswirkungen solcher Datenfehler überschaubar und vertretbar sind. – Proaktives Datenqualitätsmanagement Bei einem proaktiven Datenqualitätsmanagement werden neben einer initialen Bereinigung der Datenfehler auch Maßnahmen zur o o o o
Beseitigung der Fehlerquellen, fortlaufenden Überwachung (Monitoring) der Datenqualität, Verhinderung neuer Datenfehler im laufenden Betrieb (präventive Maßnahmen) und / oder regelmäßigen Bereinigung neu entstandener Datenfehler
ergriffen. Erst dann kann man eigentlich von einem echten Datenqualitätsmanagement sprechen. Diese Variante ist sicherlich die aufwändigste Methode, weshalb sie auch nicht für alle Arten von Datenfehlern gewählt wird. Auf der anderen Seite wird dadurch der Erfolg des Datenqualitätsprojekts jedoch am besten und vor allem auch dauerhaft sichergestellt. Bei der Wahl der Methode wird sehr häufig die Bedeutung und die Änderungshäufigkeit der Daten als Entscheidungskriterium herangezogen. Je höher die Bedeutung und je dynamischer die Daten sind, umso wichtiger ist ein proaktives Datenqualitätsmanagement (siehe Abbildung 1).
109
B Methoden – Techniken – Tools – Regelwerke/Standards
Abbildung 1: Methoden des Datenqualitätsmanagement (DQM) in Abhängigkeit der Änderungshäufigkeit und Bedeutung der Daten
Daneben können aber auch weitere Kriterien für die Auswahl der geeigneten Methode herangezogen werden (siehe hierzu auch Kap. 4.3 Bewertungskriterien für Datenfehler und Korrekturmaßnahmen). Sowohl beim reaktiven Vorgehen, wie auch ganz besonders beim proaktiven Datenqualitätsmanagements empfiehlt es sich, in der Unternehmens-Organisation dauerhaft ein Datenqualitäts-Team zu etablieren, das – die einzelnen Maßnahmen des aktuellen Datenqualitätsprojekts koordiniert und überwacht, – in künftigen Projekten die Datenqualitätsaspekte einbringt und beratend tätig ist, – systematisch Fehler durch reproduzierbare Datenanalysen ermittelt und – eigenständig Datenqualitätsmaßnahmen initiieren kann.
4.5 Datenqualitätsmaßnahmen im Detail Bei einem proaktiven Datenqualitätsmanagement gibt es eine Vielzahl möglicher Maßnahmen, mit deren Hilfe – – – –
die vorhandenen Datenfehler bereinigt werden, die Fehlerursachen behoben werden, präventiv Datenfehler in der Zukunft vermieden werden und die Datenqualität effektiv und dauerhaft sichergestellt wird.
In diesem Abschnitt werden diese Maßnahmen detailliert beschrieben.
110
4 Datenbereinigung zielgerichtet eingesetzt zur Datenqualitätssteigerung In einem Datenqualitätsprojekt werden zumeist mehrere der nachfolgend beschriebenen Maßnahmen – z.T. kombiniert, teilweise auch unabhängig voneinander - ergriffen, da nicht für alle Fehlerarten dieselbe Vorgehensweise sinnvoll ist.
Systemoptimierungen Unter Systemoptimierungen sind all diejenigen Maßnahmen zusammenzufassen, die die Datenhaltung und Programme, mit denen die Daten verarbeitet werden, unmittelbar betreffen. Hierunter fallen: – Anpassungen des Daten- bzw. Datenbankmodells Sind Datenfehler darauf zurückzuführen, dass das vorhandene Daten(bank)modell die Darstellung von Informationen und/oder deren logische Beziehung nicht korrekt ermöglicht, muss das Daten(bank)modell angepasst werden. Beispiel: Sieht das Datenmodell nicht vor, dass zu einer Person mehrere Adressen oder mehrere Telefonnummern gespeichert werden können, müssen mehrere Datensätze für ein und dieselbe Person mit unterschiedlichen Adressen und/oder Telefonnummern angelegt werden (siehe Tabelle 1). Tabelle 1: Beispiele für vervielfältige Personendatensätze
Name
Adresse
Telefon-Nr.
Anmerkung
Marcus Zwirner Tübinger Str. 53 70178 Stuttgart
0711-901198-38
Besuchsadresse mit Tel.-Nr.
Marcus Zwirner Tübinger Str. 53 70178 Stuttgart
0711-901198-22
Besuchsadresse mit Fax-Nr.
Marcus Zwirner Tübinger Str. 53 70178 Stuttgart
0172-8042809
Besuchsadresse mit Mobil-Nr.
Markus Zwirner Postfach 150211 70075 Stuttgart
0711-901198-38
Postfachadresse mit Tel.-Nr.
Marcus Zwirner Eglosheimer Str. 40 71636 Ludwigsburg
07141-4433-38
ehem. Adresse mit Tel.-Nr.
...
...
...
...
Da die Personendaten auf diese Weise redundant existieren, sind Datenqualitätsprobleme durch abweichende oder widersprüchliche Informationen vorprogrammiert (z.B. unterschiedliche Schreibweisen des Namens, wie im vierten Datensatz in Tabelle 1). Ebenso ist es i.d.R. dann auch nicht möglich, die verschiedenen Datensätze korrekt zu klassifizieren (z.B. Erstwohnsitz,
111
B Methoden – Techniken – Tools – Regelwerke/Standards Zweitwohnsitz oder private Telefonnummer, geschäftliche Telefonnummer etc.), was eine effektive Nutzung erschwert oder gar verhindert. Im schlechtesten Fall existiert zwischen den einzelnen Datensätzen zu ein und derselben Person noch nicht einmal eine Beziehung, so dass u.U. gar nicht zu erkennen ist, dass sich die ganzen Datensätze auf eine einzelne Person beziehen. Ebenso lassen sich eine ganze Reihe von Datenqualitätsprüfungen auch direkt über ein Datenbanksystem abbilden. Hierfür können Mechanismen wie referentielle Integrität und Constraints verwendet werden, über die Beziehungen und Abhängigkeiten zwischen verschiedenen Objekten und zulässige Wertebereiche definieren werden können. Damit lassen sich Datenfehler durch oftmals einfache Anpassungen des Daten(bank)modells künftig automatisch verhindern, ohne dass aufwändige Anpassungen der Anwendungsprogramme erforderlich wären. Beispiel: Adressen können nur erfasst werden, wenn sie einem bestimmten , bereits existierenden Kunden oder Lieferanten zugeordnet werden. Außerdem muss der Name eines Kunden oder Lieferanten immer gefüllt sein, bei einer natürlichen Person zusätzlich noch der Vorname. – Anpassungen von Anwendungs- und Schnittstellenprogrammen Resultieren Datenfehler aus Programmfehlern, sind diese zu beheben, um nach einer Datenbereinigung nicht nochmals dieselben Fehler entstehen zu lassen. Zusätzlich kann es erforderlich sein, in den Anwendungsprogrammen – speziell, wenn sie zur Erfassung von Daten durch Anwender dienen – neue oder ergänzende Plausibilitätsprüfungen zu integrieren. Die Basis dafür können die Datenqualitätsregeln sein, die für die Datenqualitätsmessung verwendet wurden. Darüber können o o o
Formatprüfungen (z.B. für Telefon- und Handelsregisternummern, Datumswerte, E-Mail-Adressen etc.) Prüfungen gegen Wertebereichstabellen oder Referenzverzeichnisse (z.B. für Anreden, Titel, Rechtsformen, Branchenschlüssel, Telefonvorwahlen etc.) und Prüfungen von Datenfeldkombinationen und –abhängigkeiten (z.B. bei Firmen muss eine gültige Rechtsform erfasst werden oder Handelsregisternummer und das Amtsgericht, bei dem der Handelsregistereintrag vorgenommen wurde, sind immer gemeinsam zu erfassen)
abgedeckt werden (ergänzende Informationen siehe auch unten unter “Einbinden von qualitätssichernden Werkzeugen”). Damit wird der Anwender direkt beim Erfassen der Daten unterstützt und ggf. auf ungültige oder un-
112
4 Datenbereinigung zielgerichtet eingesetzt zur Datenqualitätssteigerung plausible Informationen hingewiesen, bevor die Fehler in der Datenbank gespeichert werden. Zu diesem Zeitpunkt ist eine Korrektur i.d.R. sehr viel einfacher, schneller und kostengünstiger möglich, als bei einer nachträglichen Bereinigung, da bei der Erfassung der Daten die Unterlagen zum Geschäftsvorfall noch vorliegen oder u.U. sogar ein telefonischer Kontakt zum Kunden oder Lieferanten besteht, wodurch in Zweifelsfällen durch eine einfache und schnelle Rückfrage für Klärung gesorgt werden kann, während bei einer nachträglichen Bereinigung aufwändig recherchiert, evtl. die Unterlagen zum Geschäftsvorfall gesichtet und im Extremfall der Kunde oder Lieferant kontaktiert werden muss. Neben reinen Plausibilitätsprüfungen spielt jedoch auch die “Gebrauchstauglichkeit” (Usability) einer Anwendung eine wichtige Rolle für das fehlerfreie Arbeiten von Anwendern. Hierunter fallen u.a. o o o
eine möglichst übersichtliche Gestaltung von Erfassungsmasken (z.B. hinsichtlich der Ausrichtung und Gestaltung von Eingabefeldern) eine möglichst intuitive Dialogführung (z.B. hinsichtlich der Reihenfolge der Eingabefelder oder der verschiedenen Bearbeitungsschritte) effektive Suchfunktionen, um z.B. in umfangreichen Wertebereichstabellen (z.B. Berufs- und Berufsgruppenbezeichnungen) effektiv und schnell den gewünschten Eintrag zu finden .
Werden diese Aspekte in Anwendungsprogrammen vernachlässigt, werden Datenfehler geradezu provoziert. Entspricht z.B. die Reihenfolge der Eingabefelder für Namensinformationen nicht der “natürlichen” Reihenfolge (Anrede, Titel, Vorname, Nachname) kommt es dadurch zu Vertauschungen zwischen den verschiedenen Datenfeldern. Oder es führt dazu, dass bei umfangreichen Wertebereichstabellen der gesuchte Eintrag nicht effektiv und schnell gefunden werden kann (siehe auch unten unter “Einbinden von qualitätssichernden Werkzeugen”) und deshalb irgendein anderer Wert oder ein pauschaler Eintrag (z.B. “sonstige”) gewählt wird. Dieses Phänomen zeigt sich für unterschiedliche Daten immer wieder. Zumeist handelt es sich dabei um Pflichtfelder, die bei der Erfassung der Daten mit zulässigen Werten gefüllt sein müssen, für den aktuellen Geschäftsvorfall aber keine entscheidende Bedeutung hat. Aus Zeitgründen oder mangels genauer Information werden dann häufig Standardwerte eingetragen. Bei einer Datenanalyse zeigen sich solche Phänomene dann dadurch, dass ein bestimmter Wert in einem solchen Datenfeld statistisch überdurchschnittlich häufig vorkommt (z.B. der Wert “01.01.1901” als Geburtsdatum). Bei Schnittstellenprogrammen, die die Daten zwischen verschiedenen Systemen oder Anwendungsprogrammen übertragen, gibt es darüber hinaus noch die zusätzlichen Anforderungen, dass
113
B Methoden – Techniken – Tools – Regelwerke/Standards o
o
Wertebereiche für dieselbe Information idealerweise einheitlich über Systemgrenzen hinweg verwendet werden oder aber bei unterschiedlichen Wertelisten (z.B. Geschlecht “m, w, u” vs. “0, 1, 2”) zumindest eine korrekte Umsetzung gewährleistet ist und die Schnittstellen in Bezug auf die übertragenen Informationen vollständig sind, um auch im Zielsystem alle Daten zur Verfügung zu haben, die für die Weiterverarbeitung von Bedeutung sind. Andernfalls besteht die Gefahr, dass Datenfelder “missbraucht” werden, um Informationen auszutauschen, für die es keine andere fachlich korrekte Möglichkeit gibt (siehe Beispiel mit der Telefonnummer im Ortsteilfeld im Abschnitt “4.3 Bewertungskriterien für Datenfehler und Korrekturmaßnahmen”).
Geschäftsprozessoptimierung Auch nicht optimal ablaufende Geschäftsprozesse können die Ursachen für Datenqualitätsprobleme sein. Häufig treten Datenfehler dann auf, wenn – Prozesse über Organisationsgrenzen hinweg gehen und damit Schnittstellen existieren, an denen ein erhöhtes Risiko für Fehler gegeben ist, oder – für einzelne Prozessschritte nicht alle Informationen oder Unterlagen vorliegen, die für eine fehlerfreie Bearbeitung erforderlich wären. Hinzu kommt, dass das Bewusstsein, was die Daten für das Unternehmen bedeuten und was im weiteren Verlauf des Lebenszyklus der Daten damit gemacht wird, nicht immer in ausreichendem Maße vorhanden ist. Beispiel: Ein Vertriebsmitarbeiter erfasst bei der Neuanlage eines Interessenten zunächst nur die Daten, die für die Erstellung eines Angebots notwendig sind (also in erster Linie den Namen und die Adresse) und darüber hinaus evtl. noch ein paar “soft facts” als Freitext, die ihm evtl. für die Gewinnung des Auftrags wichtig erscheinen (z.B. persönliche Vorlieben und Hobbys des Interessenten). Kommt es dann zum Auftrag, ist es für die Auftragsabwicklung primär erforderlich, die Auftragsdaten (z.B. Bestellinformationen und Zahlungsbedingungen) schnellstmöglich zu erfassen, um den Auftrag kurzfristig abwickeln zu können. Will dann später das Marketing eine Kapagne durchführen, bei der die Zielgruppe über das Alter und Berufsgruppen selektiert werden soll, stehen die notwendigen Daten nicht oder nur unformatiert in einem Freitextfeld (weil z.B. durch den Vertriebsmitarbeiter dort erfasst) zur Verfügung. Da die Zielgruppe nicht korrekt ermittelt werden kann, ist der Erfolg der Marketingkampagne fraglich und Folgeaufträge (z.B. über Cross-Selling) gefährdet. Für die Optimierung der Geschäftsprozesse gibt es auch zur Vermeidung von Datenfehlern die klassischen Ansätze, bei denen – die zur Verfügung stehenden Ressourcen (sowohl in Bezug auf Personal, wie auch Arbeitsmittel und Informationen),
114
4 Datenbereinigung zielgerichtet eingesetzt zur Datenqualitätssteigerung – die räumliche Situation verschiedener Organisationseinheiten, die an einem Prozess beteiligt sind, – die Schnittstellen zwischen verschiedenen Beteiligten an einem Prozess, – die Bearbeitungszeiten für die einzelnen Prozessschritte, sowie – die Wartezeiten zwischen einzelnen Prozessschritten, zu untersuchen und ggf. zu optimieren sind. Der Ansatz, die Geschäftsprozesse zu optimieren, um Datenfehler zu vermeiden, kann aufgrund u.U. erforderlicher organisatorischer Änderungen aufwändig sein, bietet aber gleichzeitig die Chance, als Nebeneffekt zur Reduzierung der Fehlerquote, Durchlaufzeiten und Prozesskosten zu reduzieren und die Produktivität zu erhöhen.
Datenbereinigungen Bei einer Datenbereinigung handelt es sich um eine initiale einmalige oder regelmäßige Aktion zur Wiederherstellung einer korrekten Datenbasis. Hierunter fallen beispielsweise – Korrekturen von Formatierungen (z.B. Umformatierung von Datumswerten, Telefonnummern, Handelsregisternummern, siehe auch Tabelle 2) Tabelle 2: Korrektur von Formatierungen am Beispiel von Datumswerten
Altes Datumsformat
Neues Datumsformat
19. Dez. 66
19.12.1966
19/12/1966
19.12.1966
19-12-1966
19.12.1966
1966-12-19
19.12.1966
– Standardisierung oder Normierung von Daten (z.B. Rechtsformen von Firmen, Telefonnummern, Handelsregisternummern, Titel und akademische Grade, siehe auch Tabelle 3) Tabelle 3: Standardisierung von Daten am Beispiel eines akademischen Grades
Ursprünglicher Grad
Standardisierter Grad
Dipl.Betr.Wirt
Diplom-Betriebswirt
Dipl.-Betriebsw.
Diplom-Betriebswirt
Dipl.Betriebswirt
Diplom-Betriebswirt
Dipl.-Betriebswirt
Diplom-Betriebswirt
...
...
115
B Methoden – Techniken – Tools – Regelwerke/Standards – Strukturierung von Daten (z.B. Auftrennung von Telefonnummern in Ländervorwahl, Ortsvorwahl, Rufnummer und ggf. Durchwahl oder separieren von Anrede, Titel, Vor- und Nachname einer Person, siehe auch Tabelle 4) Tabelle 4: Strukturierung von Daten am Beispiel von Telefonnummern
Alter Wert (unstrukturiert)
Neue Struktur Ländervorwahl Ortsvorwahl Rufnummer Durchwahl
(0711) 901198-0
0049
0711
901198
0
0711/901198-0
0049
0711
901198
0
0049-711-90 11 98-0
0049
0711
901198
0
+49(0)711 981190-0
0049
0711
901198
0
+49.711.981190.0
0049
0711
901198
0
...
...
...
...
...
– Erweiterung von Wertebereichstabellen (z.B. für akademische Titel, Berufsbezeichnungen oder Branchenschlüssel), die auch für Plausibilitätsprüfungen oder Dropdown-Listen bei der Erfassung der Daten verwendet werden können – Korrektur fehlerhafter Daten (z.B. Adressen) – Identifikation und Bereinigung von Dubletten (mehrfach vorhandene Datensätze). Grundlage für die Bereinigungen sind die bei der Datenqualitätsmessung verwendeten Datenqualitätsregeln und festgestellten Datenfehler. Über die Datenqualitätsregeln wurde definiert, welche Bedingungen die Daten erfüllen müssen, um als korrekt zu gelten. Die Herausforderung bei der Bereinigung besteht jedoch oftmals darin, bei den fehlerhaften Daten die für den Einzelfall gültigen und korrekten Werte zu ermitteln. Das ist dann verhältnismäßig einfach, wenn die Information aus einem anderen (verlässlichen) Datenfeld abgeleitet werden kann (z.B. die Anrede aus dem Geschlecht, sofern das Geschlecht korrekt angegeben ist, was seinerseits bei Bedarf noch über den Vornamen verifiziert werden kann). Ist eine solche Ableitung nicht möglich, können u.U. noch Referenzverzeichnisse herangezogen werden, mit deren Hilfe korrekte Werte ermittelt werden können (z.B. Telefonverzeichnis, Orts- und Straßenverzeichnisse, Firmenreferenzdatenbanken etc.). Falls auch keine geeigneten Referenzverzeichnisse zur Verfügung stehen, bleibt oftmals nur die Möglichkeit, Annahmen zu treffen und nach bestimmten Regeln
116
4 Datenbereinigung zielgerichtet eingesetzt zur Datenqualitätssteigerung plausible Werte zu ermitteln, auch mit dem Risiko, dass die Annahme und die Regel für den Einzelfall nicht zutrifft (z.B. bei einem unrealistisch hohen Wert für die Anzahl der Personen, die in einem Haushalt leben, kann ein definierter Maximalwert oder ein Wert, der “unbekannt” repräsentiert, vergeben werden). Das kann auch bedeuten, dass fehlerhafte und unbrauchbare Informationen (z.B. alphanummerische Werte in einem nummerischen Feld) gelöscht werden. Hierbei gilt es selbstverständlich, die Auswirkungen auf mögliche Folgeprozesse genau abzuschätzen. Lässt sich dieses nicht ausreichend verlässlich umsetzen, bleibt letztlich nur eine aufwändige Einzelfallrecherche übrig (z.B. bei der Ermittlung des Geburtsdatums einer Person, das nicht von anderen Daten abgeleitet oder über Referenzdaten ermittelt werden kann, da ein Einwohnermelderegister nicht ohne weiteres öffentlich zugänglich ist). Welche der aufgeführten Varianten angewandt wird, hängt vom jeweiligen Fehlerfall, der Bedeutung der Daten und dem für die Bereinigung erforderlichen Aufwand ab. Grundsätzlich ergibt sich daraus die Unterscheidung nach maschinellen, halbmaschinellen und manuellen Bereinigungen. Wie bereits im Kap. 4.3 Bewertungskriterien für Datenfehler und Korrekturmaßnahmen unter “Art der Bereinigungsmöglichkeit” ausgeführt, sollten maschinelle oder halb-maschinelle Bereinigungen insbesondere bei einer großen Anzahl von Fehlern präferiert werden. Voraussetzung dafür ist allerdings, dass die fehlerhaften Daten nach spezifizierbaren Regeln oder durch Abgleich gegen Referenzverzeichnisse korrigiert werden können. Beim Abgleich gegen Referenzverzeichnisse ist allerdings darauf zu achten, dass einerseits die Qualität (insbesondere in Bezug auf Vollständigkeit und Aktualität) der Referenzdaten dazu geeignet ist, eine Bereinigung vorzunehmen (andernfalls entstehen u.U. neue und zusätzliche Datenfehler), und andererseits immer dann, wenn kein eindeutiger Schlüssel für die Identifikation oder Zuordnung eines Referenzdateneintrags zu den zu bereinigenden Daten existiert (z.B. eine Sozialversicherungsnummer oder Umsatzsteuer-Identifikationsnummer), ein fehlertolerant arbeitender Abgleichalgorithmus verwendet wird, der auch Ähnlichkeiten erkennt. Ein solcher Ähnlichkeitsalgorithmus ermöglicht, auch bei (geringfügigen) Abweichungen in der Schreibweise zwischen eigenem Datenbestand und Referenzverzeichnis den gewünschten Eintrag zu erkennen und damit deutlich höhere Trefferquoten und maschinelle Bereinigungsraten zu erzielen. Wird kein solcher Algorithmus genutzt, führen selbst geringfügige Abweichungen in der Schreibweise (u.U. bereits Unterschiede in der Groß-/Kleinschreibung oder der Darstellung von Umlauten) dazu, dass kein passender Eintrag in den Referenzdaten gefunden wird, wodurch wiederum keine maschinelle Korrektur möglich ist. Für solche fehlertolerant arbeitenden Abgleiche empfiehlt es sich, professionelle Abgleichprogramme von Software-Anbietern einzusetzen, die z.T. für spezielle Einsatzzwecke noch zusätzliche Speziallogiken beinhalten und zudem individuell
117
B Methoden – Techniken – Tools – Regelwerke/Standards für die eigenen Einsatzzwecke und Anforderungen konfiguriert werden können (u.a. über welche Datenfelder ein Abgleich erfolgen soll und welche Fehlertoleranzgrade dabei verwendet werden sollen). Klassische maschinelle oder halb-maschinelle Bereinigungen auf Basis von offiziellen Referenzdaten sind – Postalische Adressvalidierung und –korrektur durch Abgleich gegen AdressReferenzdaten mit Postleitzahl-, Orts- und Straßenverzeichnissen – Dublettenidentifikation und –bereinigung (siehe Abbildung 2) oder – Abgleich gegen Referenzdatenbanken (z.B. Firmenreferenzdatenbank, Umzugsdaten, Telefonverzeichnis, Anti-Terror-/Sanktionslisten usw.).
Abbildung 2: Beispiel einer Dublettenliste
Diese Häufung im Bereich des Adress-/Stammdatenmanagements ergibt sich aufgrund der vielfältigen öffentlich verfügbaren Referenzdatenverzeichnisse in diesem Umfeld. Grundsätzlich gelten die Ausführungen aber auch für Daten aus anderen Anwendungsbereichen, für die geeignete Referenzdaten verfügbar sind (z.B. für Bankverbindungen). Die Referenzdaten müssen dabei nicht immer öffentlich zugänglich sein, sondern können durchaus auch unternehmensintern aufgebaut und gepflegt werden. Es müssen dabei jedoch dieselben Qualitätskriterien (Vollständigkeit, Aktualität) erfüllt werden wie bei öffentlich zugänglichen Daten, damit sie für maschinelle Bereinigungen verwendet werden können. Bei fehlertoleranten Abgleichen, insbesondere bei der Dublettenidentifikation, sollten vorab noch alle Möglichkeiten ausgeschöpft werden, die eine Standardisierung der Daten erlauben. Durch eine solche Standardisierung können die fehlertoleranten Algorithmen zielgerichteter, insbesondere auf solche Daten, die nicht vorab standardisiert werden konnten, angewandt werden, wodurch sich mehr und qualitativ bessere (sicherere = verlässlichere) Treffer ergeben. Ohne Standardisierung muss
118
4 Datenbereinigung zielgerichtet eingesetzt zur Datenqualitätssteigerung mit mehr Fehlertoleranz gearbeitet werden, was wiederum das Risiko erhöht, unerwünschte ähnliche Treffer zu erzielen. Je höher der Übereinstimmungsgrad zwischen den Daten ist, umso eher lassen sich die Ergebnisse maschinell weiterverarbeiten. Bei größeren Abweichungen vermindert sich die Verlässlichkeit eines Treffers, was bei Unterschreiten eines definierten Ähnlichkeitsgrads, dann dazu führt, dass ein solcher Treffer allenfalls noch manuell verarbeitet werden kann, um eine potentiell fehlerhafte Korrektur zu vermeiden. Beispiel: Vor einer Dublettenidentifikation empfiehlt es sich, durch einen Abgleich gegen Adressreferenzdaten (PLZ-, Orts- und Straßenverzeichnisse) eine Adressvalidierung und –standardisierung vorzunehmen, bei der z.B. die zuvor vorhandenen unterschiedlichen Schreibweisen einer “Johann-Sebastian-Bach-Str.” auf eine einheitliche Schreibweise korrigiert werden. Dadurch kann beim nachfolgenden Dublettencheck die Fehlertoleranz weitgehend auf die Namensinformationen reduziert werden. Und Datensätze, die sich zuvor nur durch unterschiedliche Schreibweisen in den Adressdaten unterschieden haben, können dadurch u.U. sogar als 100 %-ig identisch erkannt und gruppiert und möglicherweise maschinell zusammengeführt werden. Aber auch bei Ausnützung aller zur Verfügung stehende Mittel (insbesondere von Referenzverzeichnissen) lassen sich nicht alle Fehler maschinell korrigieren. Es kommt immer wieder vor, dass beim Abgleich gegen Referenzdaten kein oder bei Verwendung von fehlertoleranten Abgleichalgorithmen kein ausreichend passender Treffer gefunden wird. Solche Fälle lassen sich dann allenfalls noch manuell verifizieren und ggf. korrigieren. Aus diesem Grund sind auch bei maschinellen Bereinigungen immer ausreichend Ressourcen für manuelle Nacharbeiten einzuplanen. Bei der Konzeption und Durchführung der Bereinigungsmaßnahmen sollte außerdem berücksichtigt werden, dass diese künftig evtl. nochmals wiederholt werden müssen, vor allem wenn keine Maßnahmen ergriffen werden, die die Entstehung von neuen Datenfehlern vermeiden (siehe auch nachfolgenden Abschnitt “Einbinden von qualitätssichernden Werkzeugen”).
Einbinden von qualitätssichernden Werkzeugen Einmalige oder regelmäßige Bereinigungen dienen immer nur zu einer nachträglichen Korrektur bereits entstandener Datenfehler. Werden ausschließlich diese Maßnahmen ergriffen, muss man deshalb für einen gewissen Zeitraum (bis zur nächsten Bereinigung) mit den seit der letzten Bereinigungsaktion neu entstandenen Fehlern leben. Insbesondere bei sehr kritischen und hochdynamischen Daten ist das möglicherweise ein Zustand, der nicht akzeptabel ist. Für solche Fälle sind Maßnahmen zur Datenqualitätssicherung für den laufenden Betrieb zu realisieren, durch die permanent und präventiv die Entstehung neuer Datenfehler vermieden werden.
119
B Methoden – Techniken – Tools – Regelwerke/Standards Grundsätzlich eignen sich dafür all die Funktionalitäten, die auch zur initialen Bereinigung realisiert werden oder im Abschnitt „Systemoptimierungen“ unter dem Begriff „Gebrauchstauglichkeit“ beschrieben sind. Im Gegensatz zu den Bereinigungsmaßnahmen werden die Funktionalitäten hier nun allerdings zur „Echtzeit-“ und Einzelsatz-Prüfung in alle Anwendungen integriert, über die Daten neu erfasst oder geändert werden. Dies kann einerseits in Form eines individuellen Plausibilitäten-Moduls erfolgen, durch das die Prüfungen analog der Datenqualitätsregeln aus der Datenqualitätsmessung realisiert werden, wodurch beispielsweise – Formatprüfungen (z.B. bei Telefonnummern) – Prüfungen gegen Referenzverzeichnisse oder Wertebereichstabellen und – Prüfungen von Datenfeldkombinationen und –abhängigkeiten ermöglicht werden. Andererseits lassen sich auch hierfür wieder professionelle Lösungen von Software-Anbietern nutzen, die verschiedene Spezialfunktionalitäten (z.B. für die Validierung von Adressen) und Lösungen für fehlertolerante Abgleichalgorithmen bieten. Die fehlertolerant arbeitenden Funktionen bieten dabei gleich in mehrerlei Hinsicht interessante und hilfreiche Ansätze. Einerseits können damit beispielsweise Prüfungen realisiert werden, mit denen Dubletten vermieden werden können. Andererseits erlauben solche Routinen auch effektive Suchverfahren für die Anwender. Dadurch lassen sich bestehende Datensätze schneller finden, was dann auch dazu genutzt werden kann, die Daten nicht erst vollständig eingeben zu müssen, um hinterher festzustellen, dass ein entsprechender Satz bereits existiert und die Neueingaben wieder verworfen werden. Außerdem können damit auch effektive Suchverfahren in umfangreichen Wertebereichstabellen (z.B. Berufsbezeichnungen) realisiert werden, damit der gewünschte Eintrag nicht erst langwierig in den zugehörigen Dropdown-Listen gesucht und ausgewählt werden muss, sondern über eine Freitexteingabe direkt gefunden werden kann. Mit Hilfe solcher Prüfroutinen erhält ein Anwender bei der Eingabe von fehlerhaften Daten unmittelbar Rückmeldung in Form von qualifizierten Fehlermeldungen und kann direkt darauf reagieren und den Fehler korrigieren, bevor dieser in der Datenbank gespeichert wird. Teilweise besteht dabei auch die Möglichkeit, automatisch Datenfehler korrigieren oder Datensätze vervollständigen zu lassen. Dies kann beispielsweise dann erfolgen, wenn durch Abgleiche gegen Referenzdaten die korrekten Werte eindeutig und ausreichend sicher erkannt werden können (z.B. bei einer Adressprüfung, wodurch die Schreibweise eines Straßennamens korrigiert und die Postleitzahl ermittelt werden kann).
120
4 Datenbereinigung zielgerichtet eingesetzt zur Datenqualitätssteigerung Wichtig ist es, solche „Live-Prüfungen“ vor allem auch dort einzusetzen, wo andere Maßnahmen nicht oder nur eingeschränkt umgesetzt werden können. Dies ist z.B. bei Internet-/E-Business-Anwendungen der Fall, wo keine echte Möglichkeit besteht, die Anwender so zu schulen, dass Datenfehler auf diese Weise weitgehend verhindert werden.
Etablieren eines Monitoringprozesses Bei einem proaktiven Datenqualitätsmanagement sind neben der Bereinigung von Datenfehlern und der Vermeidung neuer Datenfehler durch präventive Maßnahmen auch regelmäßige, fortlaufende Maßnahmen zur Überwachung und nachhaltigen Aufrechterhaltung der Qualität des Datenbestands unabdingbar. Dieser Monitoringprozess gliedert sich in zwei Teilbereiche: – regelmäßige (automatisierte) Messungen mit den definierten Datenqualitätsregeln und – regelmäßige Validierung und Bereinigung der bestehenden Datenbasis. Die regelmäßigen Messungen, bei denen die für die erste Datenqualitätsmessung definierten Datenqualitätsregeln wiederholt auf die (geänderten) Daten angewandt werden, dienen dazu, eine Kontrolle und historische Darstellung der Datenqualitätsentwicklung zu erhalten (Beispiel einer möglichen Darstellung siehe Abbildung 3). Dadurch lassen sich frühzeitig neuen Mängel erkennen, so dass kurzfristig darauf reagiert werden kann (idealerweise bevor die Fehler gravierende Auswirkungen hatten), oder bei wiederholt auftretenden Fehlern mögliche Schulungsmaßnahmen ableiten.
Abbildung 3: Darstellung einer Datenqualitätsentwicklung
Die regelmäßige Validierung und Bereinigung der bestehenden Datenbasis bezieht sich speziell auf Abgleiche gegen Referenzverzeichnisse. Bei jeder Aktualisierung eines verwendeten Referenzverzeichnisses müssen die Änderungen darin auch in
121
B Methoden – Techniken – Tools – Regelwerke/Standards der eigenen Datenbasis nachgezogen werden. Je nach Bereitstellungsform der Referenzverzeichnisse erfolgt dies durch einen vollständigen Gesamtabgleich oder durch die Verarbeitung von Differenzen-/Deltabeständen. Beispiele für solche Referenzdatenaktualisierungen sind – postalische Adressvalidierungen – Adressaktualisierungen auf Basis von Umzugsdaten oder – regelmäßige Dublettenprüfungen.
Schulung von Mitarbeitern Es soll an dieser Stelle nicht verschwiegen werden, dass Datenqualitätsmaßnahmen nicht immer aufwändig sein und durch den Einsatz von Software umgesetzt werden müssen. Eine durchaus effektive und kurzfristig umsetzbare Variante können Schulungen von Mitarbeitern sein. Darin werden die Mitarbeiter zum einen für das Thema “Datenqualität” sensibilisiert und zum anderen werden die wichtigsten Datenqualitätsregeln erläutert, damit diese bei der täglichen Arbeit berücksichtigt werden können. Idealerweise werden solche Schulungen noch durch Arbeitsanweisungen flankiert, die bei Bedarf auch als Nachschlagewerk dienen können. Eine solche Maßnahme ist natürlich nur dann geeignet, wenn möglichst alle Anwender dadurch erreicht werden und eine gewisse Fehlerquote, die auch durch Schulungen nicht verhindert werden kann, in Kauf genommen wird. Wie bereits im Abschnitt “Einbinden von qualitätssichernden Werkzeugen” erwähnt, ist diese Variante bei Internet-/E-Business-Anwendungen sicherlich nicht umsetzbar.
4.6 Zusammenfassung Leider gibt es nicht für jede Fehlerkonstellation, für jedes Unternehmen, für jedes Umfeld das eine Patentrezept, wie mit Datenfehlern am besten umzugehen ist. Hierfür sind konzeptionelle Überlegungen anzustellen, die zunächst einmal Aufwand bedeuten. Dieser Aufwand macht sich allerdings im Lauf eines Datenqualitätsprojekts bezahlt, da dadurch die für den Einzelfall effektivste Methode und Bereinigungsmaßnahme identifiziert werden kann und damit ineffektive und wiederholt aufwändige Tätigkeiten vermieden werden können. Wichtig ist dabei außerdem, sich bewusst für eine Vorgehensweise zu entscheiden, auch wenn das im Ausnahmefall u.U. einmal bedeuten mag, dass bestimmte Datenfehler nicht bereinigt werden. Mit Hilfe der in diesem Kapitel beschriebenen Bewertungskriterien lassen sich für solche Fälle dann aber wenigstens die Konsequenzen bewerten und künftig entsprechend berücksichtigen.
122
5 Datenintegration und Deduplizierung Jens Bleiholder, Joachim Schmid In Unternehmen liegen viele Daten heutzutage immer seltener vollständig an einem einzigen physikalischen Ort vor, sondern sind weltweit verteilt. Dies liegt zum einen an der immer besser gewordenen Infrastruktur, die eine solche Verteilung auf einfache Art und Weise ermöglicht, und zum anderen an der Tatsache, dass viele Unternehmen weltweit tätig sind. So fallen Daten weltweit an, werden aber jeweils lokal - vor Ort - gespeichert. Daher müssen oft mehrere Datenquellen genutzt werden, um einen aktuellen, vollständigen und genauen Überblick über die vorhandenen Daten zu gewinnen. Datenintegration hilft, indem sie Daten aus mehreren Quellen zusammenführt und einheitlich darstellt. Diese integrierten Daten können genutzt werden, um sich einen Überblick über das Unternehmen zu verschaffen, z.B. wenn Unternehmen fusionieren und nur noch eine Kundendatenbank bestehen bleiben soll, oder wenn zu einem Kunden die Daten aus den verschiedenen Fachabteilungen zusammengeführt werden sollen. Anhand eines solchen Beispiels, der Integration von Kundendaten zu Kfz- und Lebensversicherungen erläutern wir im Folgenden einzelne Techniken. Bei der Integration von Daten werden Probleme dadurch verursacht, dass die Quellen (a) verteilt, (b) autonom und (c) heterogen sind. Während die physische Verteilung der Daten, d.h. die Aufteilung auf mehrere Rechner an mehreren Standorten, aufgrund der heutzutage immer besseren Vernetzung das geringere Problem darstellt, verursachen Autonomie und Heterogenität größere Probleme bei der Integration von Daten. Die Autonomie der Quellen (alle Quellen werden unabhängig voneinander erstellt und gepflegt, z.B. von verschiedenen Personen oder verschiedenen Organisationen, auch innerhalb eines Unternehmens) bedingt dabei die Heterogenität der Quellen. Die Literatur (z.B. [Leser & Naumann 2006]) unterscheidet zwischen verschiedenen Ausprägungen von Heterogenität, die jeweils unterschiedlich problematisch sind. Technische Heterogenität (Datenquellen werden auf unterschiedlicher Hardware, mit unterschiedlicher Software betrieben) stellt heutzutage nur noch ein geringes Problem dar. Schwieriger stellt sich die Situation bei struktureller Heterogenität (gleiche Sachverhalte der Welt werden unterschiedlich modelliert), oder semantischer Heterogenität (modellierte Sachverhalte überlappen teilweise) dar. Techniken des Schema Matchings, im Folgenden vorgestellt, helfen hier. Bei der Integration müssen jedoch nicht nur die Heterogenitäten auf Schemaebene überwunden werden, sondern auch Heterogenitäten auf Datenebene (die gespeicherten Daten überlappen). Kundendaten sind, wie in unserem Beispiel, mehrfach vorhanden
123
B Methoden – Techniken – Tools – Regelwerke/Standards und unterscheiden sich möglicherweise. Bei der Überwindung der Datenheterogenität helfen Techniken der Dublettenerkennung sowie der Datenfusion. Bei der technischen Durchführung wird zwischen virtueller und materialisierter Integration unterschieden. Bei virtueller Integration verbleiben die Ursprungsdaten am ursprünglichen Ort, in den Datenquellen. Es wird lediglich eine einheitliche, integrierte Sicht auf die Daten ermöglicht. Bei materialisierter Integration hingegen werden die Daten aus den Quellen an einen zentralen Ort „kopiert“. Dem Vorteil der Materialisierung (Vollzugriff auf den gesamten Datenbestand bei niedrigen Anfrageantwortzeiten) steht der Nachteil entgegen, dass die Daten nicht so aktuell sind wie bei virtueller Integration, die Anfragen immer mit den aktuellen Daten der Quellen beantwortet. Nachteile bei virtueller Integration hingegen sind höhere Antwortzeiten und eine kompliziertere Anfrageplanung. Im Folgenden werden wir kurz einen Integrationsprozess vorstellen, bevor wir dann im Anschluss in den folgenden Abschnitten die Probleme der einzelnen Schritte des Integrationsprozesses beschreiben und Lösungsmöglichkeiten aufzeigen.
Datenintegration – ein Prozess
Anwendung Für den weiteren Verlauf des Kapitels nehmen wir einen dreistufigen Datenintegrationsprozess an, wie er Visualisierung/Export schematisch in Abbildung 1 zu sehen ist. Daten werden aus unterschiedlichen Datenquellen ausgelesen und Datenfusion Schritt 3: bei Bedarf vorverarbeitet. In einem ersten Schritt („Schema Matching“, siehe Abbildung 1) werden die unDublettenerkennung Schritt 2: terschiedlichen Repräsentationen der Daten in den Quellen angeglichen. Insbesondere wird durch Verfahren Schema Matching Schritt 1: des Schema Matchings eine Abbildung erstellt, die jeweils semantisch äquivalenten Attributen einer Quelle Vorverarbeitung die entsprechenden Attribute der anderen Quelle(n) zuordnet. Das Ergebnis dieses Schrittes ist eine verDatenquellen einheitlichte Darstellung der in den Quellen gespeicherten Objekte. In Schritt 2 („Dublettenerkennung“) Abbildung 1: Datenintegration als Prozess werden unterschiedliche Repräsentationen ein und desselben Objektes, sog. Dubletten, erkannt. Diese werden in einem dritten Schritt („Datenfusion“) zu einer einzigen Repräsentation zusammengefügt, wobei mögliche Datenkonflikte
124
5 Datenintegration und Deduplizierung aufgelöst und die Repräsentation bereinigt wird. Die nächsten drei Abschnitte beschäftigen sich jeweils mit einem dieser Schritte. Mögliche Erweiterungen des Prozesses, insbesondere der Schritt der Vorverarbeitung, werden abschließend in Abschnitt 5.4 dargestellt. Zur Veranschaulichung dient das folgende Beispiel aus der Versicherungsbranche. In unserem beispielhaften Versicherungsunternehmen existieren zwei Sparten: Kfz-Versicherungen und Lebensversicherungen. Beide speichern Kundendaten, wie in Tabelle 1 und Tabelle 2 zu sehen. Wie leicht zu erkennen ist, überlappen sich die Quellen nur teilweise, sowohl in den Informationen über die Kunden (Name und Anschrift wird von beiden gespeichert, Geburtsdatum und Kfz-Informationen nur von jeweils einer Quelle), als auch in den Personen, die erfasst sind (Jan und Janine Marten sind in beiden Quellen vorhanden, während Helga Martens nur in der ersten Quelle zu finden ist). Die Integration beider Quellen soll einen einheitlichen Überblick über alle Kunden der Versicherung bieten, z.B. wie in Tabelle 5 am Ende des Kapitels zu sehen. Ziel der Datenintegration ist es sowohl Schema- als auch Datenheterogenität zu überwinden. Tabelle 1: Datenquelle 1 (Lebensversicherung) Vorname
Name
Adresse
Ort
Geb.-Datum
Summe
Jan
Marten
Göthestr. 12
Berlin
1.12.1952
50.000
Janine
Marten
Gothenstr. 12
Berlin
21.5.1977
100.000
Helga
Martens
Göthestr. 12
Berlin
1.1.1954
100.000
Martin
Jahn
Buschweg 23
Hamburg
5.1.1966
75.000
Peter
Maier
Mozartweg 2
Hamburg
16.9.1982
100.000
Jens
Müller
Händelstr. 1
Köln
24.3.1970
50.000
Tabelle 2: Datenquelle 2 (Kfz-Versicherung) Name
Straße
Wohnort
Führerschein
Kfz-Typ
Janine Marten
Schillerplatz 3
Berlin
3 / 4.6.1996
VW Polo
Jan Marten
Goethestr. 12
Berlin
3 / 2 / 1.12.1970
Audi A2
Martin Jahn
Buschweg 23a
AHmburg
3 / 1.1.1987
Ford Focus
Peter Maier
Mozartweg 2
Köln
3 / 16.9.1982
Twingo
Maja Peters
Bachstr. 65
Köln
A / 23.8.2004
Citroen 2CV
Jens Müller
Händelstr. 1
Köln
3 / 25.3.1988
VW Golf 3
125
B Methoden – Techniken – Tools – Regelwerke/Standards
5.1 Schritt 1: Schema Matching Ziel des ersten Schrittes ist die Überwindung der Schemaheterogenität, d.h. die Angleichung der unterschiedlichen Darstellungen der Objekte in den verschiedenen Datenquellen. Dazu wird ein Mapping erstellt, eine Abbildung, die jedem Attribut der einen Quelle, das entsprechende, semantisch äquivalente Attribut der anderen zuordnet. Ein solches Mapping ist in Abbildung 2 dargestellt. Dort verbinden Linien die jeweils einander zugeordneten Attribute.
Anwendung
Visualisierung/Export
Datenfusion
Dublettenerkennung
Schema Matching
Solche einfachen Schemata wie in unserem Beispiel sind Vorverarbeitung leider nur selten in der Praxis anzutreffen. Die Erstellung eines Mappings wird erschwert durch kryptische oder Datenquellen zu kurze Attributnamen, große Schemata mit mehreren hundert oder tausend Tabellen und Attributen oder durch das Auftreten von Synonymen (verschiedene Worte für dasselbe Konzept) und Homonymen (gleiche Worte für verschiedene Konzepte). Von anderen erstellte und daher unbekannte Schemata, oder Schemata in Fremdsprachen sind weitere Probleme, die in der Praxis auftreten. Maschinelle Unterstützung bei der Erstellung eines Mappings wäre hilfreich, obgleich eine vollständige Automatisierung wohl nicht möglich ist. Die (semi-)automatische Erstellung solch eines Mappings bezeichnet man als Schema Matching. Das Problem des Schema Matchings stellt sich demnach wie folgt dar: Problem (Schema Matching): Gegeben zwei Tabellen, finde eine Abbildung von einer Tabelle auf die andere, welche die jeweils semantisch äquivalenten Attribute der beiden Tabellen aufeinander abbildet.
Mögliche Erweiterungen des Problems sind das Finden von (einer oder mehreren) Abbildungen zwischen mehr als zwei Tabellen, das Finden von 1:m und n:m Beziehungen, oder der Umgang mit Verschachtelungen, wie sie z.B. in XML Dokumenten zu finden sind. In Abbildung 2 ist bereits eine 2:1 Beziehung zwischen Vorname
Name
Name
Straße
Adresse
Ort
Wohnort
Abbildung 2: Mapping zwischen den beiden Quellen
126
Geb.-Datum
Führerschein
Summe
Kfz-Typ
5 Datenintegration und Deduplizierung „Vorname/Name“ in Quelle 1 und „Name“ in Quelle 2 zu sehen. Während aktuelle Schema Matching-Techniken 1:1 Beziehungen mittlerweile mit relativ großer Zuverlässigkeit finden, bestehen bei 1:n oder n:m Beziehungen noch Verbesserungsmöglichkeiten. Einen guten Überblick über vorhandene Verfahren bieten [Rahm & Bernstein 2001]. Schema Matching Verfahren zur Bestimmung von 1:1 Mappings lassen sich grob in zwei Klassen einteilen: Schemabasierte Verfahren nutzen lediglich die Informationen der Schemaelemente um ein Mapping zu erstellen, während instanzbasierte Verfahren vorhandene Daten mit einbeziehen. Das allgemeine Vorgehen ist jedoch in beiden Fällen identisch: Zwischen je zwei Attributen aus unterschiedlichen Quellen wird deren Ähnlichkeit mit Hilfe eines Ähnlichkeitsmaßes bestimmt. Die jeweils ähnlichsten Attributkombinationen werden dann zu einem Mapping kombiniert und als Vorschlag einem Experten zur endgültigen Entscheidung vorgelegt. Dabei ist zu beachten, dass das so entstandene Mapping nicht unbedingt korrekt ist, da u.U. mehrere Attribute einer Tabelle auf dasselbe Attribut der anderen Tabelle abgebildet werden. Auch die Optimalität eines solchen Mappings ist nicht gegeben. Zur Wahl eines globalen, möglichst guten Mappings bei bekannten Attributkombinationen und deren Ähnlichkeiten gibt es mehrere Ansätze, u.a. das Maximum Weighted Matching-Verfahren und das Stable-Marriage-Verfahren (siehe dazu auch [Melnik et. al. 2002]). Schemabasierte Verfahren verwenden Ähnlichkeitsmaße ausschließlich auf den Schemaelementen (Attributnamen), um äquivalente Attribute zu finden. Ein mögliches Ähnlichkeitsmaß ist die Levenshtein-Distanz ([Levenshtein 1965], auch als Edit-Distanz bezeichnet, siehe genauer Abschnitt 5.2.3.1). Bei der Verwendung der Levenshtein-Distanz als Ähnlichkeitsmaß werden die Attributnamen paarweise miteinander verglichen. Daher würden z.B. die „Name“-Spalten der beiden Tabellen aufeinander abgebildet, aber auch „Vorname“ und „Name“ könnten aufeinander abgebildet werden, da sie eine hohe Ähnlichkeit nach der Levenshtein-Distanz aufweisen. Des Weiteren sind z.B. auch „Ort“ aus Tabelle 1 und „Wohnort“ aus Tabelle 2 ähnlicher als alle weiteren Kombinationen von „Ort“ mit Attributen der zweiten Tabelle. Zur Verfeinerung des Ähnlichkeitsmaßes können auch Synonym/Homonym-Listen verwendet werden, oder der Tabellenname mit berücksichtigt werden. Mit diesen Erweiterungen kann man sich vorstellen, dass auch „Ort“ und „Wohnort“ aufeinander abgebildet werden. Der CUPID-Matcher [Madhavan et. al. 2001] ist ein Beispiel für einen solchen schemabasierten Matcher. Instanzbasierte Verfahren setzen das Vorhandensein von Daten voraus und nutzen diese Daten um ein Mapping zu erstellen. Hierbei sind grundsätzlich zwei unterschiedliche Vorgehensweisen denkbar: Vertikale Matcher betrachten die Daten eines Attributs; Attributen mit ähnlichen Daten wird ein höherer Ähnlichkeitswert zugewiesen als Attributen mit unterschiedlichen Daten. Da sowohl die Spalte „Adresse“ als auch die Spalte „Straße“ gleiche bzw. ähnliche Werte aufweisen, ist eine korrekte Identifizierung dieses Mappings möglich. Anhand einer an-
127
B Methoden – Techniken – Tools – Regelwerke/Standards deren Attributkombination („Geb.-Datum“ und „Führerschein“) kann man gleichzeitig auch die Schwierigkeiten bei solch einem Verfahren verdeutlichen. Da im Attribut „Führerschein“ auch das Ausstellungsdatum des Führerscheins enthalten ist, wird ein Ähnlichkeitsvergleich mit dem Attribut „Geb.-Datum“ eine recht hohe Ähnlichkeit ergeben, obwohl beide Attribute semantisch verschieden sind. Ein weiteres Beispiel für diese Homonym-Problematik auf Datenebene wären Attribute, die Fax-, bzw. Telefonnummern enthalten. Ein vertikaler instanzbasierter Matcher könnte diese nicht voneinander unterscheiden. Bei diesem Problem setzen horizontale instanzbasierte Matcher wie z.B. DUMAS [Bilke & Naumann 2005] an. Der Vergleich von Attributen basiert auf Ähnlichkeiten von Zeilen der beteiligten Tabellen, also auf Dubletten. Die grundlegende Idee ist es, das Wissen um Dubletten aus verschiedenen Tabellen auszunutzen, um Attribute genau dann aufeinander abzubilden, wenn die Werte in den Dubletten übereinstimmen. So können in unserem Beispiel mit Hilfe der Dubletten zu den Personen „Jan Marten“ und „Jens Müller“, Name und Anschrift korrekt aufeinander abgebildet werden. Korrekterweise würden auch die Attribute „Geb.-Datum“ und „Führerschein“ nicht miteinander in Beziehung gebracht werden, da die Werte der Attribute in den Dubletten unterschiedlich sind. Zur Bestimmung eines Mappings müssen dabei aber nicht alle vorhandenen Dubletten bekannt sein, es reichen schon einige wenige gefundene Dubletten aus, um ein einigermaßen brauchbares Mapping zu erstellen. Ein noch besseres Ergebnis erzielen Matcher, die mehrere der bekannten Techniken kombinieren, oder die Kombination der Ergebnisse von mehreren existierenden Matchern. In diesem ersten Schritt der Datenintegration wird somit entschieden, wie die Objekte repräsentiert werden und auf welcher Abstraktionsebene Objekte betrachtet werden. Es wird auch entschieden, welche Attribute einen Kunden charakterisieren und welche nicht. Mit Hilfe des Mappings können die Daten der Quelltabellen in eine einzige Tabelle transformiert werden, die dann im nächsten Schritt zur Dublettenerkennung genutzt wird.
128
5 Datenintegration und Deduplizierung
5.2 Schritt 2: Dublettenerkennung Durch das vorausgegangene Schema Matching wurde eine einheitliche Darstellung der Objekte erreicht. Anschaulich gesprochen sind wir nun in der Lage, die Datensätze aller Quellen in einer Tabelle zusammenzuführen (Outer Union, siehe Tabelle 3). Nun wird es i.d.R. aber so sein, dass in den zusammenzuführenden Datenbeständen dieselben Objekte mehrfach enthalten sind. In unserem Beispiel kann eine Person sowohl eine Lebensversicherung als auch eine Kfz-Versicherung abgeschlossen haben. Dies hat zur Folge, dass ein Realweltobjekt (im Beispiel: eine Person) durch mehrere Datensätze repräsentiert wird, z.B. Jan Marten durch die Datensätze mit den IDs 1 und 8. Datensätze, die dasselbe Realweltobjekt beschreiben, heißen Dubletten. Die Menge aller Datensätze, die dasselbe Realweltobjekt beschreiben wird als Dublettengruppe bezeichnet.
Anwendung
Visualisierung/Export
Datenfusion
Dublettenerkennung
Schema Matching
Vorverarbeitung
Datenquellen
Dubletten entstehen nicht nur durch Zusammenführen von Datenbeständen, sondern sind auch innerhalb eines Datenbestandes zu finden, wenn bei Neuanlage und Änderung von Datensätzen nicht die erforderlichen Gegenmaßnahmen getroffen wurden. Das Problem der Dublettenerkennung stellt sich demnach wie folgt dar: Problem (Dublettenerkennung): Gegeben eine Tabelle mit unterschiedlichen Repräsentationen von Realweltobjekten, erzeuge eine Spalte mit ID-Werten so, dass gleichen Realweltobjekten gleiche ID-Werte zugewiesen werden.
5.2.1 Auswirkungen von Dubletten Die Tatsache, dass einige Objekte durch mehrere Datensätze repräsentiert werden, macht es bereits unmöglich, die Anzahl der Objekte durch einfaches Zählen der Datensätze zu bestimmen. Sie liegt irgendwo unterhalb der Anzahl der Datensätze, der genaue Wert ist unbekannt. Werden an einem Datensatz, zu dem es Dubletten gibt, Änderungen vorgenommen, führt dies zu Inkonsistenzen, da in den Dubletten noch die alten Werte gespeichert sind. Ähnlich verheerend ist der Effekt beim Löschen eines Datensatzes einer Dublettengruppe. In diesem Fall wird durch das Löschen des Datensatzes das repräsentierte Objekt nicht vollständig aus dem Bestand entfernt, da die Dubletten weiterhin im Datenbestand vorhanden sind.
129
B Methoden – Techniken – Tools – Regelwerke/Standards Tabelle 3: Beide Beispieldatenquellen, in einer Tabelle zusammengefasst (Outer Union) ID
Quelle
Name
Straße
Wohnort
Geb.Datum
Summe
1
LV
Jan Marten
Göthestr. 12
Berlin
1.12.1952
50.000
A
A
2
LV
Janine Marten
Gothenstr. 12
Berlin
21.5.1977
100.000
A
A
3
LV
Helga Martens
Göthestr. 12
Berlin
1.1.1954
100.000
A
A
4
LV
Martin Jahn
Buschweg 23
Hamburg
5.1.1966
75.000
A
A
5
LV
Peter Maier
Mozartweg 2
Hamburg
16.9.1982
100.000
A
A
6
LV
Jens Müller
Händelstr. 1
Köln
24.3.1970
50.000
A
A
7
KFZ
Janine Marten
Schillerplatz 3
Berlin
A
A
3/ 4.6.1996
VW Polo
8
KFZ
Jan Marten
Goethestr. 12
Berlin
A
A
3/2/ 1.12.1970
Audi A2
9
KFZ
Martin Jahn
Buschweg 23a
AHmburg
A
A
3/ 1.1.1987
Ford Focus
10
KFZ
Peter Maier
Mozartweg 2
Köln
A
A
3/ 16.9.1982
Twingo
11
KFZ
Maja Peters
Bachstr. 65
Köln
A
A
A/ 23.8.2004
Citroen 2CV
12
KFZ
Jens Müller
Händelstr. 1
Köln
A
A
3/ 25.3.1988
VW Golf 3
Führerschein
Kfz-Typ
Diese IT-technischen Auswirkungen der Existenz von Dubletten können auf Unternehmensebene eine ganze Reihe unangenehmer Konsequenzen haben: Werden in der Lagerverwaltung Teile mehrfach geführt, so wird bei Unterschreitung des Mindestbestands in einer der Dubletten eine Bestellung ausgelöst. Die mehrfache Bevorratung des Mindestbestands kann z.B. im Anlagenbau zu erheblichen Mehrkosten führen. – Verteilen sich die Bestellmengen zugekaufter Teile auf mehrere Dubletten, so können bei Bestellungen Mengenrabatte nicht genutzt werden. –
130
5 Datenintegration und Deduplizierung – Das mehrfache Anschreiben von Interessenten kann außer zu erhöhten Produktions- und Versandkosten auch zu mehrfacher Gewährung von Rabatten oder gar zur Verärgerung des Kunden wegen uneinheitlicher oder gar unpassender Kundenansprache führen. – Fehleinschätzung von Kunden, deren Umsätze sich auf mehrere Datensätze verteilen.
Neben höheren Kosten ist – in der Außenwirkung – mit Dubletten meist auch ein Verlust an Reputation verbunden, der sich in einer Minderung von Umsatzchancen niederschlagen kann. Um beides zu vermeiden, müssen Dubletten entdeckt und entfernt werden.
5.2.2 Entstehung von Dubletten Eine bedeutende Eigenschaft von Dubletten ist, dass sie zwar dasselbe Objekt repräsentieren, die einzelnen Dubletten sich aber in einigen Datenfeldern durch unterschiedliche Werte voneinander unterscheiden. Vor allem in den Werten, durch die das Objekt eindeutig beschrieben wird, unterscheiden sich die einzelnen Datensätze voneinander. Dies sind meist die Namensfelder, also Datenfelder, die in Textform die Bezeichner der Objekte enthalten. Dubletten, die in den Namensfeldern identische Werte haben, sind leicht zu erkennen und werden in vielen Fällen durch Standardtechniken verhindert. Etwa durch ein UNIQUE-Constraint auf einer Datenbanktabelle. Sobald aber keine Identität in den Namensfeldern vorliegt, greifen diese Techniken nicht mehr. So kommt es, dass durch Tippfehler oder Hörfehler, z.B. bei der Eingabe im Callcenter, Kunden mehrfach angelegt werden, durch Hinzufügen, Weglassen oder Abkürzen zusätzlicher Bestandteile Adressen unterschiedlich erfasst werden („Frankfurt am Main“, „Frankfurt“, „Frankfurt a. M.“), oder durch Vertauschen der Reihenfolge Bauteile mehrmals angelegt werden („Hartmetall-Anbohrer“, „Anbohrer, Hartmetall“). Neben mangelnder Sorgfalt der Mitarbeiter spielt bei personenbezogenen Daten auch die bewusste Variierung der Angaben durch Kunden oder Interessenten eine zunehmende Rolle, sei es wegen eines Betrugsversuchs oder zum Schutz der Privatsphäre bei Webformularen mit zu vielen Pflichtfeldern. Auch Fehler in Unternehmensprozessen können die Ursache für Dubletten sein: Wenn beispielsweise beim Fahrzeugwechsel die Daten über die Versicherung des Altfahrzeugs nicht korrekt gelöscht werden. Oder wenn ein Interessent nach Vertragsabschluss sowohl als Neukunde, als auch weiterhin als Interessent geführt wird.
5.2.3 Erkennen von Dubletten Da Dubletten sich in den Werten, die das Objekt eindeutig beschreiben nur ähnlich sind, kommt es bei der Entdeckung von Dubletten darauf an, ähnliche Werte zu
131
B Methoden – Techniken – Tools – Regelwerke/Standards erkennen. Dazu werden Ähnlichkeitsmaße benötigt, die für je zwei Inhalte eines Datenfeldes einen Wert für ihre Ähnlichkeit errechnen.
5.2.3.1 Ähnlichkeitsmaße In den meisten Fällen werden Objekte durch Namensfelder – also Strings – eindeutig benannt. Zur Ermittlung der Ähnlichkeit von Strings gibt es eine ganze Reihe von Algorithmen, teilweise spezialisiert für einzelne Anwendungsbereiche. Algorithmen zur Bestimmung von phonetischer Ähnlichkeit werden schon seit fast 90 Jahren eingesetzt wie beispielsweise Soundex oder Metaphone. Sie eignen sich zum Erkennen von Strings mit ähnlicher Aussprache (z.B. Maier, Meyer, Mayr), haben aber u.a. den Nachteil, dass sie sprachspezifisch sind. Der wohl bekannteste Algorithmus zur Entdeckung von vertauschten oder hinzugefügten Buchstaben ist die Edit-Distanz von Levenshtein [Levenshtein 1965]. Dieser Algorithmus ermittelt die minimale Anzahl des Hinzufügens, Löschens oder Vertauschens von Buchstaben, um einen String in einen anderen zu überführen. Edit-Distanz (Jan, Janine) = 3 (3 Buchstaben hinzufügen) Edit-Distanz (Göthestr, Gothenstr) = 2 (1 Buchstaben vertauschen, 1 Buchstaben hinzufügen) Teilt man die Edit-Distanz durch die Länge des längeren Strings erhält man ein gutes Maß für die Ähnlichkeit der beiden Strings. Neben einigen Erweiterungen und Spezialisierungen der Edit-Distanz gibt es eine Reihe weiterer Ähnlichkeitsmaße für Strings: a) den Algorithmus von Jaro und Winkler [Winkler 1999], der insbesondere Vertauschungen von Buchstaben anspricht, und b) n-GrammVerfahren, bei denen zu einem String alle Teilstrings der Länge n betrachtet werden. Zum Prüfen der Ähnlichkeit wird bei n-Gramm-Verfahren die Anzahl gemeinsamer Teilstrings ermittelt.
– –
Diese allgemein gehaltenen Algorithmen müssen aber im konkreten Anwendungsfall um anwendungsspezifisches Wissen ergänzt werden. So sollte z.B. dem Umstand Rechnung getragen werden, dass es im Datenfeld „Vorname“ eine spezifische Ähnlichkeit zwischen einem Namen und der dazu passenden Initiale gibt, z.B. „Peter“ ~ „P.“. Im Nachnamensfeld haben die beiden Strings „Lüdenscheid“ und „MüllerLüdenscheidt“ trotz vieler fehlender Buchstaben eine große Ähnlichkeit, da im Wesentlichen nur eine Komponente eines Doppelnamens fehlt und dies ein durchaus üblicher Erfassungsfehler ist. Dieser Umstand spielt vor allem dann eine Rolle, wenn auf einem Personenbestand eine Haushaltsbildung durchgeführt werden soll, d.h. wenn erkannt werden soll, welche Personen in einem Haushalt leben. Ein Beispiel für anwendungsfallspezifische Ähnlichkeitsmaße sind Datumsangaben. Sind sowohl Datenerfasser aus dem angelsächsischen wie aus dem deutschen Sprachraum mit der Erfassung von Datumsangaben betraut, dann ist eine
132
5 Datenintegration und Deduplizierung Vertauschung von Tages- und Monatsangabe ein durchaus üblicher Erfassungsfehler, dem durch ein geeignet angepasstes Ähnlichkeitsmaß Rechnung getragen werden sollte. D.h. dass der „05.06.07“ verglichen mit dem „06.05.07“ zwar nicht als identisch, aber doch mit einem höheren Ähnlichkeitswert bewertet wird als bei einem Vergleich mit dem „09.08.07“. Ist bei der Erfassung von Geburtsdaten nur das Alter der Person erkannt, so wird häufig das Geburtsjahr errechnet und als Tagesdatum der 1.1. eingegeben. In diesen Fällen sollte das Ähnlichkeitsmaß den 1.1. als „ähnlich“ zu allen anderen Tagen des angegebenen Jahres und des Vorjahres annehmen.
5.2.3.2 Ähnlichkeit auf Datensatzebene Nicht jedes Datenfeld spielt bei der Dublettenerkennung eine Rolle. Für all diejenigen Datenfelder, die bei der Dublettenerkennung verwendet werden, muss ein adäquates Ähnlichkeitsmaß gewählt werden. Bei einem Vergleich zweier Datensätze werden diese Ähnlichkeitsmaße auf die entsprechenden Felder angewandt. Um zu einem Gesamtwert für die Ähnlichkeit der beiden Datensätze zu kommen, müssen die Werte der einzelnen Datenfelder verdichtet werden. Dies geschieht in den meisten Fällen durch ein gewichtetes Mittel, d.h. jedem für die Dublettenerkennung verwendeten Datenfeld wird ein Gewicht zugewiesen, mit dem das Ähnlichkeitsmaß multipliziert wird. Die sich so ergebenden Produkte werden aufsummiert. Bei der Wahl der Gewichte empfiehlt sich eine Normierung auf 100%. Eine exakte Übereinstimmung der beiden Datensätze in Bezug auf die ausgewählten Datenfelder entspricht dann einer „100%-Dublette“. In manchen Anwendungsbereichen lassen sich mehrere Definitionen für Dubletten finden, die sich in den relevanten Datenfeldern oder den Gewichten zur Berechnung des Mittels unterscheiden. Die Möglichkeit gleichzeitig nach Dubletten unterschiedlicher Definitionen zu suchen und ggf. die Suche zu beenden, wenn mit irgendeiner der Definitionen eine Dublette gefunden wurde, hat entscheidende Auswirkungen auf die Performance eines Systems zur Dublettenerkennung.
5.2.4 Durchführung der Dublettenerkennung Für die Erkennung aller Dubletten in einem Datenbestand, müsste jeder Datensatz mit jedem anderen Datensatz verglichen werden. Dies bedeutet, dass die Laufzeit mit der Anzahl der Datensätze quadratisch wächst, denkbar ungünstige Voraussetzungen für eine Dublettenerkennung in großen Datenbeständen. Bessere Laufzeiteigenschaften hat der von Hernandez und Stolfo vorgeschlagene SortedNeighbourhood-Algorithmus [Hernandez & Stolfo 1998]. „Sorted Neighbourhood“ heißt so viel wie „sortierte Nachbarschaft“ und beschreibt damit bereits das Charakteristische dieses Verfahrens: der Datenbestand wird so sortiert, dass potenzielle Dubletten nahe beieinander stehen, so dass nur noch die „Nachbarschaft“ nach Dubletten durchsucht werden muss.
133
B Methoden – Techniken – Tools – Regelwerke/Standards Vor Beginn des Verfahrens muss zuerst ein Sortierschlüssel definiert werden, der die oben beschriebene Sortierung sicherstellt. Dafür werden Bestandteile der für die Dublettenerkennung wichtigen Datenfelder konkateniert, z.B. die ersten drei Buchstaben des Nachnamens gefolgt von den ersten beiden Buchstaben des Ortes und der Straße. Der Algorithmus beginnt mit der Erzeugung des Sortierschlüssels für jeden Datensatz. Anschließend wird der Datenbestand anhand des Sortierschlüssels sortiert. Bei geschickter Wahl des Schlüssels sind jetzt Dubletten dicht beieinander angeordnet. Zur Dublettenerkennung muss daher jeder einzelne Datensatz nur mit einem kleinen „Fenster“ von Datensätzen verglichen werden, die in der Sortierreihenfolge kurz vor oder nach ihm stehen. Eine Fenstergröße von etwa 20 ist in vielen Fällen ausreichend. Dadurch ist beim Sorted-Neighbourhood-Algorithmus eine wesentlich geringere Anzahl von Vergleichen notwendig. Tabelle 4: Gemäß Sortierschlüssel sortierte Tabelle (Sorted-Neighbourhood) Dublettengruppe
ID
Quelle
Sortierschlüssel
Name
Straße
Wohnort
1
3
LV
HMGB
Helga Martens
Göthestr. 12
Berlin
2
1
LV
JMGB
Jan Marten
Göthestr. 12
Berlin
3
2
LV
JMGB
Janine Marten
Gothenstr. 12
Berlin
2
8
KFZ
JMGB
Jan Marten
Goethestr. 12
Berlin
4
6
LV
JMHK
Jens Müller
Händelstr. 1
Köln
4
12
KFZ
JMHK
Jens Müller
Händelstr. 1
Köln
3
7
KFZ
JMSB
Janine Marten
Schillerplatz 3
Berlin
5
9
KFZ
MJBA
Martin Jahn
Buschweg 23a
AHmburg
5
4
LV
MJBH
Martin Jahn
Buschweg 23
Hamburg
6
11
KFZ
MPBK
Maja Peters
Bachstr. 65
Köln
7
5
LV
PMMH
Peter Maier
Mozartweg 2
Hamburg
8
10
KFZ
PMMK
Peter Maier
Mozartweg 2
Köln
…
Tabelle 4 zeigt den Datenbestand des Beispiels erweitert um die Spalte Sortierschlüssel. Als Sortierschlüssel wurden die Anfangsbuchstaben des Vornamens, des Nachnamens, der Straße und des Wohnortes gewählt. Damit ergibt sich für „Jan Marten, Göthestr. 12, Berlin“ der Sortierschlüssel „JMGB“. Nach der Sortierung gemäß dem Sortierschlüssel liegen die Dublettengruppen mit den ID-Paaren (1,8), (6,12) und (4,9) dicht beieinander. In diesem Fall wäre eine Fenstergröße von 3 Datensätzen ausreichend.
134
5 Datenintegration und Deduplizierung Entscheidend für die Güte des Algorithmus ist die Wahl des Sortierschlüssels. Hier liegt auch die Schwäche dieses Verfahrens: unterscheiden sich zwei Datensätze nur in einem Buchstaben und ist dieser Bestandteil des Sortierschlüssels, dann werden i.d.R. diese beiden Datensätze so weit auseinander sortiert, dass sie außerhalb des Fensters der zu vergleichenden Datensätze liegen und daher nicht miteinander verglichen werden. Hätten wir in unserem Beispiel den Sortierschlüssel so definiert, dass er mit dem ersten Buchstaben des Wohnortes beginnt, dann wäre das Dublettenpaar (4,9) „auseinander“ sortiert worden. Die Werte für den Wohnort unterscheiden sich durch einen Buchstabendreher am Wortanfang. Als Abhilfe dafür haben Hernandez und Stolfo mit Multipass eine Erweiterung ihres Algorithmus vorgeschlagen. Dabei werden mehrere Sortierschlüssel mit unterschiedlicher Strukturierung verwendet. Nacheinander werden für jeden dieser Sortierschlüssel die drei Schritte des Sorted-Neighbourhood-Algorithmus durchgeführt. Durch die unterschiedlichen Sortierschlüssel stehen bei jedem Durchlauf andere Datensätze nebeneinander, was die Chancen erhöht, neue Dubletten zu entdecken. Die hierbei entdeckten Dublettengruppen werden durch die Bildung der transitiven Hülle zusammengeführt. Bei der Bildung der transitiven Hülle wird vorausgesetzt, dass wenn D1 eine Dublette zu D2 sowie D2 eine Dublette zu D3 ist, auch D1 eine Dublette zu D3 ist und somit alle drei eine Dublettengruppe bilden.
5.3 Schritt 3: Datenfusion Sind die Schemata der beteiligten Tabellen angepasst, sowie Dubletten und Dublettengruppen bekannt, bleiben zuletzt noch reine Datenkonflikte übrig, die behandelt werden müssen. Reine Datenkonflikte liegen vor, wenn unterschiedliche Repräsentationen desselben Realweltobjektes (lt. Dublettenerkennung) unterschiedliche Werte für gleiche Attribute (lt. Mapping) aufweisen. Die Gründe für die Existenz solcher Datenkonflikte sind vielfältig, einige wurden in Abschnitt 5.2.2 bereits genannt.
Anwendung
Visualisierung/Export
Datenfusion
Dublettenerkennung
Schema Matching
Vorverarbeitung Bei Konflikten wird in der Regel zwischen Widersprüchen (unterschiedliche Werte) und Unsicherheiten (ein Wert im Konflikt mit Null-Werten) unterschieden. UnsiDatenquellen cherheiten treten bevorzugt in den Attributen auf, die nicht im Mapping enthalten sind und sind generell einfacher zu handhaben. Dabei wird in der Regel eine „nicht bekannt“-Semantik der Null-Werte vorausgesetzt. Der letzte Schritt im Integrationsprozess, der Schritt der Datenfusion, behandelt beide Konfliktarten in Daten und erzeugt ein für den Nutzer und den jeweiligen
135
B Methoden – Techniken – Tools – Regelwerke/Standards Anwendungsfall sinnvolles Ergebnis. In den meisten Fällen ist solch ein Ergebnis ein Ergebnis ohne Widersprüche. Das Problem der Datenfusion stellt sich demnach wie folgt dar: Problem (Datenfusion): Gegeben eine Tabelle mit markierten Dublettengruppen, erzeuge eine bereinigte Tabelle, die keine Widersprüche, und idealerweise genau eine Repräsentation pro Realweltobjekt enthält.
Sind die Dublettengruppen durch eine ID als eigenes Attribut bestimmt, besteht die Aufgabe darin, dieses ID-Attribut zu einem Primärschlüssel werden zu lassen. Bei der Behandlung von Konflikten gibt es eine Reihe von Strategien, die verfolgt werden können. Im Folgenden werden einige davon vorgestellt.
5.3.1 Konflikte ignorieren Die sicherlich einfachste, aber auch nicht unbedingt befriedigendste, Strategie ist es, die Konflikte einfach zu ignorieren und dem Nutzer z.B. alle unterschiedlichen Repräsentationen zugänglich zu machen und ihm damit die Entscheidung selbst zu überlassen, welche Repräsentationen weiterverwendet werden sollen. Die gewünschte Eigenschaft des ID-Attributs als Primärschlüssel wird dabei nicht erreicht. Zusätzlich bereitgestellte Metainformationen, z.B. über die Herkunft der Daten oder die Wahrscheinlichkeit der Korrektheit der Daten ermöglichen dem Nutzer eine bessere Entscheidung, entbinden ihn dabei aber nicht von der Entscheidung, welche der möglichen Repräsentationen weiter verwendet werden soll. Die relationalen Operatoren „Outer Union All“ und „Full Outer Join“ sind einfache Beispiele für Datenfusionsverfahren bei denen Konflikte ignoriert werden.
5.3.2 Konflikte vermeiden Fortgeschrittenere Strategien versuchen, Konflikte auf einfache Art zu vermeiden. Dies kann z.B. dadurch geschehen, dass in der Ergebnistabelle nur widerspruchsfreie, konsistente Realweltobjekte enthalten sind. Entfernt man exakte Dubletten (Dubletten, die in allen Werten übereinstimmen) und Dubletten, die nur Unsicherheiten aber keine Widersprüche enthalten, sind dies am Ende die Dublettengruppen der Größe 1, die also nur einen Datensatz enthalten. Ein Beispiel für solch eine Vorgehensweise ist das CONQUER-System [Fuxman et. al. 2005], bei dem SQLAnfragen an Daten so umformuliert werden, dass ein konsistentes Ergebnis zurückgegeben wird. Dieses Verfahren ist allerdings nicht für alle Klassen von SQLAnfragen anwendbar. Das konsistente Ergebnis im Beispiel besteht aus allen Datensätzen, außer den Dublettengruppen 2, 3 und 5 („Jan Marten“, „Janine Marten“ und „Jens Müller“). Diese Datensätze enthalten Widersprüche und sind daher nicht im Ergebnis enthalten. Eine weitere Strategie der Konfliktvermeidung ist die Rückgabe eines einzigen, bestimmten Datensatzes aus einer Dublettengruppe. Diese Strategie wird oft als
136
5 Datenintegration und Deduplizierung „Survivor“-Strategie bezeichnet und wird ob ihrer Einfachheit häufig in bestehenden Tools zur Datenreinigung verwendet. Das häufigste Auswahlkriterium ist hier die Herkunft der Daten. Eine vorher zu bestimmende Datenquelle wird bevorzugt behandelt und als Ergebnis wird der Datensatz einer Dublettengruppe zurückgegeben, der aus dieser Quelle stammt. Eine andere Möglichkeit, den überlebenden Datensatz zu bestimmen, ist das Alter der Daten. Sofern bekannt, z.B. als Zeitstempel in einem weiteren Attribut hinterlegt, kann so der jeweils aktuellste Datensatz zurückgegeben werden. Auch anhand der Daten selbst kann die Entscheidung für einen Datensatz getroffen werden. So kann im obigen Beispiel der Datensatz mit dem längsten Namen, oder der höchsten Versicherungssumme überleben. Eine solche datenspezifische Auswahl sollte jedoch mit Sorgfalt und abhängig vom jeweiligen Anwendungsfall angewendet werden. Liegen keine Metadaten vor, ist die Übernahme eines vorhandenen Wertes und das Ignorieren von Null-Werten (Strategie der Informationsübernahme) z.B. unter Verwendung der SQL-coalesce- Funktion möglich.
5.3.3 Konflikte auflösen Um die Nachteile ignorierender (Widersprüche bleiben bestehen) und vermeidender (nicht alle Daten werden berücksichtigt) Strategien zu vermeiden, müssen Konflikte aufgelöst werden, indem alle vorhandenen Daten berücksichtigt werden und daraus ein neuer Datensatz zusammenfügt wird. In gewissem Sinne ist dies die natürliche Erweiterung der vermeidenden Strategien, die Erweiterung um das Einbeziehen aller Werte. Bei der Konfliktlösung können unterschiedliche Strategien grob in zwei Gruppen unterteilt werden: Entscheidende Strategien übernehmen einen in den Daten bereits vorhandenen Wert, während sich vermittelnde Strategien auch für einen noch nicht vorhandenen Wert entscheiden können. Ein Beispiel für die erste Gruppe ist die Mehrheitsentscheidung, die Entscheidung für den am häufigsten auftretenden Wert. Die Intuition hinter dieser Strategie ist, dass die Mehrheit sich selten irrt, und dass ein Wert, der signifikant häufiger auftritt, mit hoher Wahrscheinlichkeit der richtige ist. Ein Beispiel für eine vermittelnde Strategie ist die Mittelwertbildung. Zu beachten ist, dass bei der Konfliktlösung sowohl vertikal als auch horizontal partitioniert werden kann, d.h. die Konfliktlösung ist sowohl spalten- als auch zeilenabhängig. Spaltenabhängig im Sinne, dass für jede Spalte eine andere Art der Konfliktlösung verwendet wird, und zeilenabhängig im Sinne, dass für unterschiedliche Abschnitte (z.B. alle Kunden aus Berlin, alle Kunden aus Hamburg, etc.) Konflikte unterschiedlich gelöst werden.
137
B Methoden – Techniken – Tools – Regelwerke/Standards Tabelle 5: Fusionierte Quellen, unter Angabe der verwendeten Konfliktlösungsfunktion Name
Straße
Wohnort
Geb.-Datum
Summe
Führerschein
Kfz-Typ
Choose(Kfz)
Longest
Choose(LV)
Newest
Average
Coalesce
Coalesce
Berlin
21.5.1977
100.000
3 / 4.6.1996
VW Polo
Janine Marten Schillerplatz 3 Jan Marten
Goethestr. 12
Berlin
1.12.1952
50.000
3 / 2 / 1.12.1970
Audi A2
Martin Jahn
Buschweg 23a
Hamburg
5.1.1966
75.000
3 / 1.1.1987
Ford Focus
Peter Maier
Mozartweg 2
Köln
A
A
3 / 16.9.1982
Twingo
Peter Maier
Mozartweg 2
Hamburg
16.9.1982
100.000
A
A
Maja Peters
Bachstr. 65
Köln
A
A
Jens Müller
Händelstr. 1
Köln
24.3.1970
50.000
3 / 25.3.1988
VW Golf 3
Helga Martens
Göthestr. 12
Berlin
1.1.1954
100.000
A
A
A / 23.8.2004 Citroen 2CV
Konfliktlösende Strategien können auf einfache Art und Weise mittels Gruppierung und Aggregation umgesetzt werden. Dabei werden die Repräsentationen der Objekte nach der im Schritt „Dublettenerkennung“ vergebenen ID gruppiert und spaltenweise Konfliktlösungsfunktionen auf Repräsentationen mit gleicher ID angewendet. Einzelne Strategien, wie z.B. Mittelwertbildung können in einem Datenbanksystem recht einfach mit Hilfe bereits bestehender Aggregationsfunktionen nachgebildet werden. Andere, wie z.B. die Mehrheitsentscheidung, erfordern mehr Aufwand und den Einsatz von Erweiterungen des Datenbanksystems, wie z.B. die SQL-Erweiterungen für OLAP-Anwendungen oder die Möglichkeit benutzerdefinierte (Aggregations-)Funktionen verwenden zu können. Im letzteren Fall sind prinzipiell beliebig komplizierte und mächtige Funktionen möglich, die auch zusätzliche Informationen nutzen können. So ist es z.B. denkbar, taxonomisches Wissen zur Konfliktlösung auszunutzen, indem bei zwei in Konflikt stehenden Werten der speziellere oder das kleinste gemeinsame Oberkonzept (lowest common ancestor) gemäß einer Taxonomie verwendet wird. Bei einem Konflikt im Attribut „Wohnort“ zwischen den Werten „Hamburg“ und „Berlin“ könnte dieser durch den Wert „Deutschland“ aufgelöst werden. Weitere Details zu Strategien zur Konfliktbehandlung beschreiben [Bleiholder & Naumann 2006]. Dort wird auch die Umsetzung in einem integrierten Informationssystem beschrieben. Die im HumMer-System [Naumann et. al. 2006] verwendete Fuse-By-Technik bietet hier eine einfache Möglichkeit komplexe und mächtige Konfliktlösungen für Datenkonflikte zu spezifizieren.
138
5 Datenintegration und Deduplizierung
5.4 Erweiterungen Die Ergebnisse der Schritte Dublettenerkennung und Datenfusion hängen stark davon ab wie gut die Daten in den einzelnen Datenfeldern strukturiert und standardisiert sind. Sowohl die Strukturierung als auch die Standardisierung der Daten lassen sich durch geeignete Verfahren („data scrubbing“) verbessern. Diese Verfahren erhöhen zum einen die Treffergenauigkeit bei der Dublettenerkennung, zum anderen erweitern sie die Möglichkeiten der Datenfusion. Zusätzlich verbessert sich die Datenqualität hinsichtlich der IQ-Dimensionen Übersichtlichkeit, Fehlerfreiheit, Aktualität und der Einheitlichkeit der Darstellung. In den folgenden beiden Abschnitten wird kurz auf Strukturierung und Standardisierung eingegangen. [Schmid, 2004] enthält eine ausführlichere Beschreibung der Datenqualitätsprobleme, die sich dadurch beheben lassen.
5.4.1 Strukturierung Eine schlechte Strukturierung liegt dann vor, wenn es falsch zugeordnete oder eingebettete Werte gibt. Falsch zugeordnete Werte sind im falschen Datenfeld abgelegt. Wenn sich beispielsweise der Vorname im Nachnamensfeld und nicht im Vornamensfeld befindet, somit quasi in der Spalte verrutscht ist. Eingebettete Werte sind Werte, die zusammen mit anderen in einem einzigen Datenfeld stehen. Wenn z.B. neben dem Nachnamen auch noch die Anrede und der Titel im Nachnamensfeld zu finden sind. Beide Fälle führen bei der Dublettenerkennung zu Problemen. Im Falle der falsch zugeordneten Werte führt ein datenfeldweiser Vergleich der Datensätze dazu, dass „Äpfel mit Birnen“ oder wie im Beispiel erwähnt Vornamen mit Nachnamen verglichen werden. Im Falle der eingebetteten Werte treten zwei Probleme auf. Fehlt einer der in diesem Datenfeld gespeicherten Werte (z.B. der Titel) nur in einem der Datensätze, führt dies zu einem geringeren Ähnlichkeitswert, und zwar egal ob es sich um einen maßgeblichen Bestandteil handelt oder nicht. Sind in beiden Datensätzen alle Werte vorhanden, aber in unterschiedlicher Reihenfolge, so führt dies bei einigen Ähnlichkeitsmaßen zu starken Abwertungen. Zur Verbesserung der Strukturierung werden die Inhalte der Datenfelder geparst, in ihre Bestandteile zerlegt, klassifiziert und den passenden Datenfeldern zugeordnet. Zur Klassifikation und Zuordnung zu den passenden Datenfeldern werden in den meisten Fällen Referenzdaten wie eine Liste aller Titel und anwendungsfallspezifische Regeln benötigt.
5.4.2 Standardisierung Standardisierung von Datenfeldern zielt darauf ab, dass semantisch identische Inhalte identisch dargestellt werden. Dies meint im Grunde nichts anderes als eine hohe Informationsqualität in Bezug auf die IQ-Dimension Einheitliche Darstellung.
139
B Methoden – Techniken – Tools – Regelwerke/Standards Die folgenden Ortsnamen bezeichnen alle dieselbe Stadt: Tabelle 6: Nicht standardisierte Ortsnamen
Frankfurt a.M. Frankfurt am Main Frankfurt (Hessen) Frankfurt-Niederrad Die oben erwähnten Ähnlichkeitsmaße würden beim paarweisen Vergleich nicht unerhebliche Unterschiede messen. Und selbst auf Ortsnamen spezialisierte Ähnlichkeitsmaße würden keine Gleichheit feststellen. Praktischer ist hier, noch vor der Dublettenerkennung, eine Standardisierung der Datenwerte durchzuführen. Dazu wird im Rahmen eines Data Profiling u.a. eine Häufigkeitsverteilung der Werte in den einzelnen Datenfeldern durchgeführt. Zur Beseitigung der hierbei entdeckten Datenqualitätsmängel in Bezug auf die Dimension Einheitliche Darstellung gibt es mehrere Möglichkeiten. Bei Datenfeldern mit überschaubaren Wertemengen wie z.B. Anrede oder Titel, sollte eine unternehmensweit gültige Wertemenge festgelegt und umgesetzt werden. Im aktuell zu bearbeitenden Datenbestand kann dies durch einige UPDATEKommandos geschehen. Für eine unternehmensweite Umsetzung müssen alle Prozesse und Systeme betrachtet werden, in denen dieses Datenfeld vorkommt. Ähnlich verhält es sich, wenn die Unterschiede lediglich die Formatierung betreffen, z.B. bei Telefonnummern oder Datumsangaben. Auch hier muss möglichst ein unternehmensweites Format definiert werden. Im konkreten Einzelfall kann eine Umformatierung ein hilfreicher Schritt vor der Dublettenerkennung sein. Bei Datenfeldern mit sehr großer Wertemenge kann in einigen Fällen auf Referenzdatensysteme zurückgegriffen werden, z.B. bei Adressen, Bankverbindungen, Telefonnummern, Anti-Terrorlisten. Für diese Anwendungsbereiche gibt es ein Verzeichnis der gültigen Werte in diesem Bereich. So kann beispielsweise von der Deutschen Post ein Verzeichnis aller Postleitzahlen, Ortsnamen und Straßennamen bezogen werden. Ein Referenzdatensystem basiert auf einem solchen Verzeichnis und führt darauf eine fehlertolerante Suche aus, quasi eine „Ähnlichkeitssuche“. Wird beispielsweise an ein Referenzdatensystem auf Basis postalischer Verzeichnisse eine Adresse übergeben, so sucht das System die ähnlichste Adresse und gibt diese aus. Dabei kann es sein, dass Ein- und Ausgabe identisch sind. In diesem Fall hat nur eine Validierung stattgefunden. Wenn Ein- und Ausgabe aber unterschiedlich sind, hat eine Standardisierung oder gar eine Korrektur stattgefunden. Der Einsatz von Referenzdatensystemen führt daher nicht nur zu einer Verbesserung in der IQ-Dimension Einheitliche Darstellung, sondern auch zur Verbesserung
140
5 Datenintegration und Deduplizierung der Fehlerfreiheit und – bei entsprechender Aktualisierungsrate der Referenzdaten – auch zur Verbesserung der Aktualität.
5.5 Zusammenfassung Datenintegration bezeichnet das Zusammenführen von Daten aus mehreren Quellen, wobei sowohl Schema- als auch Datenheterogenitäten überwunden werden. Ein integrierter Datenbestand erlaubt es dem Nutzer auf einheitliche Art und Weise auf einheitlich strukturierte Daten zuzugreifen. Neben der Feststellung von äquivalenten Schemaelementen (Schema Matching) und äquivalenten Objektbeschreibungen (Dublettenerkennung) ist die Lösung von Datenkonflikten (Datenfusion) Teil des hier anhand eines Beispiels illustrierten Datenintegrationsprozesses. Für jeden Teilschritt werden prototypisch Lösungsmöglichkeiten aufgezeigt und erläutert, sowie erste Verweise in relevante Literatur gegeben. Datenintegration im Allgemeinen und die hier vorgestellten Techniken führen dabei in der Regel zu einer Verbesserung der Informationsqualität bezüglich der IQ-Dimensionen Zugänglichkeit, Vollständigkeit, Übersichtlichkeit, Fehlerfreiheit und Einheitliche Darstellung.
Literaturverzeichnis [Bilke & Naumann 2005] Bilke, A. und Naumann, F. Schema Matching using Duplicates. In: Proceedings of ICDE, 2005, S. 69-80. [Bleiholder & Naumann 2006] Bleiholder, J. und Naumann, F. Conflict Handling Strategies in an Integrated Information System. In: Proceedings of IIWeb workshop, 2006. [Fuxman et. al. 2005] Fuxman, A., Fazli, E. und Miller, R. J. ConQuer: Efficient Management of Inconsistent Databases. In: Proceedings of SIGMOD, 2005, S. 155-166. [Hernandez & Stolfo 1995] Hernandez, M. und Stolfo, S. The Merge/Purge Problem for Large Databases. In: Proceedings of SIGMOD, 1995, S. 127-138. [Madhavan et. al. 2001] Madhavan, J., Bernstein, P. und Rahm, E. Generic Schema Matching with CUPID. In: Proceedings of VLDB, 2001, S. 49-58. [Leser & Naumann 2006] Leser, U. und Naumann, F. Informationsintegration – Architekturen und Methoden zur Integration verteilter und heterogener Datenquellen. dpunkt, Heidelberg, 2006. [Levenshtein 1965] Levenshtein, V. Binary Codes Capable of Correcting Spurious Insertions and Deletions of Ones. In: Problems of Information Transmission, 1965, 1, S. 8-17.
141
B Methoden – Techniken – Tools – Regelwerke/Standards [Melnik et. al. 2002] Melnik, S., Garcia-Molina, H. und Rahm, E. Similarity Flooding: A Versatile Graph Matching Algorithm and its Application to Schema Matching. In: Proceedings of ICDE, 2002, S. 117-128. [Naumann et. al. 2006] Naumann, F., Bilke, A., Bleiholder, J., und Weis, M. Data Fusion in Three Steps: Resolving Schema, Tuple, and Value Inconsistencies. In: Data Engineering Bulletin. 29(2), 2006, S. 21-31. [Rahm & Bernstein 2001] Rahm, E. und Bernstein, P. A. On Matching Schemas Automatically. Technischer Bericht, Microsoft Research, 2001. [Schmid 2004] Schmid, J. The Main Steps to Data Quality In: Advances in Data Mining, 4th Industrial Conference on Data Mining, ICDM 2004, Revised Selected Papers, Springer, S. 69-77. [Winkler 1999] Winkler, W. The State of Record Linkage and Current Research Problems. Statistics of Income Division, Internal Revenue Service Publication R99/04.
142
6 Definition von Datenarten zur konsistenten Kommunikation im Unternehmen Andrea Piro, Marcus Gebauer Probleme in der Informationsqualität (IQ) treten in den unterschiedlichsten Bereichen eines Unternehmens auf und werden durch die unterschiedlichsten Bereiche verursacht. Daher ist es um so wichtiger, diese Probleme klar und eindeutig kommunizieren zu können. Insbesondere wenn Kollegen fachübergreifend IQProbleme beheben wollen, kann dies schwierig sein. Erst wenn klar ist, worüber geredet wird, und häufig sind dies Datenfelder und ihr Inhalt, kann das Problem eindeutig beschrieben und gelöst werden. Dieses Kapitel zeigt Möglichkeiten einer effektiven Kommunikation zur Lösung dieser Probleme auf. Wir schlagen eine Strukturierung von Informationen mit festgelegten Begriffen und Definitionen vor. Eingangs werden Kriterien zur Beschreibung von Daten und deren Kontext dargestellt. Da eine Begriffsdefinition in einer Unternehmenspraxis zeit- und kostenintensiv sein kann, erfolgt im Anschluss ein Vorschlag, wie mit einer Auswahl an Beschreibungskriterien Daten und deren Kontext für IQ-Zwecke strukturiert werden können.
6.1 Einleitung und Zielsetzung In fast jedem Unternehmen gibt es eine Schwierigkeit. Im Rahmen von Projekten oder Problemanalysen müssen verschiedene Fachbereiche und IT-Verantwortliche über ihre Informationen, IT-Lösungen, Prozesse und Datenflüsse sprechen. Hat jeder Bereich für sich noch eine klare Vorstellung über die einzelnen Themen, so ist die gemeinsame Kommunikation hierüber oft sehr schwierig. Grund sind die unterschiedlichen Sichtweisen auf Informationen. Diese führen zu unterschiedlichen Bewertungen und eben auch zu unterschiedlichen Bezeichnungen und Beschreibungen des Gegenstandes Information. Die Granularität von Ordnungsbegriffen und die Ordnungsbegriffe selbst sind von den unterschiedlichen Bereichen des Unternehmens abhängig. Eine Kommunikation miteinander ist ohne Verständnisprobleme meist nicht möglich. Das kostet oft Zeit und Nerven. Die Lösung dieses Problems ist die Entwicklung und Anwendung einer gemeinsamen Sprache über Informationen im Unternehmen. So wird eine Kommunikation über Bereichs- und Prozessgrenzen hinweg möglich. Bei der hohen Anzahl unterschiedlicher Informationen und Daten in den Prozessen eines Unternehmens, ist eine einheitliche und klare Begriffsdefinition und Strukturierung der Datenarten, wie in diesem Kapitel vorgeschlagen, sinnvoll und notwendig. Grundlage des Vor-
143
B Methoden – Techniken – Tools – Regelwerke/Standards schlages ist die Struktur der Informationslandschaft gemäß DMSBASICS [Tremba 2005].
6.1.1 Informationsqualität und Datenarten Insbesondere im Umfeld des IQ-Managements ist eine einheitliche Sprache unerlässlich. Informationen und Daten spielen in der Strukturierung von IQ-Problemen zur sinnvollen Adressierung abgeleiteter Maßnahmen eine entscheidende Rolle. Die Elemente der Ordnung sind übergreifende Begriffsdefinitionen, die ein einheitliches Verständnis der Datenarten sicherstellen. Diese bilden das Raster, in dem Informationen abgelegt, gefunden, erzeugt und gelenkt werden. Dies ist eine wichtige Voraussetzung dafür, dass die Verwendung der Struktur funktioniert. Das Ziel des hier vorgestellten Vorschlages ist es, die Begriffe zur Beschreibung von Daten in eine eindeutige und im gesamten Unternehmen genutzte Ordnung zu bringen. Um unterschiedliche IQ-Probleme mit fehlenden, fehlerhaften oder inkonsistenten Daten, die unter Umständen aus unterschiedlichen Abteilungen zentral gemeldet werden, übersichtlich und anschaulich darstellen zu können, müssen die genannten Probleme strukturiert werden. Die genannten betroffenen Daten1, sind dabei ein Merkmal, nach denen strukturiert werden kann. Die folgenden Definitionen stellen die Bedeutung der Bestimmung der Datenart in der Problemanalyse heraus. Die Bestimmung der bei einem Problem betroffenen Datenart ist entscheidend für das Verständnis des Problems selbst. Dazu wird die Verwendung einer Strukturierung von Informationen mit festgelegten Begriffen und Definitionen vorgeschlagen. Für die Zielsetzung, Informationsprobleme zu bewerten, werden nicht alle Beschreibungskriterien zwingend benötigt. Eine Auswahl bleibt dem Nutzer vorbehalten, der sich an den fachlichen Anforderungen in seiner Organisation orientiert.
6.2 Datenarten in der Informationslandschaft Daten spielen in den Geschäftsprozessen eines Unternehmens eine zentrale Rolle. Sie werden informationstechnologisch klar strukturiert und besitzen immer einen offiziellen und formellen Charakter. Neben den Daten hat auch der Kontext, in dem Daten leben, diesen offiziellen und formellen Charakter. Er ist durch den verfolgten Zweck und den dazugehörenden Prozess charakterisiert. Erst durch den Kontext, in dem Daten leben und benutzt werden, werden hieraus nutzbare Informationen. Ohne Kenntnis des Kontextes ist letztendlich keine Bewertung der Informationsqualität möglich [Strong et al. 1997].
1
Es handelt sich hierbei um die Angabe der Daten, in denen die Probleme sichtbar werden.
144
6 Definition von Datenarten zur konsistenten Kommunikation im Unternehmen Die Merkmale von Daten und deren Kontext führen uns zur Strukturierung der Datenarten. Daten sind das inhaltliche Element einer Information und der Kontext ist das beschreibende Element. Daten benötigen also zu ihrer Interpretation immer einen Kontext. Allerdings scheinen Daten häufig aus sich heraus deutbar und verständlich zu sein. Dieses implizite Verständnis eines Datenfeldinhaltes kann erhebliche Probleme in der Informationslandschaft verursachen. Die Nummer „1802“ kann eine interne Durchwahlnummer oder eine Kundennummer sein. Erst mit dem Wissen um den Kontext werden Daten verständlich und für das gesamte Unternehmen nutzbar.
6.3 Beschreibungskriterien In diesem Abschnitt stellen wir Beschreibungskriterien vor, mit denen die Definition der Datenarten erfolgt. Beschrieben werden dabei die inhärenten Eigenschaften der Daten und der Kontext, in dem ein Datum sich befindet. – Die Eigenschaften von Daten werden durch Format, Struktur, Inhalt, Stabilität, Verarbeitung und dem Business Object beschrieben. – Die Kontextinformationen von Daten bilden die Angaben zu den Prozessen, in denen das Datum benötigt wird und zu verschiedenen Verwendungszwecken. Tabelle 1: Beschreibungskriterien für formelle Informationen EIGENSCHAFTEN
KONTEXT
Format
Prozess
Struktur
Zweck
Inhalt Stabilität Verarbeitung Business Object Daten können nach den in Tabelle 1 aufgeführten Kriterien, eindeutig oder mehrfach beschrieben werden. Die Kriterien Format, Inhalt, Struktur, Business Object und Stabilität sind nur einmalig zu vergeben. Ein Datum kann z.B. nur ein bestimmtes Format haben. Die Kriterien Verarbeitung, Zweck und Prozess können das Datum durch Mehrfachnennungen beschreiben, da ein Datum bspw. in verschiedenen Prozessen zum Einsatz kommen kann.
145
B Methoden – Techniken – Tools – Regelwerke/Standards
6.3.1 Beschreibung der Eigenschaften Die Eigenschaften von Daten lassen sich anhand von sechs Kriterien beschreiben. Je mehr Kriterien zur Beschreibung genutzt werden, desto genauer kann das Datenfeld beschrieben werden und desto eindeutiger ist seine Identifizierung möglich.
6.3.1.1 Format Mit dem Format wird ein Datum IT-technisch spezifiziert. Ein Datenfeld kann alphanumerisch, numerisch, integer, floating point, etc. definiert sein, wobei auch die Länge eines Feldes ein beschreibendes Merkmal ist.
6.3.1.2 Struktur Das Kriterium Struktur unterscheidet Daten nach drei grundsätzlichen Kriterien. Strukturierte Daten sind Daten, zu denen strukturgebende Informationen – Metadaten – vorhanden sind, durch die die Daten definiert sind. Diese Metadaten können unter anderem Auskunft geben über: – Format des Datums, – Erlaubte Werte für das Datum, – Semantische Bedeutung. Semistrukturierte Daten sind Daten, die in einzelnen Bestandteilen strukturiert sein können, in der Gesamtheit jedoch keine spezifische, eindeutige Struktur aufweisen. Vielfach entstehen semistrukturierte Daten dort, wo Textfelder in Datenbanken mit unterschiedlichen strukturierten Daten gefüllt werden. Folgende fiktive Beispiele geben einen Eindruck hierüber. 1. Textfeld = „Mustermann; Heinz; Musterstadt; 12345; 0123 2312312“ 2. Textfeld = „23451; Rainer Dück; 0123 2561432“ Hierbei kann es durchaus sein, dass beide Einträge in einer Datenbank vorkommen, da unterschiedliche Mitarbeiter für die Eingabe verantwortlich sind. Jedes einzelne Element kann dabei einer Struktur folgen, die Gesamtheit ist in der Struktur jedoch nicht einheitlich. Aus unstrukturierten Daten ist die Informationsgewinnung stark von der Interpretation durch den Informationsempfänger abhängig. Das heißt nicht, dass unstrukturierte Daten nicht auch strukturierte Informationen enthalten können, in der Regel sind diese allerdings nicht direkt und eindeutig erkennbar. Ein Beispiel für unstrukturierte Daten sind E-Mails.
6.3.1.3 Inhalt Das Kriterium Inhalt unterscheidet Daten danach, ob sie den eigentlichen Inhalt (d.h. Bestandteil der Informationen) beschreiben, also Sachverhalte beinhalten, um die es tatsächlich geht, oder diese lediglich beschreiben. Wir unterscheiden hier
146
6 Definition von Datenarten zur konsistenten Kommunikation im Unternehmen zwischen Inhaltsdaten und Metadaten (siehe Tabelle 2). Eine allgemeingültige Unterscheidung zwischen Metadaten und „normalen“ Daten gibt es nicht. Metadaten werden in unserem Beispiel als Daten verstanden, mit deren Hilfe andere Daten beschrieben werden können. Tabelle 2: Eine Niederlassung wird mit einem Meta- und Inhaltsdatum beschrieben Feldname
Feldinhalt
Inhalt
Niederlassungsnummer
NL001
Metadatum
Niederlassungsname
Niederlassung München
Inhaltsdatum
Inhaltsdaten definieren wir als Daten, die das Objekt direkt bezeichnen. Beispielsweise beschreibt der Name einer Niederlassung inhaltlich direkt die entsprechende Niederlassung. Metadaten ordnen die Inhaltsdaten einer festgelegten Struktur zu. Zum Beispiel die Nummer der Niederlassung. Hier wird das Objekt einem Ordnungsbegriff (Schlüssel) zugeordnet, der die Niederlassung nicht inhaltlich beschreibt, sondern für sämtliche Informationen zur Niederlassung steht.
6.3.1.4 Stabilität Die Stabilität unterscheidet die Daten nach der (relativen) Zeitdauer, in der die Daten unverändert bleiben. In der Regel werden fixe und variable Daten, auch Stamm- und Bewegungsdaten genannt, unterschieden. Stammdaten Stammdaten, auch fixe Daten genannt, sind Daten, die sich nach ihrer Eingabe in ein System selten ändern. Daher müssen sie nicht jedes Mal neu eingegeben werden. In der Regel werden sie dauerhaft zentral gespeichert und prozessbedingt ausgelesen. Hierzu gehören beispielsweise Mitarbeiternamen, Organisationsnummern, Kontonummern oder Artikelbezeichnungen. Bewegungsdaten Bewegungsdaten, auch variable Daten genannt, sind Daten, die sich in einem Geschäftsprozess häufig ändern. Solche Daten müssen für jeden Geschäftsvorfall entweder eingegeben werden oder aus vorhandenen Daten abgeleitet bzw. berechnet werden. Beispiele hierfür sind Bestellmengen, Wertpapierkurse oder Kontensalden.
147
B Methoden – Techniken – Tools – Regelwerke/Standards
6.3.1.5 Verarbeitung Das Kriterium der Verarbeitung unterscheidet nach der Stellung der Daten im Datenverarbeitungsprozess: – Eingabedaten – Speicherdaten – Ausgabedaten Eingabedaten sind Daten, die in das System eingepflegt werden. Zum Beispiel: Name eines Neukunden, Bestellmengen oder der Betrag einer Transaktion. Speicherdaten sind Daten, die das System bereits gespeichert hat. Zum Beispiel: Daten, die nach ihrer Eingabe ins System in diesem verbleiben und nicht nur für eine einmalige Berechnung verwendet werden. Zum Beispiel: Name und Anschrift eines Kunden, Bestellmenge eines Artikels durch einen Kunden. Ausgabedaten sind Daten, die vom System bereits prozessiert wurden. Zum Beispiel: Ergebnisdaten einer Kostenkalkulation. Die Eigenschaft „Verarbeitung“ ändert sich für ein Datum im Prozessablauf. Somit sind Doppelnennungen, je nach dem zu welchem Zeitpunkt das Datum betrachtet wird, möglich.
6.3.1.6 Business Object Daten können einem Business Object2 (BO) zugeordnet werden, da sie ein Objekt beschreiben. Das BO verknüpft Daten mit ihrer fachlichen Verwendung und damit auch der Verantwortung für den Inhalt. Ein Geschäftsvorfall (Gesamtprozess) benötigt für seine Abwicklung immer Informationen aus mehreren BO. Das Beispiel in Abbildung 1 zeigt, dass eine Geschäftsabwicklung im Versandhandel Informationen der BOs Kunde, Produkt und des verantwortlichen Mitarbeiters benötigt. Die Zuordnung eines Datenfeldes zu einem Business Object sollte immer eindeutig und dauerhaft vorgenommen werden. So beschreiben Kundennummer, Kundenname und Adresse in unserem Beispiel das BO „Kunde“. Die Produktbezeichnung beschreibt das BO „Produkt“. Die Personalnummer das BO „Mitarbeiter“. Die Zuordnungen können auf verschiedene Weise vorgenommen werden. Wichtig ist, dass die Zuordnung einmal festgelegt, dokumentiert und allgemeingültig ist.
2
Wir verwenden hier den in der Literatur gängigen englischen Ausdruck.
148
6 Definition von Datenarten zur konsistenten Kommunikation im Unternehmen
Abbildung 1: Nutzung von Informationen aus verschiedenen Business Objects in einem Prozess
6.3.2 Beschreibung des Kontextes Eine sinnvoll eingesetzte und notwendige Information ist niemals losgelöst von einem festgelegten Kontext. Informationen ohne Kontext finden in einem Unternehmen keine sinnvolle Verwendung. Die Kriterien “Prozess” und “Zweck” beschreiben gemeinsam den Kontext, in dem sich ein Datum befindet. Erst durch die Einbettung der Information in die Prozesse und in die Zweckbestimmung erhalten die Informationen einen Wert für das Unternehmen. Im Folgenden werden die beiden Kriterien anhand von Beispielen genauer erläutert.
6.3.2.1 Prozess Das Kontext-Kriterium Prozess kann aus zwei verschiedenen Fragestellungen entstehen. Zum einen kann die Frage „In welchem Prozess wird das Datum generiert?“ zum anderen kann die Frage „In welchem Prozess wird die Information genutzt?“ gestellt werden. Wir konzentrieren uns auf die Frage nach der Nutzung im Prozess, da wir diesen Aspekt später bei der Bewertung von InformationsProblemen verwenden. Bei einer Definition gemäß der Nutzung in einem Prozess sind Doppelnennungen sehr wahrscheinlich. Eine bestimmte Information kann in n Prozessen genutzt werden. Beispiel: Die „Stückeanzahl“ einer Wertpapiertransaktion dient sowohl der Geschäftsabwicklung, der Bewertung der Bestände, der Verbuchung als auch der
149
B Methoden – Techniken – Tools – Regelwerke/Standards Erstellung von Auswertungen für die Steuerung des Unternehmens. Generiert wird die Information jedoch nur einmal im Prozess „Geschäftsabschluss“. Die Struktur kann den Prozessen und Sub-Prozessen der Ablauforganisation entsprechend herunter gebrochen werden. Auf die Differenzierung gemäß der SubProzesse sollte evtl. verzichtet werden, um nicht zu komplex zu werden und um unempfindlicher gegenüber Änderungen der Ablauforganisation zu sein.
6.3.2.2 Zweck Im Kontext-Kriterium Zweck sind generell Mehrfachnennungen zu erwarten. Die meisten Daten dienen immer unterschiedlichen Zwecken innerhalb der Gesamtprozesse eines Unternehmens. Eine Kundennummer wird für die Rechnungsabwicklung genauso benötigt wie für die Erstellung einer Übersicht aller Aufträge eines Kunden für die Marketingabteilung. Für das Datenfeld „Kundennummer“ mit dem Eintrag „123654“ kann eine komplette Beschreibung anhand aller Kriterien wie folgt aussehen. Tabelle 3: Komplette Beschreibung eines Datums für die weitere Analyse Kundennummer – „123654“ Kriterium
Nennungen
Beschreibung
Format
einmalig
Numerisch
Struktur
einmalig
Strukturiert
Inhalt
einmalig
Metadatum
Stabilität
einmalig
Stammdatum
Verarbeitung
mehrfach
Business Object
einmalig
Kunde
Prozess (der Nutzung)
mehrfach
– – – – –
Geschäftsanbahnung Geschäftsabschluss Geschäftsabwicklung Buchung & Überwachung und weitere
Zweck
mehrfach
– – – –
Reklamationsbearbeitung Kundenanfragen beantworten Übersicht aller Kundengeschäfte erstellen und weitere
150
– Eingabedatum – Speicherdatum
6 Definition von Datenarten zur konsistenten Kommunikation im Unternehmen
6.4 Beispiele für den Praxiseinsatz Sind die relevanten Beschreibungskriterien unternehmensintern identifiziert und definiert, können diese für die Analyse und Visualisierung des Status der Informationsqualität eingesetzt werden.
6.4.1 Analyseebenen der Informationsqualität Die Beschreibung der Datenarten gemäß der vorgestellten Kriterien ist für die Beschreibung eines IQ-Problems hilfreich. Die Analyseebenen eines IQ-Problems bilden das erkannte Problem, die Auswirkungen und die zugrunde liegenden Ursachen (Abbildung 2) ab.
Abbildung 2: Analyseebenen der Informationsqualität Das Problem beschreibt den erkannten Sachverhalt, der im Unternehmen als Fehler identifiziert wird. Die Beantwortung der Frage nach der Datenart, welche fehlerhaft ist oder Probleme bereitet, ist hierbei von entscheidender Bedeutung. Die Angabe des eigentlichen Datums ist ebenso wichtig wie die Nennung des Kontextes, in dem sich das Datum befindet. Für die Beschreibung des Problems sind insbesondere die Kriterien Inhalt, Verarbeitung, Stabilität und Business Object relevant . Die Auswirkung beschreibt den Zustand, der sich auf Grund des erkannten Problems tatsächlich oder voraussichtlich ergibt. Die Auswirkungen sollten belegt werden oder, wenn sie nicht gemessen wurden, mindestens auf Basis von Erfahrungswerten angegeben werden. Die Analyse der Auswirkungen ist für die Einschätzung des Risikos, welches verursacht wird, und damit zur Festlegung der Behebungspriorität, notwendig. Für einen ersten Eindruck über die Auswirkungen des Problems, eignen sich die Beschreibungskriterien Verwendungszweck und Prozess (wenn das Kriterium den Prozess beschreibt, in denen das Datum genutzt wird). Die Ursache eines Problems ist immer auf mehreren Ebenen beschreibbar, wobei es immer mehrere Ursachen geben kann, die ein Problem verursachen. Auf dem Weg zur Lösungsfindung, kann eine Beschreibung der Datenarten sehr hilfreich sein.
151
B Methoden – Techniken – Tools – Regelwerke/Standards
6.4.2 Visualisierung des IQ-Status Anhand der Beschreibungskriterien der Datenarten ist es möglich, unstrukturierte Meldungen zu IQ-Problemen übersichtlich darzustellen, die Positionierung und Gewichtung von Problemen abzuleiten und den gesamten Stand der IQ für ein Unternehmen transparent zu machen. Jedes Kriterium ist als übersichtliche Managementinformation nutzbar. Diese Darstellung dient einer einheitlichen Kommunikation im Unternehmen und als Lageplan und Basis für die notwendigen nächsten Schritte zu Verbesserung der Informationsqualität. Als Beispiel gehen wir von 20 identifizierten IQ-Problemen in einem Unternehmen aus. Die Meldungen hierzu sind noch unstrukturiert und in unterschiedlichem Detaillierungsgrad dargestellt. Die Tabelle 4 zeigt beispielhaft identifizierte Probleme sortiert nach ihrem Eingangsdatum. Die Liste der Problemmeldungen, ist unstrukturiert und in diesem Zustand weder bearbeitbar noch aussagekräftig. Es ist nicht erkennbar, welche Datenarten im Unternehmen die größten Probleme verursachen. Jeder der genannten Problemmeldungen bedarf einer Kurzrecherche anhand der Beschreibungskriterien, resp. der Rückfrage beim meldenden Bereich, um zu klären, welche Datenfelder fehlen oder fehlerhaft sind und somit zu den genannten Problemen führen. Nach erfolgter Recherche ist die Beschreibung der Datenarten möglich und somit können die Sachverhalte übersichtlich zusammen gefasst den IQ-Status im Unternehmen beschreiben. In unserem Beispiel ergibt die genauere Analyse, dass es sich tatsächlich um 23 IQProblemmeldungen handelt. Die Meldungen 10 und 15 aus dem Marketing sind inhaltlich identisch. Die Meldungen 1, 5, 8 und 12 beinhalten jeweils zwei Problemmeldungen 3 . Im einzelnen werden folgende Datenfelder in den Meldungen angesprochen: Artikelbezeichnung, Artikelnummer, Auftragsvolumen, Bonusbetrag, Buchung (Zahlungseingang), Händlerkonditionen, IT-Berechtigungen, Kompetenzträger, Kostenstellen, Kundenadresse, Kundenname, Kundennummer, Liefertermin, Raumdaten und Rechtsform des Kunden.
3
Hier gehen wir davon aus, dass in solchen Fällen mehr als ein Feld betroffen ist. Beispielsweise Name- und Adressfeld.
152
6 Definition von Datenarten zur konsistenten Kommunikation im Unternehmen Tabelle 4: Liste festgestellter IQ-Probleme (Meldeeingang) Nr
Datum
Melder
Beschreibung
1
19.02. Rechtsabteilung
Fehlende Informationen über Namensänderungen und Fusionen der Firmenkunden.
2
24.02. Poststelle
Bei Umzug des Mitarbeiters innerhalb des Unternehmens, werden die Raumdaten nicht aktualisiert.
3
02.03. Einkauf
Zeichnungsberechtigter für Kostenstellen nicht gepflegt, oder nicht mehr im Unternehmen.
4
30.03. Personal
Bonuszusagen zu spät in den Systemen.
5
29.04. Vorstandsstab
Fehlende Kundeneinträge.
6
01.05. Einkauf
Konditionen der Händler nicht im Verzeichnis.
7
17.05. Rechnungswesen
Kostenstellen fehlen.
8
18.05. Verkauf
Artikelliste ist unvollständig.
9
30.05. Rechnungswesen
Fehlende Buchungen der ausländischen Niederlassungen.
10
24.06. Marketing
Adressverteiler für Publikationen fehlerhaft.
11
28.06. Steuerung
Kundennummer wird nicht geliefert.
12
21.07. Verkauf
Doppelte Kundenstämme im Kundesystem.
13
24.08. IT-Abteilung
Probleme mit den IT-Berechtigungen der Mitarbeiter.
14
25.08. Personal
Adressänderungen der Mitarbeiter werden nicht gepflegt.
15
27.08. Marketing
Broschürenversand: Kundenadresse fehlerhaft.
16
23.09. Verkauf
Liefertermine können nicht angegeben werden.
17
24.09. Rechnungswesen
Fehlende Artikelnummern.
18
11.12. Steuerung
Kundenportfolien sind unvollständig.
19
12.12. Steuerung
Kostenstellen sind nicht mehr aktuell.
20
13.12. Steuerung
Falsche Zuordnung der Kostenstellen zum ergebnisverantwortlichen Bereich.
Unter Verwendung der Kriterien Business Object, Stabilität und Prozesse in eine übersichtliche Darstellung gebracht, ergibt sich aus den erkannten IQ-Problemen in den verschiedenen Auswertungen in Abbildung 3 bis Abbildung 5 folgendes Bild.
153
B Methoden – Techniken – Tools – Regelwerke/Standards
Business Object
14 12 10 10 8 6 4 4
3
3 2
2
1
0 Kunde
Lieferant
Mitarbeiter
Organisation
Produkt
Transaktion
Abbildung 3: Das Business Object Kunde ist in unserem virtuellen Fall am häufigsten von IQ-Problemen betroffen
Stabilität
20
18
15
10 5 5
0 Stammdaten
Bewegungsdaten
Abbildung 4: Die Auswertung zeigt: Auffällig häufig liegen die Probleme in den Stammdaten begründet
154
6 Definition von Datenarten zur konsistenten Kommunikation im Unternehmen Betrachten wir bei der Auswertung die betroffenen BOs, so ist zu erkennen, dass die meisten erkannten Probleme sich im BO Kunde wiederfinden (Abbildung 3). Ein solches Ergebnis kann zu dem Schluss führen, die Kundenstammdaten führenden Systeme zu überprüfen und die Erfassungs- und Pflegeprozesse hierzu zu überarbeiten und zu optimieren. Auf jeden Fall sollte die Problemlösung dieses BO hoch priorisiert angegangen werden. Das Bild, welches die Auswertung nach Business Object zeichnet, wird durch die Analyse des Kriteriums Stabilität in Abbildung 4 noch unterstützt. Kundendaten sind meist Stammdaten. Unser Beispielunternehmen hat deutlich weniger Probleme im Umfeld seiner Bewegungsdaten. Ein wichtiger Indikator für die Priorisierung einer Behebung sind die Auswirkungen von IQ-Problemen im Unternehmen. Die Auswertung nach den Kernprozessen des Unternehmens ergibt zum einen, dass alle Kernprozesse des Unternehmens betroffen sind (Abbildung 5). Dies macht eine unternehmensweite IQAktivität sichtbar erforderlich. Zum anderen ist erkennbar, welche Prozesse am häufigsten betroffen sind. Die IQ-Probemmeldungen zu den Prozessen Geschäftsanbahnung, Geschäftsabwicklung und Buchung & Überwachung bieten sich als die Problemfelder an, mit denen eine weiterführende Analyse, d.h. eine Messung der IQ-Probleme, beginnen sollte. Prozesse
16 14
13
12 10
11
10 7
8 6 4
5
5
ro ze ss
g
U nt er st üt zu ng sp
un d ch un g
sik os te ue ru n
ac hu Ü be rw
ic fts ab w Bu
Ri
ng
ng kl u
hl u es ch ä
G
es ch ä
fts ab sc G
G
es ch ä
fts an ba hn un
g
ß
2 0
Abbildung 5: In allen Prozessen des Unternehmens haben IQ-Probleme Auswirkungen
155
B Methoden – Techniken – Tools – Regelwerke/Standards
6.5 Zusammenfassung Wir haben in unserem Vorschlag gezeigt, wie durch die Anwendung einheitlicher Begriffsdefinitionen der Kommunikationsprozess im Unternehmen vereinfacht werden kann. Neben der Verwendung in Prozessdokumentationen, Datenflussbeschreibungen, bietet es sich an, eine solche Begriffswelt auch für die Beschreibung von IQ-Problemen zu nutzen. Vor allem in der Kommunikation verschiedener Bereiche, z.B. zwischen Fach- und IT-Abteilung, ist eine einheitliche Begriffswelt nützlich, da sie ein gemeinsames Verständnis für IQ-Probleme schafft. Wie unser Beispiel gezeigt hat, können mit einfachen Auswertungen auf Basis der neuen Begriffsdefinition weitergehende Erkenntnisse über die Ursachen von Problemen erzielt werden. Nur so ist eine unternehmensweit einheitliche Darstellung des IQ-Status erreichbar. Vor allem die übersichtlichen Visualisierungsmöglichkeiten der einzelnen Problemschwerpunkte geben Hinweise auf notwendige weitere Analyserichtungen und strategische Entscheidungen. Eine einheitliche Begriffsfindung und -verwendung ist in den meisten Unternehmen schwer umzusetzen, da es – besonders in großen Unternehmen – bereichspezifische Besonderheiten gibt. Viele „Alleingänge“ einzelner Bereiche in einem Unternehmen sind eine Frage der Unternehmenskultur. Für dieses Konzept ist eine Sensibilisierung der Mitarbeiter und des Managements notwendig. Diese muss vermitteln, dass alle im Unternehmen an ein und den selben Unternehmensprozessen teilhaben, die selben Daten nutzen und schlussendlich die selben Unternehmensziele haben. Eine einheitliche Begriffswelt unterstützt diesen kulturellen Gedanken. Insgesamt ist die Beschreibung der Datenarten bei allen Informationen möglich. Welche Kriterien herangezogen werden und welche Daten letztendlich in die Beschreibungen eingehen, muss im jeweiligen Unternehmen festgelegt werden.
Literaturverzeichnis [Tremba 2005] http://www.dmsbasics.de (Zugriff am 24.04.2005) [Strong et al. 1997] Strong, D.M., Lee, Y.W. und Wang, R.Y.: Data quality in context. Commun. ACM 40, 5 (1997), pp. 103–110
156
7 Suchmaschinen und Informationsqualität: Status quo, Problemfelder, Entwicklungstendenzen1 7 Suchmaschinen und Informationsqualität
Dr. Christian Maaß Dr. Gernot Gräfe
7.1 Ausgangssituation Das Thema Informationsqualität wird in den vorangegangenen Beiträgen umfangreich betrachtet. Die dabei geführte Diskussion zielt vordergründig auf organisatorische Dimensionen der Datenqualität, die strukturierte Datenanalyse oder Datenmanagementprozesse im Unternehmen ab. Dabei liegt ein Großteil der zur Unterstützung von Entscheidungsprozessen herangezogenen Informationen in Datenbanksystemen bzw. in einem Data Warehouse vor. Auf Basis verschiedener Analysetools (z. B. Online-Analytical-Processing) lassen sich diese Informationen dann systematisch auswerten. Allerdings können Entscheidungen nicht allein aufgrund der unternehmensintern vorliegenden Informationen getroffen werden. Vielmehr gilt es auch die aus der Unternehmensumwelt relevanten Informationen zu verarbeiten, die zum Teil über das Internet zugänglich sind. Im Gegensatz zu unternehmensinternen Datenbanksystemen handelt es sich beim Internet um ein schwach strukturiertes und offenes Netzwerk, weshalb die im Unternehmenskontext eingesetzten Analysetools kaum weiterhelfen, um Informationen mit hoher Qualität herauszufiltern. In dieser Situation spielen Suchmaschinen eine wichtige Rolle, um Informationen zu identifizieren und anhand verschiedener Kriterien in Form einer Suchergebnisseite zu sortieren. Konservative Schätzungen gehen davon aus, dass über Suchmaschinen zwischen 70 und 85 Prozent aller Informationsrecherchen im Internet erfolgen >Förster & Kreuz 2002, S. 68@. Teilweise beziffert man diesen Wert sogar auf über 90 Prozent >Schulz et al. 2005, S. 20@. Ungeachtet dieser herausragenden Stellung von Suchmaschinen kann konstatiert werden, dass die Qualität der Suchergebnisse oftmals nur gering ist. So liegt der Anteil relevanter Treffer, in Abhängigkeit der verwendeten Suchbegriffe, oft nur zwischen 20 und 45 Prozent >Machill & Welp 2003@. Ursächlich hierfür ist vor allem der Umstand, dass die gegenwärtig dominierenden Suchmaschinen zur Bewertung der Seiteninhalte vordergründig auf strukturelle Kriterien abstellen, wie z. B. die Linkstruktur von
1
Beide Autoren führen Ihre Arbeiten zur Informationsqualität im Forschungsprojekt Theseus (Teilprojekt Alexandria) fort, das unter dem Förderkennzeichen 01MQ07014 vom BMWi gefördert wird.
157
B Methoden – Techniken – Tools – Regelwerke/Standards Webseiten. Die eigentlichen Informationen auf den Webseiten werden nicht inhaltlich interpretiert. Folglich sind viele der gefundenen Webseiten inhaltlich nicht relevant. Der Begriff Informationsqualität bezieht sich in diesem Beitrag damit ausschließlich auf die Relevanz der Suchergebnisse oder anders formuliert auf die Frage, inwieweit Suchmaschinen dazu in der Lage sind, die aus der Perspektive des Nutzers relevanten Suchergebnisse als erstes anzuzeigen. Vor diesem Hintergrund werden in jüngerer Zeit immer häufiger Diskussionen über das so genannte semantische Web geführt, mit dem man die Vision einer um semantische Informationen angereicherten Version des vorhandenen World Wide Web verfolgt. Im semantischen Web soll es für Suchmaschinen möglich sein, Suchanfragen nicht nur anhand der eingegebenen Zeichenkette zu bearbeiten. Stattdessen würde über die reine Zeichenkette hinaus die inhaltliche Bedeutung der Suchwörter bei der Bearbeitung einer Suchanfrage berücksichtigt. Im Vergleich zu herkömmlichen Suchmaschinen wäre insofern mit einer Verbesserung des Status quo zu rechnen, d. h. die Informationsqualität der Suchergebnisse könnte sich signifikant verbessern. Bislang konnten sich semantische Suchmaschinen jedoch nicht etablieren. Vielmehr muss diagnostiziert werden, dass viele Autoren der Vision des semantischen Webs sehr kritisch gegenüberstehen. Stellenweise werden die in diesem Kontext diskutierten Ideen als „akademisch“ und „realitätsfern“ deklariert. In Anbetracht der kontrovers verlaufenden Diskussion soll in diesem Beitrag hinterfragt werden, inwieweit semantische Suchdienste zu einer Verbesserung der Informationsqualität auf den Suchergebnisseiten führen können und welche Vorund Nachteile mit ihnen im Vergleich zu den gegenwärtig dominierenden Suchmaschinen einhergehen. Zu diesem Zweck gilt es zunächst die Funktionsweise und die Problemfelder algorithmenbasierter Suchmaschinen aufzuzeigen. In diesem Zusammenhang soll insbesondere geklärt werden, wie algorithmenbasierte Suchmaschinen (wie z. B. Google oder Yahoo) auf die Qualität von Webseiten und damit indirekt auf die Informationsqualität schließen. Sodann wendet sich der Beitrag der Diskussion semantischer Suchmaschinen zu und hinterfragt deren praktische Relevanz im Allgemeinen und deren Beitrag zur Erhöhung der Informationsqualität im Speziellen. Ein Fazit schließt den Beitrag ab.
7.2 Charakterisierung algorithmenbasierter Suchmaschinen 7.2.1 Funktionsweise algorithmenbasierter Suchmaschinen Algorithmenbasierte Suchmaschinen nutzen zur Informationsbeschaffung und -auswertung Roboterprogramme. Sie analysieren automatisch die im Web auffindbaren Seiten. Indem sie selbstständig den dort platzierten Hyperlinks folgen, können sie in einem vergleichsweise kurzen Zeitraum einen großen Teil des Webs analysieren und für anschließende Suchanfragen erschließen. Die auf diesen Seiten vorgefundenen Hyperlinks sowie die dort vorgefundenen Seiteninformationen werden dazu in einer speziellen Datenbank gespeichert, dem so genannten Index.
158
7 Suchmaschinen und Informationsqualität Auf ihn greift die Suchmaschine im Zuge einer Suchanfrage zurück und gleicht die eingegebenen Suchbegriffe mit dem dort gespeicherten Datenbestand ab, um die Ergebnisliste zu generieren. Bei der Generierung der Suchergebnisseite werden die im Index gesammelten Informationen genutzt, um eine Rangfolge der Webseiten in Bezug auf ihre Relevanz zu bilden. Die eigentliche Analyse und Bewertung der Index-Informationen erfolgt anhand verschiedener Kriterien, die sich in zwei Bereiche einteilen lassen >Lewandowski 2005@, >Maaß & Scherm 2007@:
x
Anfrageabhängige Ranking-Faktoren (vgl. Kapitel 7.2.2),
x
Anfrageunabhängige Ranking-Faktoren (vgl. Kapitel 7.2.3).
7.2.2 Anfrageabhängige Ranking-Faktoren Bei anfrageabhängigen Ranking-Faktoren erfolgt die Sortierung der Suchergebnisliste anhand des verwendeten Suchbegriffs, wobei zur Bestimmung der Relevanz eines Webdokuments auf Verfahren des Information Retrieval zurückgegriffen wird. Beim „traditionellen“ booleschem Retrieval werden die eingegebenen Suchanfragen nach dem Prinzip der Exaktheit bearbeitet. Demnach wird ein Dokument immer dann als relevant erachtet, wenn der Suchbegriff in der identischen Schreibweise, d. h. als gleiche Zeichenkette, auf einer Webseite identifiziert werden konnte. Dieses Prinzip der Dokumentenbewertung hat sich in der Vergangenheit jedoch als manipulationsanfällig erwiesen. So haben z. B. die Bereitsteller von Webseiten häufig gesuchte Suchbegriffe – selbst wenn sie nicht im Zusammenhang mit der eigentlichen Webseite standen – gezielt auf der betreffenden Webseite versteckt, um bessere Platzierungen in den Ergebnislisten von Suchmaschinen zu erzielen. Um solchen Manipulationsversuchen vorzubeugen, ermitteln Suchmaschinen deshalb die so genannte „Keyword density“ >Maaß & Scherm 2007@. Bei dieser Prüfkennziffer wird die Anzahl aller Wörter der Webseite ins Verhältnis zu dem gesuchten Begriff gesetzt, um potenziellen Manipulationsversuchen entgegenzuwirken. Es ist allerdings als problematisch anzusehen, dass die Suchmaschinenbetreiber – die ihre Sortierkriterien als Betriebsgeheimnis ansehen – in der Regel keine genaue Auskunft darüber geben, welchen Wert die „Keyword density“ annehmen darf. Deshalb stehen die Entwickler bei der inhaltlichen Aufarbeitung und Optimierung von Webseiten vor einem Trade-off: Einerseits interpretieren Suchmaschinen eine hohe Dichte der Schlüsselwörter als Indikator für relevante Webseiten. Andererseits erachtet man einen zu hohen Wert der „Keyword density“ als Manipulationsversuch >Lexikon Suchmaschinenoptimierung 2006@. Ein weiterer wichtiger anfrageabhängiger Einflussfaktor ist darin zu sehen, ob das betreffende Suchwort durch entsprechende HTML-Tags (Hypertext Markup Language) hervorgehoben wird. So werden z. B. die als Überschriften deklarierten Textteile höher als herkömmliche Textpassagen bewertet. Dem liegt die Annahme zugrunde, dass die in den Überschriften verwendeten Schlüsselwörter wichtige Seiteninhalte umschreiben und daher für die Beurteilung der inhaltlichen Relevanz
159
B Methoden – Techniken – Tools – Regelwerke/Standards der Seite besonders geeignet sind. Tabelle 1 zeigt vor diesem Hintergrund die wichtigsten anfrageabhängigen Ranking-Faktoren im Überblick. Tab. 1: Anfrageabhängige Ranking Faktoren >in Anlehnung an Lewandowski 2005@ Ranking-Kriterium
Erläuterung
Dokumentspezifische Wortgewichtung
Relative Häufigkeit des Vorkommens eines Wortes in Abhängigkeit von der Anzahl der Wörter im gesamten Dokument.
(Keyword Density) Wortabstand
Bei Anfragen mit mehreren Suchbegriffen wird im Text einer Webseite der Abstand der Suchbegriffe voneinander berücksichtigt.
Reihenfolge der Suchbegriffe bei einer Such- In der Suchanfrage werden die am Beginn stehenden anfrage mit mehreren Begriffen Begriffe höher gewichtet als weiter hinten stehende Begriffe. Metatags
Vorkommen der Suchbegriffe in den Metatags einer Webseite.
Stellung der Suchbegriffe innerhalb des Vorkommen der Suchbegriffe am Beginn eines DokumenDokumentes tes wird höher gewertet als späteres Auftreten. Hervorhebung von Begriffen durch HTML- Hervorgehobene Begriffe (fett, kursiv) sowie SchlüsselElemente wörter in den Überschriften und Seitentitel werden höher bewertet. Groß-/Kleinschreibung
Dokumente, in denen die Suchbegriffe in exakt der eingegebenen Form, inklusive der Groß- bzw. Kleinschreibung der einzelnen Zeichen des Wortes vorkommen, werden bevorzugt.
Inverse Dokumenthäufigkeit
Relative Häufigkeit des Vorkommens eines Wortes in Dokumenten des gesamten Index; seltene Begriffe werden bevorzugt.
Ankertext
Vorkommen der Suchbegriffe im Linktext eines Dokumentes, welches auf das Zieldokument verweist.
Sprache
Dokumente, die in der Sprache des bei der Suchanfrage benutzen Länderinterfaces verfasst sind, werden höher bewertet.
Geo-Targeting
Seiten, die ihren „Standort" in der Nähe des Benutzers haben, werden bevorzugt.
Ein grundlegendes Problem bei anfrageabhängigen Ranking-Faktoren ist darin zu sehen, dass algorithmenbasierte Suchmaschinen in der Regel nicht zwischen Synonymen (sinnverwandte Wörter) oder Homonymen (gleich lautende Wörter mit unterschiedlicher Bedeutung) im Zuge einer Recherche unterscheiden können.
160
7 Suchmaschinen und Informationsqualität Folglich verweisen die Suchergebnislisten häufig auf vollkommen unterschiedliche Dokumente. So finden sich zu der Suchanfrage „Morgenstern“ z. B. Informationen zum gleichnamigen Schriftsteller, zu Himmelskörpern und zu mittelalterlichen Waffen – eine Bewertung bzw. Interpretation der Suchergebnisse in Bezug auf deren Inhalt wird insofern nicht vorgenommen. Daneben wird die Analyse der Informationen im Internet dadurch erschwert, dass zahlreiche Inhalte im Web nicht für Suchmaschinenroboter zugänglich sind. Das gilt zum einen für so genannte Rich Internet Applications. Dabei handelt es sich um Internet-Anwendungen, die von ihrer Handhabung her klassischen DesktopAnwendungen ähneln und grundsätzlich sehr anwenderfreundlich sind. Allerdings sind die dort vorzufindenden Informationen in der Regel nicht im HTMLText, sondern in einer separaten Datei gespeichert. Damit sind sie – wie das z. B. bei Flash-Anwendungen der Fall ist – für Suchmaschinen nicht zugänglich. Zum anderen bestehen bei der Indexierung von dynamischen Webseiten Probleme, da sie erst während des Seitenbesuchs für einen bestimmten Anwender generiert und zusammengestellt werden. Solche dynamischen Seiten sind vor allem bei Onlinehändlern vorzufinden. Dort werden die Inhalte einer Seite erst im Zuge des Besuchs einer Seite zusammengesetzt. Somit ist es für Suchmaschinenroboter nicht möglich, dynamisch generierte Webseiten ex-ante zu indizieren. Aus diesen Ausführungen geht hervor, dass bei anfrageabhängigen RankingFaktoren die Bedeutungsinhalte der Informationen nicht ausgewertet werden. Gleichzeitig haben sich anfrageabhängige Ranking-Faktoren als manipulationsanfällig erwiesen. Um diesen Problemen zu begegnen, werden daher in der Praxis anfrageabhängige und anfragunabhängige Ranking-Faktoren kombiniert.
7.2.3 Anfrageunabhängige Ranking-Kriterien Bei anfrageunabhängigen Ranking-Kriterien wird die Relevanz und Qualität einer Webseite unabhängig von der Suchanfrage beurteilt. Beispiele für diese Kriterien finden sich in Tabelle 2. Dazu zählt z. B. die Seitengröße, deren Aktualität oder die Anzahl der Klicks der Nutzer auf ein bestimmtes Dokument. Im Vordergrund steht bei den anfrageunabhängigen Ranking-Kriterien die Analyse der Linkstruktur, um auf die allgemeine Relevanz und Qualität von Webseiten zu schließen. Dem liegt die Annahme zugrunde, dass auf relevante und qualitativ hochwertige Webseiten besonders viele Hyperlinks verweisen. Im Gegensatz dazu sind Seiten mit inferioren Inhalten häufig überhaupt nicht verlinkt. Nicht zuletzt aus diesem Grund haben vor allem kommerzielle Webseiten ein Interesse daran, auf möglichst vielen Seiten verlinkt zu sein, da in diesem Fall die Linkpopularität und damit auch die Platzierung auf den Suchergebnisseiten steigt. Neben verschiedenen legalen Möglichkeiten die Linkstruktur zu verbessern, wird zu diesem Zweck jedoch häufig auf zweifelhafte Methoden und „Optimierungsmaßnahmen“ zurückgegriffen, die oft gegen die Richtlinien der Suchmaschinenbetreiber verstoßen. Die folgenden drei „Methoden“ sind dabei besonders häufig in der
161
B Methoden – Techniken – Tools – Regelwerke/Standards Praxis anzutreffen und führen bei Aufdeckung in der Regel zu negativen Bewertungen und/oder einem Ausschluss der Webseite aus dem Datenbestand von Suchmaschinen:
x
Linkfarmen
x
Doorway-Pages
x
Cloaking
Bei Linkfarmen handelt es sich um Ansammlungen von Webseiten, auf denen gezielt zahlreiche Hyperlinks platziert werden, um auf die vorderen Plätze der Suchergebnisseite zu gelangen. Suchmaschinen können solche Linkfarmen in der Regel jedoch identifizieren und setzen bei einem Manipulationsverdacht die betreffenden Webseiten auf eine Sperrliste. Diese Seiten und ihre Links werden anschließend bei der Ermittlung eines Rankings nicht mehr berücksichtigt. Doorway-Pages werden auch als Brücken- oder Weiterleitungsseiten bezeichnet. Diese Seiten werden suchmaschinengerecht aufgearbeitet und verfügen in der Regel über keine Inhalte. Ihr Zweck besteht ausschließlich darin, möglichst hohe Platzierungen in den Trefferlisten zu erzielen. Dieses Ziel lässt sich bei Brückenseiten wesentlich einfacher als bei der Originalseite erreichen, da bei der Aufarbeitung des Quellcodes keine Rücksicht auf die Darstellung der Inhalte genommen werden muss. Aus diesem Grund ist es bei solchen Seiten relativ einfach, wesentlich mehr Schlüsselwörter und Hyperlinks als auf der Originalseite zu platzieren. Klickt ein Anwender auf der Suchergebnisseite auf den Link solcher Brückenseiten, wird er automatisch auf die eigentliche Webseite weitergeleitet. Streng genommen ist darin jedoch ein irreführendes und wettbewerbswidriges Verhalten zu sehen, da den Anwendern durch die optimierte Seite falsche Inhalte vortäuscht werden. Ähnlich verhält es sich auch beim so genannten Cloaking. Hier versuchen die Betreiber von Webseiten durch spezielle Softwarelösungen auf dem Webserver des Seitenanbieters zu erkennen, ob es sich bei dem Besucher um Menschen oder Suchmaschinenroboter handelt. Letztgenannte werden dann auf eine für sie optimierte Seite weitergeleitet, auf der – analog den zuvor skizzierten Doorway-Pages – in der Regel zahlreiche Hyperlinks und ausgewählte Schlüsselwörter platziert werden. Aufgrund des Einsatzes solcher Techniken in Kombination mit Doorway-Pages wurde Anfang des Jahres 2006 das Unternehmen BMW kurzfristig aus dem Index der Suchmaschine Google gelöscht >Ihlenfeld 2006@.
162
7 Suchmaschinen und Informationsqualität Tab. 2: Anfrageunabhängige Rankingfaktoren >in Anlehnung an Lewandowski 2005@ Ranking-Kriterium
Erläuterung
Verzeichnisebene
Je höher das Dokument innerhalb der Hierarchie seiner Website steht, desto höher wird es bewertet.
Anzahl eingehender Links
Je mehr Links auf das Dokument verweisen, desto bedeutender wird es angesehen.
Linkpopularität
Der Wert für die Autorität/Qualität eines Dokumentes wird aufgrund der Verlinkungsstruktur berechnet. Links, die von Webseiten kommen, die diesen allgemeinen Kriterien entsprechend sehr wichtig sind, werden höher gewichtet als Links von weniger bedeutsamen Seiten.
Klickhäufigkeit
Dokumente, die von vielen Benutzern einer Suchmaschine angesehen werden, nachdem die Suchmaschine diese Dokumente in ihre Suchergebnisliste präsentiert hat, werden höher bewertet.
Aktualität
Aktuelle Dokumente werden höher bewertet als ältere. Der Suchmaschinenroboter berücksichtigt zu diesem Zweck das angegebene Datum des letzten Updates einer Webseite.
Dateiformat
Dokumente im Standardformat HTML werden höher bewertet als solche in anderen Formaten (PDF, Word, usw.).
Größe der Site
Dokumente von umfangreichen Webangeboten werden höher bewertet als solche von kleinen Sites.
Aus diesen Ausführungen geht hervor, dass auch anfrageunabhängige RankingKriterien nur bedingt geeignet sind, um auf die Informationsqualität von Inhalten zu schließen. Die oben dargestellten Kriterien stellen keinen inhaltlichen Bezug zu der Suchanfrage her. Trotzdem haben sie eine große Bedeutung bei der Bewertung der Relevanz innerhalb einer Trefferliste. Mit semantischen Suchmaschinen wird nun der Anspruch erhoben, eine entsprechende inhaltliche Auswertung vorzunehmen und somit die Informationsqualität bei Suchanfragen im Internet zu erhöhen.
7.3 Semantisches Web und semantische Suchmaschinen 7.3.1 Vision und Grundlagen des semantischen Webs Mit dem semantischen Web wird die Vision einer um semantische Informationen angereicherten Version des World Wide Web verfolgt, um den Automatisierungsgrad bei der Verarbeitung von Wissen und damit auch die Informationsqualität im
163
B Methoden – Techniken – Tools – Regelwerke/Standards Zuge von Suchanfragen zu erhöhen: „The Semantic Web is not a separate Web but an extension of the current one, in which information is given well-defined meaning, better enabling computers and people to work in cooperation“ >Berners-Lee et al. 2001@. Mit semantischen Informationen sind hier Metadaten gemeint, die die eigentlichen Inhalte in einem maschinenlesbaren Format beschreiben. Auf dieser Grundlage ist es denkbar, natürlichsprachige Fragen an das Web zu stellen und entsprechende Antworten zu erhalten >John 2006, S. 5@. Im Gegensatz zu algorithmenbasierten Suchmaschinen würden Suchanfragen somit nicht anhand der Zeichenketten der Suchwörter oder struktureller Kriterien wie der Linkstruktur beurteilt. Vielmehr sollen semantische Suchmaschinen die Bedeutungsinhalte der indizierten Webseiten analysieren und mit diesen Informationen sehr viel genauer die relevanten Seiten für eine spezifische Suchanfrage in der Ergebnisliste präsentieren. Vor diesem Hintergrund stellt sich die Frage, auf welchem Wege Mensch und Computer ein gemeinsames Verständnis über ein bestimmtes Themengebiet und dessen Informationsinhalte aufbauen können. An dieser Stelle setzt die Diskussion um Ontologien an. Mit ihrer Entwicklung wird der Anspruch erhoben, ein gemeinsames Vokabular über einen bestimmten Ausschnitt der Realität zu bilden. Entsprechend führt Gruber aus: „An ontology is an explicit specification of a shared conceptualization“ >Gruber 1995@. Um ein Verständnis für Ontologien zu entwickeln, ist es hilfreich, zunächst auf andere Formen der Wissensrepräsentation, wie z. B. Taxonomien und Thesauren einzugehen. Bei erstgenannten handelt es sich um kontrollierte Vokabulare mit hierarchischen Beziehungen untereinander. Im Beispiel in Abbildung 1 ist die betrachtete Person zugleich Student und Akademiker. Darüber hinausgehende Zusammenhänge werden jedoch nicht erfasst. So lässt sich mit Hilfe einer Taxonomie z. B. nicht der Sachverhalt abbilden, dass es sich bei dem englischsprachigen Wort „Ph.D Student“ um ein Synonym für das Wort „Doktorand“ handelt. An dieser Stelle setzen Thesauren an, die neben der Kategorisierung auch die Abbildung von Zusammenhängen zwischen verschiedenen Begriffen über vordefinierte Relationen ermöglichen. Auf diesem Wege lassen sich Wörter mit unterschiedlicher Schreibweise oder unterschiedliche Begriffe mit ähnlicher Bedeutung in Verbindung bringen. Ein solcher Thesaurus wird beispielsweise auch in der Textverarbeitungssoftware Microsoft Word verwendet, um dem Autor Vorschläge für alternative Formulierungen zu unterbreiten. Analog dieser Vorgehensweise können Thesauren auch dazu verwendet werden, um sinnverwandte Wörter im Zuge von Suchanfragen zu berücksichtigen.
164
7 Suchmaschinen und Informationsqualität
Objekte der Realität
kennt
behandelt in
Thema
Person
Dokument
schreibt Student
Akademiker
Doktorand
Ph.D Student
Synonym
Softwarelizenzen
GPL
LGPL
ähnlich
Zusammenhänge, die durch eine Taxonomie erfasst werden Zusammenhänge, die sich zusätzlich durch einen Thesaurus abbilden lassen Zusammenhänge, die zusätzlich durch eine Ontologie erfasst werden
Abb. 1: Formen der Wissensrepräsentation im Überblick >in Anlehnung an Ullrich 2003, S. 8@
Sämtliche Eigenschaften von Taxonomien und Thesauren lassen sich auch durch Ontologien abbilden. Sie erfassen darüber hinaus die semantischen Zusammenhänge zwischen den verschiedenen Objekten. Ein solcher Zusammenhang besteht z. B. zwischen einem Autor und einem von ihm verfassten Text, der sich wiederum auf ein bestimmtes Thema bezieht (vgl. Abb. 1). Die wesentliche Stärke von Ontologien im Gegensatz zu anderen Formen der Wissensrepräsentation ist darin zu sehen, dass sie neues Wissen aus den vorhandenen Inhalten ableiten können. Dies setzt voraus, dass zuvor bestimmte Regeln (Relationen) spezifiziert werden, anhand derer mit Hilfe einer Ontologie automatisch logische Schlussfolgerungen gezogen werden können. Eine solche Regel auf abstraktem Niveau könnte z. B. lauten (vgl. Abb. 1): Wenn eine „Person“ ein „Dokument“ zu einem „Thema“ verfasst, kennt die „Person“ folglich dieses „Thema“. Aufgrund einer solchen Relation kann die Ontologie nun automatisch die Schlussfolgerung ziehen, dass Student A über Kenntnisse zum Thema Softwarelizenzierung verfügt, ohne dass dieser konkrete Sachverhalt irgendwo explizit dokumentiert ist. Mit dem semantischen Web wird somit der Brückenschlag „von einem Netz aus Verweisstrukturen zu einem Netz aus Inhaltsstrukturen vollzogen“ >Hansen & Neumann 2005, S. 508@. Der zu erwartende Anstieg der Informationsqualität bei Suchanfragen ist bei der Verwendung von Ontologien vor allem darauf zurückzuführen, dass Inhalte au-
165
B Methoden – Techniken – Tools – Regelwerke/Standards tomatisch strukturiert und in ein bestimmtes Modell der Wissensrepräsentation eingeordnet werden (vgl. Abb. 2). Auf dieser Grundlage ließen sich Suchanfragen realisieren, wie z. B. „Welche Personen verfügen über Kenntnisse zum Thema Softwarelizenzierung?“. Die in diesem Kontext bestehenden technischen Herausforderungen werden im weiteren Verlauf ausführlich behandelt. Steigende Informationsqualität
Ausführen und Verarbeiten von Modellen
+
Explikation von Konzepten und Relationen
Extraktion/ Bestimmung relevanter Informationen
HTML, .txt, .doc
Indizierung
Kategorisierung
Strukturierung
Validierung
Abb. 2: Steigende Informationsqualität durch semantische Verarbeitungsprozesse >John 2006, S. 15@
7.3.2 Technische Grundlagen des semantischen Web Um im weiteren Verlauf die praktische Relevanz semantischer Suchmaschinen und deren Beitrag zur Verbesserung der Informationsqualität herausarbeiten zu können, gilt es zunächst auf die grundlegenden Standards für semantische Suchmaschinen einzugehen. Das ist auch insofern von Bedeutung, da das W3C (World Wide Web Consortium) zu diesem Zweck neue Standards entwickelt hat. Die vorhandenen Internetstandards genügten den besonderen Anforderungen in diesem Kontext nicht. So sind sie – wie z. B. die Auszeichnungssprache HTML – „lediglich“ darauf ausgerichtet zu spezifizieren, wie Inhalte von Webseiten im Webbrowser dargestellt werden sollen. Die Weiterverarbeitung dieser Informationen durch Maschinen ist nur sehr eingeschränkt möglich. An dieser Stelle setzt XML (Extensible Markup Language) an. Dieser Standard zielt auf die Erstellung von maschinen- und menschenlesbaren Dokumenten, wobei er in den letzten Jahren
166
7 Suchmaschinen und Informationsqualität besonders als Datenaustauschformat an Bedeutung gewonnen hat. Allerdings lassen sich auf Basis von XML noch keine semantischen Informationen abbilden. Um diese Lücke zu schließen, wurde der RDF-Standard verabschiedet (Resource Description Framework), der auf einer XML-Syntax aufbaut und bei dem es sich vereinfacht ausgedrückt um eine Wissens- bzw. Repräsentationssprache handelt, die der Beschreibung von Inhalten auf Grundlage so genannter RDF-Tripples dient >Struckenschmidt & van Harmelen 2005@. Ein solches Tripple besteht aus einem Subjekt, Prädikat und Objekt und ermöglicht es Maschinen, logische Schlüsse über die auf diesem Wege abgebildeten Zusammenhänge zwischen Subjekten und Objekten zu ziehen. Abbildung 3 zeigt den Aufbau eines solchen RDF-Triples anhand eines konkreten Beispiels.
Abb. 3: Aufbau eines RDF-Triples
7.3.3 Problemfelder und Herausforderungen im Bereich der semantischen Suche Wenngleich das Potenzial semantischer Suchmaschinen auf dem ersten Blick viel versprechend erscheint, konnten sie sich in der Praxis bislang noch nicht durchsetzen. Das liegt unter anderem an dem hohen Modellierungsaufwand, der mit der Erstellung von Ontologien verbunden ist. In diesem Kontext wird weiterhin der geringe Standardisierungsgrad von RDF-Aussagen kritisiert >Diestelkamp & Birkenhake 2005@. Während in HTML z. B. eindeutig definiert ist, dass es sich bei dem Tag um eine Überschrift ersten Grades handelt, findet die Interpretation einer RDF-Aussage erst während der Implementierung statt. Das W3C-Konsortium hat in diesem Zusammenhang nur generische Vorschriften gemacht. Ein weitaus größeres Problem ist jedoch darin zu sehen, dass die im Web vorzufindenden Dokumente zunächst mit Metainformationen angereichert und dann mit einer entsprechenden Ontologie verknüpft werden müssen, um semantische Suchanfragen realisieren zu können. In Anbetracht der rasanten Veränderungsgeschwindigkeit der im Web vorzufindenden Inhalte – pro Woche entstehen etwa 320 Millionen neue Webseiten >Lewandowski 2006@ – bereitet das erhebliche Probleme. Grundsätzlich kann die Anreicherung der Inhalte automatisch oder manuell erfolgen. Im erstgenannten Fall werden Metadaten automatisch aus den Dateien extrahiert, wobei auf unterschiedliche technologische Verfahren zurückgegriffen wird. Ein Beispiel hierfür stellt die Analyse von Bilddateien aufgrund ihrer Farbzusammensetzung oder der Umrisse der gezeigten Motive dar, um auf diesem Wege
167
B Methoden – Techniken – Tools – Regelwerke/Standards ähnliche Inhalte zu identifizieren. Einen solchen Ansatz verfolgen z. B. die Bildersuchmaschinen Tiltomo (http://www.tiltomo.com) und Retrievr (http://labs.systemone.at/retrievr/). Verfahren aus dem Bereich des Text-Mining spielen in diesem Zusammenhang ebenfalls eine wichtige Rolle. Diese Verfahren beschäftigen sich mit der Verarbeitung und Auswertung von unstrukturierten Daten – z. B. in Form von Texten auf Webseiten – und nutzen linguistische Methoden der Spracherkennung. Diese Technologien sind jedoch bei weitem noch nicht ausgereift. Vielmehr besteht Einstimmigkeit darüber, dass eine automatische Auswertung der Informationsinhalte nur dann zufriedenstellende Ergebnisse liefert, wenn es um eine schnelle und ungenaue Einschätzung geht. „For applications that need near-perfect solutions, human analysts have to be involved to correct errors made by automatic techniques“ >Liu et al. 2005@. An den gegenwärtigen Verfahren im Bereich des Text-Mining wird z. B. kritisiert, dass sie grammatikalische Unterschiede zwischen verschiedenen Sprachen außer Acht lassen. Auch ironische oder sarkastisch formulierte Sätze entziehen sich bislang der maschinellen Verarbeitbarkeit. In Anbetracht der Problemfelder bei der automatischen Extrahierung von Metadaten erstaunt es kaum, dass auch manuelle Verfahren der Metadatenanreicherung nach wie vor eine wichtige Rolle spielen. In diesem Fall werden die Inhalte durch die Anwender manuell ausgezeichnet. Sie verschlagworten („taggen“) und kommentieren die betreffenden Dateien, woraus ein Beziehungsnetzwerk aus Schlagwörtern und Inhalten entsteht. Eine solche Form der Auszeichnung ist auch für Web 2.0 Anwendungen typisch, bei denen die Anwender eigene Inhalte im Web veröffentlichen. Populäre Beispiele hierfür stellen z. B. Flickr (www.flickr.com) und YouTube (www.youtube.com) dar. Dabei werden jedoch keine hierarchischen Strukturen – wie z. B. bei einer Ontologie – zugrunde gelegt, wie bestimmte Themen zusammenhängen. Vielmehr können die Anwender eigene Tags vergeben, zwischen denen dann Relationen berechnet werden. Solche Relationen beziehen sich auf die Häufigkeit, mit der einzelne Begriffe in Kombination miteinander verwendet wurden. Auf Basis dieser so genannten Folksonomies wird dann z. B. auf ähnliche Inhalte geschlossen. Diese Vorgehensweise hat den Vorteil, dass Tags die individuelle Sicht der Anwender erfassen. Allerdings führen unterschiedliche Schreibweisen und subjektive Kombinationen von Tags zu mehr oder weniger diffusen Folksonomies. Dies führt immer wieder zu Fehlern, wenn es z. B. um die Suche nach verwandten Themen und Inhalten geht. Um die hier skizzierten Probleme zu lösen, beschäftigt sich die Informatik gegenwärtig mit der Frage, inwieweit die beiden hier skizzierten Ansätze zusammengeführt werden können, um die Vorzüge semantischer Technologien mit den Ansätzen zur Annotierung von Inhalten im Web 2.0 zu kombinieren >Schuster & Rappold 2006, S. 197@. Dabei geht es z. B. um die automatische Extrahierung von Metadaten, um das Tagging zu vereinfachen oder die Community in den Prozess der Ontologieentwicklung zu integrieren >Wu et al. 2006@.
168
7 Suchmaschinen und Informationsqualität Neben den nach wie vor gegebenen technischen Herausforderungen muss jedoch konstatiert werden, dass darüber hinaus noch ein wesentlich profaneres Problem besteht. So ist im Kontext semantischer Suchmaschinen eine erhebliche Gefahr darin zu sehen, dass es zu Manipulationsversuchen bei den Metadaten kommt, um eine bessere Platzierung in den Suchergebnislisten zu realisieren. Damit handelt es sich allerdings um kein spezielles Problem semantischer Suchmaschinen. So werden z. B. auch bei herkömmlichen Webseiten Metadaten in den Kopf von Webseiten integriert, die auch von „traditionellen“ Suchmaschinen ausgewertet werden. Allerdings kam es in diesem Zusammenhang in der Vergangenheit immer wieder zu Manipulationsversuchen, indem z. B. populäre Schlüsselwörter im Kopfelement der Webseite integriert wurden, um möglichst viele Anwender auf die Webseite zu kanalisieren. Das hat dazu geführt, dass diese Metadaten kaum noch von den führenden Suchmaschinen beachtet werden >Maaß & Scherm 2007@. Aus dem gleichen Grund werden die Erfolgsaussichten semantischer Suchmaschinen in Frage gestellt, da sie im hohen Umfang auf qualitativ hochwertige Metadaten angewiesen sind: „Dem Missbrauch semantischer Informationen zur Förderung des Umsatzes von zweifelhaften Waren hat auch das Semantic Web nur wenig entgegenzusetzen. Aus dem Tag-Abuse in HTML wird RDF-Abuse“ >Diestelkamp & Birkenhake 2005@.
7.4 Fazit und Ausblick Im Unternehmenskontext wird seit geraumer Zeit über Themen wie das Datenqualitätsmanagement und verschiedene Ansatzpunkte zur Steigerung der Informationsqualität diskutiert. Die dabei eingesetzten Analysetools (wie z. B. OLPA) stoßen jedoch an ihre Grenzen, wenn es um die Datenauswertung in schwach strukturierten und offenen Netzwerken wie dem Internet geht. In so einem Kontext sind vielmehr algorithmenbasierte Suchmaschinen als zentrale Instrumente zur Befriedigung von Informationsbedürfnissen anzusehen. Das kommt vor allem in den großen Benutzerzahlen zum Ausdruck, die Suchmaschinen wie Google und Co. aufweisen. Das bedeutet allerdings nicht, dass solche Suchmaschinen automatisch Suchergebnisse mit einer hohen Informationsqualität generieren. Vielmehr muss diagnostiziert werden, dass die gegenwärtigen Suchtechnologien die semantische Bedeutung von Suchanfragen nicht interpretieren können. Somit wird das Potenzial aller verfügbaren Inhalte im Internet, die zur Beantwortung einer Suchanfrage beitragen könnten, durch die bestehenden Technologien nicht annähernd ausgeschöpft. Erschwerend kommt hinzu, dass es regelmäßig zu Manipulationsversuchen kommt, um die Sortierung der Suchergebnisseiten zu beeinflussen. Vor diesem Hintergrund wird seit geraumer Zeit über das Potenzial semantischer Suchmaschinen diskutiert, die zu einer Verbesserung des Status quo beitragen sollen. Im Zuge der Diskussion dieser Suchmaschinen stellte sich jedoch heraus, dass sie den hohen Erwartungen nur bedingt gerecht werden. Dieser Umstand ist
169
B Methoden – Techniken – Tools – Regelwerke/Standards vor allem darauf zurückzuführen, dass bislang nur wenige Inhalte im Web mit semantischen Informationen angereichert sind. Gleichzeitig fehlt es an allgemein akzeptierten Ontologien. Semantische Suchmaschinen – die das gesamte Web abdecken – erscheinen insofern noch in weiter Ferne. Das bedeutet aber nicht, dass semantische Technologien keinen Mehrwert bieten. So wiegen die oben skizzierten Probleme in einem klar abgrenzbaren Bereich – z. B. innerhalb eines Unternehmens – weitaus weniger problematisch, da die Anwender hier in der Regel ein gemeinsames Grundverständnis über einen bestimmten Ausschnitt der Realität haben und gleichzeitig nur auf ausgewählte Informationen angewiesen sind. In so einem Kontext gestaltet sich der Prozess der Ontologieentwicklung wesentlich einfacher, da es nur bestimmte Themen abzudecken gilt und häufig auch nur bestimmte Inhalte ausgewertet werden müssen. Folglich haben semantische Suchmaschinen in abgegrenzten Bereichen durchaus das Potenzial, zu einer Verbesserung des Status quo bei der Informationsrecherche beizutragen.
Literaturverzeichnis >Berners-Lee et al. 2001@ Berners-Lee, T. / Hendler, J. / Lassila, O.: The Semantic Web. In: Scientific American 284, 2001, Heft 5, S. 34-43. >Diestelkamp & Birkenhake 2005@ Diestelkamp, E. / Birkenhake, B.: Die Semantic Web Ernüchterung. In: Magazin für Typo3 und Open Source Technologien, 2005. >Förster & Kreuz 2002@ Förster, A. / Kreuz, P.: Offensives Marketing im E-Business, Berlin, 2002. >Gruber 1995@ Gruber, T. R. (1995): Toward principles for the design of ontologies used for knowledge sharing. In: International Journal of Human-Computer-Studies, Vol. 43, 1995, Heft 5-6, S. 907-928. >Hansen & Neumann 2005@ Hansen, H. / Neumann, G.: Wirtschaftsinformatik 2, 9. Aufl., Stuttgart, 2005. >Ihlenfeld 2006@ Ihlenfeld, J.: Google setzt BMW vor die Tür. In: Golem – IT-News für Profis, URL: http://www.golem.de/0602/43155.html (Zugriff am 08.05.2007). >John 2006@ John, M.: Semantische Technologien in der betriebswirtschaftlichen Praxis, Berlin, 2006. >Lewandowski 2005@ Lewandowski, D.: Web Information Retrieval: Technologien zur Informationssuche im Internet, Frankfurt am Main, 2005. >Lewandowski 2006@ Lewandowski, D.: Aktualität als erfolgskritischer Faktor beim Suchmaschinenmarketing. In: Information, Wissenschaft und Praxis, 57. Jg., 2006, Heft 3, S. 41-48.
170
7 Suchmaschinen und Informationsqualität >Lexikon Suchmaschinenoptimierung 2006@ Lexikon Suchmaschinenoptimierung (2006), URL: http://www.lexikon-suchmaschinenoptimierung.de/k.htm (Zugriff am 08.05.2007). >Liu et al. 2005@ Liu, B. / Hu, M. / Cheng, J.: Opinion Observer: Analyzing and comparing opinions on the web. In: Proceedings of the 14th international World Wide Web conference, May 10-14, 2005, Chiba, Japan. >Maaß & Scherm 2007@ Maaß, C. / Scherm, E.: Suchmaschinen-Marketing – Ansatzpunkte und Stolpersteine. In: Das Wirtschaftsstudium 36. Jg. (2007), Nr. 6, S. 822825. >Machill & Welp 2003@ Machill, M. / Welp, C.: Wegweiser im Netz, Gütersloh, 2003. >Schulz et al. 2005@ Schulz, W. / Held, T. / Laudien, A.: Suchmaschinen als Gatekeeper in der öffentlichen Kommunikation, Düsseldorf, 2005. >Schuster & Rappold 2006@ Schuster, M. / Rappold, D.: Social Semantic Software – was soziale Dynamic im Semantic Web auslöst. In: Pellegrini, T. / Blumauer, A. (Hrsg.): Semantic Web – Wege zur vernetzten Wissensgesellschaft, Berlin, 2006, S. 189-199. >Struckenschmidt & van Harmelen 2005@ Struckenschmidt, H. / van Harmelen, F.: Information sharing on the semantic web, Berlin, 2005. >Ullrich et al. 2003@ Ullrich, M. / Maier, A. / Angele, J.: Taxonomie, Thesaurus, Topic Map, Ontologie – ein Vergleich, Ontoprise White Paper, Karlsruhe, 2003. >Wu et al. 2006@ Wu, X. / Zhang, L. / Yu, Y.: Exploring social annotations for the semantic web. In: Proceedings of the 15th International Conference on World Wide Web, New York, 2006, S. 417-426.
171
8 Bedeutung der Informationsqualität bei Kaufentscheidungen im Internet1 Dr. Gernot Gräfe Dr. Christian Maaß
8.1 Einleitung Bei Kauf- und Verkaufsentscheidungen ist das Internet eine bedeutende Informationsquelle für Anbieter und Nachfrager. Während Anbieter ihre Produkte und Dienstleistungen sehr gut kennen und dazu Informationen bereitstellen, sehen sich Nachfrager oft mit einem Informationsdefizit konfrontiert. Sie haben unvollständige Kenntnisse über die Anbieter, ihre Produkte, Preise und weitere Geschäftsbedingungen und informieren sich daher im Internet. Die unausgewogene Informationsverteilung zwischen beiden Parteien wird als Informationsasymmetrie bezeichnet >Kaas 1991, S. 360@, >Kleinaltenkamp 1992, S. 812@, >Rohrbach 1997, S. 49@. Einige Autoren gehen aufgrund der zunehmenden Internetpenetration und den damit verbundenen Zugangsmöglichkeiten zu Informationen von einer verbesserten Markttransparenz aus >Gampenrieder & Riedmüller 2001, S. 178, 181@, >Meffert 1999, S. 412@, >North 1999, S. 15@. Folgt man dieser These, müssten die Nachfrager im Internet nahezu vollständig informiert sein und das Risiko informationsbedingter Fehlentscheidungen wäre gering. Dieser These stehen jedoch aktuelle Beobachtungen zur Qualität der Informationen im Internet entgegen. Auf der Verkäuferseite kommt es z. B. zu Manipulationsversuchen. Durch Webseitenoptimierungen beabsichtigen Verkäufer möglichst viele potenzielle Nachfrager auf die eigene Webseite zu lenken [Maaß & Scherm 2007]. Ein Beispiel hierfür stellt der Automobilbauer BMW dar, der Anfang des Jahres 2006 aufgrund von Manipulationsversuchen aus dem Index der Suchmaschine Google gestrichen wurde. Mit ähnlichen Problemen werden auch Online-Händler konfrontiert. Bei Amazon kommt es immer wieder zu Manipulationen von Kundenrezensionen, um den Verkauf bestimmter Bücher positiv zu beeinflussen oder die Produkte von Konkurrenten zu diffamieren [Merschmann 2007]. Nachfrager suchen im Internet jedoch nach qualitativ hochwertigen Informationen, die zu einer guten Kaufentscheidung beitragen.
1
Beide Autoren führen Ihre Arbeiten zur Informationsqualität im Forschungsprojekt Theseus (Teilprojekt Alexandria) fort, das unter dem Förderkennzeichen 01MQ07014 vom BMWi gefördert wird.
172
8 Bedeutung der Informationsqualität bei Kaufentscheidungen im Internet Die tatsächliche Informationsqualität in einer Entscheidungssituation ergibt sich aus dem Verhalten der Informationsbereitsteller und -empfänger. Beide Parteien haben in diesem Zusammenhang einen großen Verhaltensspielraum. Insbesondere die Bereitsteller von Informationen können diesen Spielraum opportunistisch ausnutzen, um die Informationsasymmetrien zwischen ihnen und den Nachfragern zu erhöhen. Dies führt zu der grundlegenden Frage, inwieweit Informationen im Internet überhaupt Kaufentscheidungen unterstützen können, wenn die Anbieter von Informationen die Informationsqualität offenbar gezielt beeinflussen, um ihre eigenen Interessen durchzusetzen. Zur Beantwortung dieser Frage wird erörtert, anhand welcher Kriterien die Informationsqualität jeweils aus Sicht der Informationsbereitsteller und -empfänger zu beurteilen ist. Mit Hilfe der dabei identifizierten zwölf Informationsqualitätskriterien wird herausgestellt, inwieweit die Anbieter und Nachfrager die Informationsqualität beeinflussen können. Dies bietet eine konzeptionelle Grundlage, um die Besonderheiten des Internets beim Austausch von Informationen zwischen Anbietern und Nachfragern und damit dessen Potenzial zur Unterstützung von Kaufentscheidungsprozessen herauszuarbeiten.
8.2 Informationsqualität in Entscheidungsprozessen 8.2.1 Informationen und Kaufentscheidungen Informationen beeinflussen Entscheidungen. Unter Berücksichtigung des ökonomischen Prinzips beabsichtigen Akteure ihren Nutzen zu maximieren. Daraus ergibt sich für jede einzelne Entscheidung die Absicht, die bestmögliche Auswahl zu treffen. Als qualitativ hochwertig sollen somit die Informationen bezeichnet werden, die Entscheidungen verbessern. Es gilt daher den Zusammenhang zwischen Informationen und Entscheidungen zu betrachten (Abb. 1). Durch Interpretation wird eine aus Zeichen und Daten bestehende Nachricht zur Information. Durch die Einbindung der Information in den situativen Kontext, wird die Information zu einem Bestandteil des Wissens. Auf der Grundlage des Wissens trifft der Akteur eine Entscheidung, deren Ergebnis ein gewisser Nutzen ist. In der Theorie sind vollkommene Märkte denkbar, in denen alle Parteien vollkommen informiert sind. In der Praxis sind unvollkommene Märkte die Regel. Sie sind daran zu erkennen, dass wegen unvollkommener Informationsübertragung für homogene Güter unterschiedliche Preise oder für Güter mit unterschiedlichen Qualitäten gleiche Preise bezahlt werden [Hopf 1983, S. 61]. Als Ursache werden Probleme bei der Bewertung von Leistungsunterschieden betrachtet. Dabei handelt es sich um Informationsasymmetrien zwischen Anbietern und Nachfragern, die auch durch den oben idealtypisch skizzierten Informations- und Entscheidungsprozess nicht kompensiert werden können. Die Informationsasymmetrie ist in Abhängigkeit von den Eigenschaften der gehandelten Leistung unterschiedlich groß. In diesem Zusammenhang werden Such-, Erfahrungs- und Vertrauenseigenschaften einer Leistung unterschieden [Nelson 1970], [Nelson 1974, S. 730], [Darby
173
B Methoden – Techniken – Tools – Regelwerke/Standards & Karni 1973, S. 68f.]. Basis dieser Eigenschaftstypologie ist die Frage, zu welchem Zeitpunkt und in welchem Umfang die Bewertung der Leistungsmerkmale durch Kunden möglich ist bzw. von diesen vorgenommen wird. Die Sucheigenschaften einer Leistung sind vor dem Kauf feststellbar. Folglich kann ein potenzieller Kunde die Sucheigenschaften eines Kaufgegenstandes durch Inspektion selbstständig feststellen und Informationen des Anbieters zu diesen Eigenschaften überprüfen. Es besteht keine Informationsasymmetrie zwischen Anbieter und Nachfrager, wenn, und dabei handelt es sich um einen theoretischen Grenzfall, ein Gut ausschließlich durch Sucheigenschaften gekennzeichnet ist und der Nachfrager alle relevanten Informationen durch eine Inspektion des Kaufgegenstandes gewinnt. Sucheigenschaften sind z. B. die Qualität eines Stoffs oder die Stabilität eines Möbelstücks. So genannte Erfahrungseigenschaften einer Leistung lassen sich erst während oder nach der Nutzung beurteilen. Zeitlich gesehen erfolgt diese Feststellung erst nach dem Vertragsschluss. Falls eine Leistung ausschließlich durch Erfahrungseigenschaften gekennzeichnet ist, kann ein potenzieller Nachfrager vor einem Kauf keine eigenen Informationen sammeln. Erfahrungseigenschaften sind z. B. die Haltbarkeit eines Produktes oder der Geschmack eines Essens. Ausprägungen von Vertrauenseigenschaften sind vor und nach Vertragsschluss und Nutzung nicht oder nur zu prohibitiv hohen Kosten feststellbar. Aus diesem Grund können Nachfrager diese Leistungseigenschaften weder selbst ermitteln, noch Informationen über diese Eigenschaften überprüfen. Eine Vertrauenseigenschaft ist z. B. die Angabe eines Herstellers von Lebensmitteln, dass alle Zutaten aus biologischem Anbau stammen. Bereitsteller: - Form d. Bereitstellung Empfänger: - Zugriffsmöglichkeit - Interpretation
Nachricht (Zeichen&Daten)
Empfänger: - Neuigkeit - Glaubwürdigkeit
Bereitsteller: - Zeitpunkt d. Bereitstellung - Aktualität Empfänger: - Zeitpunkt des Zugriffs - Inhaltliche Relevanz
Information
Wissen
Bereitsteller: - Wahrheit des Informationsinhalts - Informationsumfang Empfänger: - Informationswert
Entscheidung
Nutzen
Abb. 1: Informations- und Entscheidungsprozess
8.2.2 Informationsqualitätskriterien Ausgangspunkt für die Herleitung von Informationsqualitätskriterien ist der vorgestellte Prozess aus Nachricht, Information, Wissen, Entscheidung und Nutzenstiftung der Entscheidung (Abb. 1). Damit eine Information zur Verbesserung einer Kaufentscheidung beitragen kann, muss dieser Prozess als Interaktion zwischen Anbieter und Nachfrager komplett durchlaufen werden. Demnach ist zur Identifizierung von Kriterien, die für die Informationsqualität Bedeutung haben, auf jeder Prozessstufe nach Merkmalen zu suchen, die für einen effektiven und effizienten
174
8 Bedeutung der Informationsqualität bei Kaufentscheidungen im Internet Ablauf erforderlich sind. Diese Merkmale sind in Abb. 1 aufgeführt. Sie sind intuitiv verständlich und plausibel zu begründen.2 Von der Nachricht zur Information: Damit der Informations- und Entscheidungsprozess zwischen einem Anbieter im Internet und einem potentiellen Nachfrager reibungslos verläuft, muss der Anbieter eine aus Zeichen und Daten bestehende Nachricht bereitstellen. Die Form der Bereitstellung ist ein bedeutsames Informationsqualitätskriterium, weil sich der Inhaber einer Information eben auch dafür entscheiden kann, bestimmte Informationen nicht oder nur eingeschränkt z. B. für bestimmte Benutzergruppen bereitzustellen. Die Bereitstellung von Informationen ist im Internet vergleichsweise günstig und technisch problemlos zu realisieren. Der potentielle Nachfrager muss eine Zugriffsmöglichkeit auf diese Nachricht haben. Hat der Nachfrager einen Internetzugang, so ist der infrastrukturelle Zugang zu Informationen im Internet einfach und günstig. Dies gilt besonders im Vergleich zu papierbasierten Informationsträgern. Einschränkungen gibt es eventuell durch Serverprobleme und falsche Links. Das größte Zugriffsproblem erwächst allerdings aus der erforderlichen Suche, wenn ein Nachfrager nicht weiß, wo eine bestimmte Information zu finden ist. Der Entscheider kann dann mit Suchmaschinen nach gewünschten Informationen suchen, wird aber sicherlich nicht alle zur Verfügung stehenden Informationen finden [Rese & Gräfe 2002, S. 334f.]. Außerdem können bei eingeschränkter Bereitstellung fehlende Zugriffsrechte dazu führen, dass Nutzer zu bestimmten Informationen keinen Zugang haben. Des Weiteren muss die Nachricht für den Nachfrager verständlich sein, sodass sie durch Interpretation tatsächlich zur Information wird. Dies macht deutlich, dass es für den Einsatz einer Information im Entscheidungsprozess von Bedeutung ist, dass eine Nachricht den Bedürfnissen und Fähigkeiten des Verwenders entspricht [Augustin 1990, S. 62]. In dieser Hinsicht bietet die Informationsbereitstellung im Internet gute Möglichkeiten, um auf die individuellen Bedürfnisse einzugehen. Dazu trägt bei, dass das Internet im Vergleich zu anderen Medien eine Vielzahl von Darstellungsmöglichkeiten erlaubt und integrieren kann (z. B. grafische Animationen, Filme, Links zu anderen Seiten). Von der Information zum Wissen: Damit die Information zum Wissen des Informationsempfängers beiträgt, muss die Information eine Neuigkeit für den Empfänger sein. Der (Neuheits-)Wert einer Information ergibt sich aus dem Grad der Abweichung vom Erwarteten [Rost 1989, S. 30]. Darüber hinaus muss einem Nachfrager eine Information glaubwürdig erscheinen, damit er diese bei der Entscheidungsfindung berücksichtigt [Wathen & Burkell 2002, S. 134], [Bovee et al. 2001, S. 315]. Für die Abwägung der Glaubwürdigkeit sind
2
Zu einer ausführlichen Herleitung und Diskussion der folgenden Informationsqualitätskriterien [Gräfe 2005, S. 21-40].
175
B Methoden – Techniken – Tools – Regelwerke/Standards sehr viele Kriterien denkbar (Kap. 8.3.2). Unglaubwürdige Informationen werden von den Informationsempfängern im Entscheidungsprozess nicht berücksichtigt. Vom Wissen zur Entscheidung: Damit das Wissen auch tatsächlich zur Entscheidungsfindung beitragen kann, muss der Zeitpunkt der Bereitstellung einer Information durch den Anbieter vor der Entscheidung des Nachfragers liegen. Zudem muss das Kriterium der Aktualität erfüllt sein. Die Aktualität bezieht sich auf die zeitliche Differenz zwischen der Informationsbeschreibung und dem Zeitpunkt, zu dem die Information zur Verfügung steht. Die Differenz darf in Abhängigkeit von der Entscheidungssituation nicht zu groß sein, damit die Information einen Beitrag zur Entscheidungsfindung leisten kann [Augustin 1990, S. 59]. Eine nicht aktuelle Nachricht könnte zu einer Fehlentscheidung beitragen. Der Nachfrager muss die Möglichkeit nutzen, vor der Entscheidung auf die verfügbaren Informationen zuzugreifen. Nur wenn der Zeitpunkt des Zugriffs so gewählt ist, kann die Information zu einer besseren Entscheidungsfindung beitragen. Das Kriterium der inhaltlichen Relevanz bewertet, ob eine Information das Potenzial hat, eine Entscheidung zu beeinflussen. Damit das um eine Information erweiterte Wissen einen Beitrag zur Entscheidungsfindung leisten kann, muss die Information für den Nutzer relevant sein [Augustin 1990, S. 58], [Snavely 1967, S. 227]. Von der Entscheidung zum Nutzen: Damit eine Entscheidung unter Berücksichtigung einer Information zu einem höheren Nutzen führt, muss das Kriterium der Wahrheit des Informationsinhalts erfüllt sein. Nur korrekte Informationen können die Entscheidungsqualität verbessern [Caldwell & O’Reilly 1983, S. 200]. Wahrheit wird an der Realität geprüft. Informationen, die nicht der Realität entsprechen, werden als falsch bezeichnet. Bei der Erörterung der Glaubwürdigkeit wurde das Kriterium der Wahrheit bewusst nicht berücksichtigt. Eine Nachricht muss nicht unbedingt richtig sein, um von Empfängern derselben als wahr empfunden, geglaubt und dann auch Bestandteil des Wissens zu werden. Daraus folgt, dass das Wissen, also die Summe der Vorstellungsinhalte, nicht unbedingt wahr sein muss. Der Nachfrager muss es ‚nur’ für wahr halten [Picot et al. 2001, S. 119f.], [Scheuble 1998, S. 12-14]. Als Informationsempfänger wird der Nachfrager häufig nicht prüfen können, ob eine Information tatsächlich wahr ist oder nicht. Trotzdem ist die Wahrheit einer Information ein wichtiger Aspekt der Informationsqualität. Es gibt zur Kategorie der Wahrheit mehrere philosophische Ansätze. Gemäß der hier verwendeten Korrespondenztheorie der Wahrheit ist etwas wahr, wenn es dem entspricht oder mit dem übereinstimmt, über das eine Aussage getroffen wird [Russel 1966, S. 289], [Scheuble 1998, S. 12, FN 6]. Es wird somit gefordert, dass die Erkenntnis mit dem Erkenntnisobjekt korrespondiert.
176
8 Bedeutung der Informationsqualität bei Kaufentscheidungen im Internet Zudem muss der Anbieter umfangreich über alle vermeintlich relevanten Eigenschaften informieren. Mit Informationsumfang ist nicht nur die Menge der bereitgestellten Informationen gemeint. Vielmehr wird erfasst, ob Informationsbereitsteller beabsichtigen, umfassend über alle vermutlich relevanten Sachverhalte zu informieren. Nicht umfassend informieren bedeutet, dass bewusst Informationen über Mängel verschwiegen werden. Genau in diesem Hinterfragen der Informationsabsicht liegt der Unterschied zum Kriterium Bereitstellung. Letzteres bezeichnet lediglich die Entscheidung über Informationsbereitstellung an sich. Taylor nennt dieses Informationsqualitätskriterium „comprehensiveness“ [Taylor 1986, S. 63]. Verhaltenswissenschaftliche Untersuchungen haben ergeben, dass gezieltes Nichtbereitstellen von bestimmten Informationen Fehlentscheidungen der Nachfrager auslösen können, durch die der unvollständig informierende Anbieter profitiert [Kivetz & Simonson 2000], [Slovic & MacPhillamy 1974]. Als letztes Kriterium ist der Informationswert zu betrachten. „Da Information ein knappes Gut ist, sollte ihre Verwendung ökonomisch rational erfolgen“ [Picot et al. 2001, S. 69]. Für die Nachfrager sollte demnach der Nutzen einer zusätzlichen Information größer sein als die damit verbundenen Kosten. Mit Informationsnutzen wird die Veränderung des Zielerreichungsgrades bezeichnet, die durch die Berücksichtigung einer zusätzlichen Information bei der Entscheidungsfindung herbeigeführt werden kann [Marschak 1960, S. 80], [Wild 1971, S. 322f.]. Informationskosten entstehen durch die Suche, Beschaffung und Verwendung (Speicherung, Verarbeitung, Übermittlung) von Informationen im Vorfeld einer Entscheidungsfindung [Kortzfleisch 1973, S. 555]. Es sind pagatorische Kosten, aber auch Zeit, Mühe und Opportunitätskosten aus denen sich die Informationskosten zusammensetzen [Kaas 1991, S. 358]. Übersteigt der Informationsnutzen die Informationskosten ergibt sich ein positiver Informationswert. Wären die Informationskosten dagegen größer als der -nutzen (d. h. negativer Informationswert), dann hätte der Informations- und Entscheidungsprozess dazu beigetragen, dass die Nachfrager ein geringeres Nutzenniveau durch ihre Entscheidung realisieren.
8.3 Ursachen mangelnder Informationsqualität im Internet 8.3.1 Opportunistische Verhaltensspielräume der Anbieter Die hergeleiteten Informationsqualitätskriterien lassen sich entweder von den informationsbereitstellenden Anbietern (Tab. 1) beeinflussen oder betreffen die Qualitätswahrnehmung der informationsempfangenden Nachfrager (Tab. 2). In Tab. 1 sind die Kriterien aufgelistet, die durch Bereitsteller beeinflusst werden. Für jedes Kriterium sind dort zudem die Ausprägungen aufgeführt, die das jeweilige Merkmal annehmen kann. Die Sortierung der Ausprägungen orientiert sich daran, ob Bereitsteller ihre Nachfrager tatsächlich informieren oder eher täuschen.
177
B Methoden – Techniken – Tools – Regelwerke/Standards Anbieter entscheiden über die Form der Bereitstellung von Informationen. Sie bestimmen inwiefern sie Informationen allgemein, eingeschränkt oder nicht bereitstellen. Im Internet ist es einfach möglich, Informationen allgemein zugänglich oder aber eingeschränkt bereitzustellen. Eine Einschränkung erfolgt beispielsweise, wenn der Zugang zu bestimmten Informationen durch Passwörter geschützt ist. Die unüberschaubar große und weiter wachsende Menge an Informationen im Internet unterstreicht die grundsätzliche Bereitschaft der Nutzer zur Informationsbereitstellung. Neben vergleichsweise geringen Kosten für die Präsentation von Informationen im Internet sind die Multimedialität und die globale Präsenz weitere Eigenschaften der Informationsbereitstellung im Internet. Je größer ein Anbieter die Wahrscheinlichkeit einschätzt, mit dem Informationsangebot neue Kunden zu gewinnen, desto mehr wird dieser Anbieter in seinen Internetauftritt investieren. Tab. 1: Informationsqualitätskriterien der Anbieter und ihre Ausprägungen IQ-Kriterien d. Anbieter Form der Bereitstellung Zeitpunkt der Bereitstellung Aktualität Wahrheit des Informationsinhalts Informationsumfang
Verhaltensmöglichkeiten der Anbieter (Informationsbereitsteller) allgemein vor der Ent. allgemein
eingeschränkt
keine keine
vor der Ent. nach der Enteingeschränkt scheidung
aktuell
aktuell u. nicht aktuell
nicht aktuell
wahr u. beab- wahr u. beab- wahr u. beabsichtigt inter- sichtigt nicht sichtigt falsch pretierbar interpretierinterpretierbar bar umfassend/ ausgewogen
falsch
nicht umfassend/ einseitig
Die Bereitstellungsentscheidung umfasst auch den Zeitpunkt der Bereitstellung von Informationen. Anbieter können sich dafür entscheiden, bestimmte Informationen erst dann bereitzustellen, wenn die Nachfrager bereits ihre Kaufentscheidungen getroffen haben. Beabsichtigen Anbieter Informationen schnellstmöglich bereitzustellen, so ist das Internet dafür ein gutes Medium. Bereitgestellte Informationen sind binnen Sekunden weltweit verfügbar. Deshalb dürfte auch die Aktualität der verfügbaren Informationen zumindest technisch keine Probleme bereiten. Die Geschwindigkeit der Informationsverbreitung im Internet erlaubt eine hohe Aktualität der verfügbaren Informationen. Trotzdem lassen sich dort sehr viele veraltete Informationen finden [Kuri 2004]. Anbieter können grundsätzlich aktuelle und veraltete Informationen bereitstellen. Sie haben
178
8 Bedeutung der Informationsqualität bei Kaufentscheidungen im Internet die Möglichkeit veraltete Informationen durch aktuelle auszutauschen oder aber von vorn herein nur veraltete Informationen anzubieten. Erschwerend kommt hinzu, dass die Feststellung der Aktualität einer Internetseite oftmals schwieriger ist als bei traditionellen Informationsquellen, da bereits das Veröffentlichungsdatum häufig nicht erkennbar ist [Alexander & Tate 1999, S. 14@, >Kuri 2004]. Das Kriterium Wahrheit des Informationsinhalts bietet für Anbieter einen großen opportunistischen Handlungsspielraum. Sie können wahr und beabsichtigt interpretierbar aber auch wahr und beabsichtigt nicht interpretierbar informieren. Letzteres würde bedeuten, dass z. B. bestimmte Informationen im Kleingedruckten versteckt werden. Wahr und beabsichtigt falsch interpretierbar zu informieren kann z. B. durch die Informationsdarstellung erreicht werden. Experimente zeigen, dass der objektiv gleiche Sachverhalt allein durch die Darstellungsweise sehr unterschiedlich wahrgenommen werden kann [Tversky & Kahneman 1974, S. 1128f.]. Es handelt sich nicht um individuelle, sondern um systematische Wahrnehmungsverzerrungen [Tversky & Kahneman 1981, S. 457]. Diese so genannten FramingEffekte können Anbieter vorhersehen und deshalb zu ihrem Vorteil einsetzen [Bell et al. 1988, S. 15]. Somit können sie richtig informieren, aber gleichzeitig das Ziel verfolgen, dass Nachfrager diese Informationen falsch interpretieren und eine Fehlentscheidung treffen. Als letzte Verhaltensmöglichkeit können die Anbieter falsch informieren. Kommt es zur Bereitstellung von falschen Informationen, verbinden Anbieter damit die Hoffnung, im Vergleich zu anderen Wettbewerbern für die Nachfrager als der vorteilhaftere Transaktionspartner zu erscheinen. Dieser potenzielle Vorteil ist den Gefahren und Konsequenzen einer möglichen Entdeckung gegenüberzustellen. Konsequenzen entstehen dann, wenn Nachfrager falsche Informationen erkennen sollten und sich deshalb gegen eine Transaktion mit dem Anbieter entscheiden und ihre Entdeckung eventuell sogar anderen Nachfragern mitteilen. Möglicherweise stellen sich auch rechtliche Konsequenzen ein. Immerhin gibt es rechtliche Vorschriften für die Informationsbereitstellung im traditionellen Handel und auch im Internet. Informationen sind im Internet jedoch flüchtig und leicht austauschbar [Alexander & Tate 1999, S. 16]. Deshalb ist es schwierig, die Bereitstellung von falschen Informationen zu beweisen, wenn Anbieter in der Zwischenzeit die Internetseiten geändert haben.3 Darüber hinaus können Anbieter im Internet umfassend und ausgewogen oder aber nicht umfassend und einseitig informieren. Mit dem Informationsumfang 3
Häufige Fehler bei der Informationsbereitstellung von Onlinehändlern betreffen fehlende oder unvollständige nachvertragliche Informationen [Lau 2003]. Ein Test bei acht bekannten Onlinehändlern und vier Versand- und Kaufhäusern zeigte, dass alle Anbieter z. B. bei der Informationsbereitstellung im Internet gegen Vorschriften des Gesetzes zur Regelung des Rechts der Allgemeinen Geschäftsbedingungen verstießen [Stiftung Warentest 2003, S. 57]. Solche Vergehen sind die Grundlage für Abmahnungen, die nach einer aktuellen Umfrage zum Alltag der Shopbetreiber gehören [Trusted Shops 2007].
179
B Methoden – Techniken – Tools – Regelwerke/Standards nehmen Anbieter zusätzlich Einfluss auf das Entscheidungsverhalten der Nachfrager. Anbieter werden über die Merkmale ihres Angebotes, bei denen sie Vorteile im Wettbewerb vermuten, möglichst umfassend informieren. Bei Merkmalen, die für einen Anbieter im Vergleich mit Wettbewerbern eher einen Nachteil darstellen, wird dieser vermutlich keine oder nur wenige Informationen zur Verfügung stellen. Durch dieses Informationsverhalten können die Anbieter großen Einfluss auf das Entscheidungsverhalten der Nachfrager nehmen [Kivetz & Simonson 2000, S. 443f.], [Slovic & MacPhillamy 1974]. Zusammenfassend können zwei Fälle unterschieden werden: Anbieter mit Informationsabsicht wollen im Sinne einer ehrlichen Informationsbereitstellung interpretierbare und wahre Informationen allgemein zugänglich zur Verfügung stellen. Hingegen beabsichtigen Anbieter durch falsche, nicht aktuelle oder keine Informationsbereitstellung Desinformation. Sie versuchen durch die Zurückhaltung von Informationen oder die Bereitstellung von falschen Informationen Vorteile zu erlangen.
8.3.2 Informationsqualität aus der Nachfragerperspektive In Tab. 2 sind die Informationsqualitätskriterien aufgeführt, die die Qualitätswahrnehmung der Nachfrager beeinflussen. Jedes Kriterium kann unterschiedliche Ausprägungen annehmen. Links bzw. rechts stehen jeweils die Ausprägungen, die in der Wahrnehmung der Nachfrager die Informationsqualität hoch bzw. gering erscheinen lassen. Das Kriterium der Glaubwürdigkeit hat in der Tab. 2 die größte Bedeutung. Dieses Kriterium ist eine Art Filter, mit dem sich Nachfrager vor dem Einfluss von falschen Informationen schützen. Bei Sucheigenschaften ist die Gefahr von falschen Informationen über diese Eigenschaften gering, da die Nachfrager die Gütereigenschaften vor dem Kauf überprüfen können. Glaubwürdigkeit ist immer dann wichtig, wenn Nachfrager die Richtigkeit einer Information nicht selbstständig verifizieren können. Mangelnde Glaubwürdigkeit betrifft daher hauptsächlich Informationen über Erfahrungs- und Vertrauenseigenschaften einer Leistung. Nachfrager können falsche Informationen über Erfahrungseigenschaften erst nach dem Kauf erkennen. Falsche Informationen über Vertrauenseigenschaften werden selbst nach dem Kauf nicht aufgedeckt. Herausgefilterte unglaubwürdige Informationen werden von Nachfragern nicht berücksichtigt und nehmen deshalb keinen Einfluss auf das Entscheidungsverhalten [Wathen & Burkell 2002, S. 134]. Die Bewertung von Informationen und deren Glaubwürdigkeitsbeurteilung ist schwierig, da Informationen selbst den Charakter von Erfahrungseigenschaften haben [Bacharach & Board 2000, S. 5], [Hopf 1983, S. 75], [Picot et al. 2001, S. 69]. Beispielsweise stellt sich oft erst nach einer Entscheidung heraus, ob die dabei verwendeten Informationen qualitativ hochwertig waren oder aber zu einer Fehlentscheidung beigetragen haben.
180
8 Bedeutung der Informationsqualität bei Kaufentscheidungen im Internet Tab. 2: Informationsqualitätskriterien der Nachfrager und ihre Ausprägungen IQ-Kriterien d. Nachfrager Zugriffsmöglichkeit
Verhaltensmöglichkeiten der Nachfrager (Informationsempfänger) Zugriff
kein Zugriff
Zeitpunkt des Zugriffs
Zugriff vor der Entscheidung
Zugriff nach der Entscheidung
kein Zugriff
Interpretation
richtig
falsch
keine
vollkommen neu
bestätigend oder widersprüchlich
vollkommen bekannt
Neuigkeit
glaubwürdig
nicht glaubwürdig
Inhaltliche Relevanz
inhaltlich relevant
inhaltlich nicht relevant
Informationswert
positiv (Nutzen > Kosten)
negativ (Nutzen < Kosten)
Glaubwürdigkeit
Als konkrete Kriterien zur Beurteilung der Glaubwürdigkeit einer Information werden Thema, Inhalt, Titel, Konsistenz, interne Validität, Plausibilität der Argumente und die Argumentation mit Zahlen und Beispielen genannt [Rieh 2002, S. 154], [Wathen & Burkell 2002, S. 136]. Mit steigender Expertise des informationsempfangenden Nachfragers zu einem bestimmten Thema, steigt die Wahrscheinlichkeit und Fähigkeit Informationen fachlich begründet als (nicht) glaubwürdig zu bewerten [Olaisen 1990, S. 94], [Tseng & Fogg 1999, S. 43]. Bei Texten sind z. B. Autor, Verlag und das Wissen über Rezensionsprozesse entsprechende Merkmale zur Beurteilung [Olaisen 1990, S. 95@, >Rieh 2002, S. 146]. In einer anderen Untersuchung wird festgestellt, dass die Merkmale Herkunft, Objektivierbarkeit, Generierungsmodus, Form, Alter und Zeitbezug Einfluss auf die Akzeptanz- bzw. Glaubwürdigkeitsbeurteilung haben [Grotz-Martin 1983, S. 154-171]. Wichtige Merkmale einer Informationsquelle im Internet sind Art der URL Domäne, Art und Reputation der Quelle und Ansehen des Autors [Rieh 2002, S. 154]. Allerdings ist es im Internet oft schwierig herauszufinden und zu überprüfen, wer der Autor eines bestimmten Dokuments ist [Alexander & Tate 1999, S. 7, 11]. Häufig wird der Autor eines Dokuments nicht genannt. Das Gleiche gilt für die Identität der Betreiber einer Webseite und die Absichten ihrer Informationsbereitstellung [Alexander & Tate 1999, S. 18, 26]. Dies erhöht die Unglaubwürdigkeit der Informationen im Internet, da Nachfrager nicht überprüfen können, ob bestimmte Informationen herstellerunabhängig sind. Die Diskussion des Kriteriums Glaubwürdigkeit zeigt, wie schwierig dieses für informationssuchende Nachfrager zu bewerten ist. Für sie
181
B Methoden – Techniken – Tools – Regelwerke/Standards besteht die Gefahr von Fehleinschätzungen. Bei den verbleibenden Informationsqualitätskriterien der Nachfragerperspektive sind die Handlungsspielräume für die Informationsempfänger kleiner. Aus diesem Grund ist auch die Gefahr von Fehlverhalten im Umgang mit diesen Kriterien geringer. Die Zugriffsmöglichkeit auf eine Information und auch der Zeitpunkt des Zugriffs vor der Entscheidung sind Kriterien, die erfüllt sein müssen, damit Informationen im Entscheidungsprozess berücksichtigt werden können. In Abhängigkeit davon, welche Informationen insgesamt zur Verfügung stehen, wird die Menge der zugreifbaren Informationen variieren. In Bezug auf die Interpretation ist fraglich, ob Informationsverwender die verfügbaren Informationen richtig interpretieren. Es besteht die Möglichkeit, dass Anbieter gezielt versuchen, Fehlinterpretationen durch die Art der Informationsbereitstellung hervorzurufen. Bekannt sind im Internet z. B. die Angebote von Originalverpackungen ohne Inhalt bei eBay. Dabei soll durch die Formulierung oder ausschließlich durch die Verwendung von OVP als Abkürzung zusätzlich zur Produktbezeichnung beim Käufer der Eindruck entstehen, dass es sich um einen originalverpackten Artikel handelt. Tatsächlich wird aber nur die Verpackung angeboten [Kossel 2004, S. 91], [Mielke 2004, S. 98]. Beim Merkmal der Neuigkeit besteht nicht die Gefahr, dass sich Informationsempfänger falsch verhalten. Sofern eine Information neue Aspekte beinhaltet, könnte es vorteilhaft sein, diese Information bei der Entscheidungsfindung zu berücksichtigen. Beinhaltet die Information dagegen keine neuen Aspekte, kann sie vernachlässigt werden. Eine Bewertung des Kriteriums inhaltliche Relevanz sollte sich an den Nutzenvorstellungen der Nachfrager orientieren. Durch eine hohe Bedeutung in der Nutzenvorstellung erhält eine bestimmte Eigenschaft eines Produktes bzw. die Information darüber ihre Relevanz in der Entscheidungssituation. Nur relevante Informationen sollten bei der Entscheidungsfindung berücksichtigt werden. Eine experimentelle Studie kommt zu diesem Ergebnis: Informationen mit sinkender Relevanz haben abnehmenden Einfluss auf die Beurteilung von Alternativen, sodass von einer Diskontierung der irrelevanten Informationen gesprochen werden kann [Beach et al. 1978, S. 6-9, 13].4 Andere Studien zeigen allerdings, dass vorhandene irrelevante Informationen in einer Entscheidungssituation die Entscheidungsqualität verringern können [Manis et al. 1978] und dass kein positiver Zusammenhang von Informationsrelevanz und Entscheidungsqualität besteht [Streufert 1973, S. 225]. Porat & Haas finden dagegen einen solchen positiven Zusammenhang 4
Dieses kann als Hinweis verstanden werden, dass inhaltliche Relevanz auf einem Kontinuum zwischen relevant und nicht relevant abgebildet werden sollte. Die dichotome Unterscheidung zwischen „relevant“ und „nicht relevant“ in Tab. 2 ist demnach eine starke Vereinfachung.
182
8 Bedeutung der Informationsqualität bei Kaufentscheidungen im Internet zwischen relevanten Informationen und der Entscheidungsqualität [Porat & Haas 1969, S. 102]. Diese unterschiedlichen Ergebnisse können auf Schwierigkeiten bei der Verarbeitung einer erhöhten Menge von relevanten Informationen in unterschiedlichen Entscheidungssituationen zurückgeführt werden. Hinweise auf die große Informationsmenge im Internet sind in Bezug auf die Relevanz differenziert zu bewerten. Die reine Informationsmenge lässt nicht darauf schließen, inwieweit mit der Menge automatisch die Anzahl der relevanten Informationen wächst. Die inhaltliche Relevanz kann im Internet durch kundenindividuelle (Informations-) Angebote erhöht werden. Diese Personalisierung von Informationen wird durch die Zwei-Wege-Kommunikation im Internet möglich [Dastani 1998, S. 233], [Merz 1999, S. 98], [Shapiro & Varian 1999, S. 34]. Oftmals können Nutzer eigene Profile anlegen und dort ihre Interessen eintragen, um dann zukünftig Informationen zu diesen Themen zu erhalten. Darüber hinaus kann der Nutzer selbstständig im Internet navigieren, um gezielt nach relevanten Informationen zu suchen. Allerdings wurde bereits darauf hingewiesen, dass das Finden von relevanten Informationen Schwierigkeiten bereitet. Abschließend ist das Kriterium Informationswert aus der Perspektive der Nachfrager zu interpretieren. Ein positiver Informationswert entsteht, wenn die Kosten der Informationsbeschaffung geringer sind als der Nutzenzuwachs durch die Berücksichtigung einer Information bei der Entscheidungsfindung. Allerdings ist eine Bewertung des Informationswertes bereits vor der eigentlichen Informationsnutzung kaum möglich. Für das Internet wird festgestellt, dass die Informationskosten sinken [Biswas 2004, S. 727]. Dadurch werden Nachfrager im Internet mehr Informationen beschaffen und bei ihren Entscheidungen berücksichtigen. Allerdings wächst mit der Größe der verfügbaren Informationsmenge tendenziell die Schwierigkeit, Informationen zu identifizieren, die alle zuvor genannten Qualitätskriterien erfüllen [Morehead & Rouse 1985, S. 392], [Ruthven et al. 2003]. Dadurch kann selbst bei sinkenden Informationskosten im Internet nicht davon ausgegangen werden, dass die Informationsbeschaffung kostenlos ist. Die Diskussion der einzelnen Kriterien macht deutlich, dass insbesondere das Kriterium der Glaubwürdigkeit für die Qualitätsbeurteilung der Nachfrager wichtig ist. Der nächste Abschnitt wird zeigen, dass diese Feststellung zusätzliche Bedeutung erhält, weil gerade bei der Informationsbereitstellung im Internet ein Glaubwürdigkeitsdefizit festzustellen ist.
183
B Methoden – Techniken – Tools – Regelwerke/Standards
8.3.3 Gründe für Opportunismus im Internet 8.3.3.1 Das strategische Kalkül der Anbieter Als Bestandteil ihrer Vertriebsaktivitäten werden Anbieter Informationen bereitstellen. Sie müssen sich in den entsprechenden Käufermärkten bekannt machen und als möglichst attraktive Transaktionspartner darstellen [Kleinaltenkamp 1992, S. 818], [Raffée 1969, S. 105], [Hilke 1989, S. 39], [Nelson 1974, S. 729]. Das Ziel der Informationsbereitstellung ist der Abschluss einer Transaktion. Anbieter werden mit gezielter Informationsgabe versuchen, die Kaufentscheidung der Konsumenten zu beeinflussen, um den eigenen Erfolg zu erhöhen [Kivetz & Simonson 2000, S. 428f.]. Bestehende Informationsdefizite der Nachfrager sind in diesem Zusammenhang für die meisten Anbieter von Vorteil. Überwiegend sind Anbieter nicht an vollständiger Markttransparenz interessiert, was besonders für solche gilt, die im direkten Leistungsvergleich mit anderen Wettbewerbern unterlegen sind [Raffée 1969, S. 105f.]. Im Wettbewerb wird nur der Anbieter mit dem objektiv besten Angebot an vollständiger Markttransparenz interessiert sein. Im Rahmen der Informationsgabe entscheiden die Anbieter darüber, welche Informationen sie zur Verfügung stellen. Anbieter werden Vor- und Nachteile verschiedener Informationsstrategien abwägen, um die für sich nutzenmaximierende Alternative auszuwählen. Bei der Informationsbereitstellung ist vor dem Hintergrund einer asymmetrischen Informationsverteilung mit opportunistischem Verhalten der Anbieter gegenüber den Nachfragern zu rechnen [Kaas 1991, S. 358], [Kaas 1992, S. 889f.].5 Bei asymmetrischer Informationsverteilung können Anbieter darauf hoffen, dass opportunistisches Verhalten von den schlechter informierten Nachfragern nicht erkannt wird. Konkret bedeutet dies, dass für Anbieter ein Anreiz bestehen kann, falsch zu informieren [Hopf 1983, S. 76] bzw. Informationen schlechter Qualität bereitzustellen. Wegen der grundsätzlichen Beobachtbarkeit von Sucheigenschaften besteht in Bezug auf diese Eigenschaften zwischen Anbietern und Nachfragern keine unüberwindbare Informationsasymmetrie. Nachfrager können grundsätzlich alle Informationen einholen, die sie über Sucheigenschaften benötigen, wobei dies im Internet nur für digitalisierbare Sucheigenschaften gilt. Möglicherweise beschaffen Nachfrager auf Grund von Informationskosten nicht alle inspizierbaren Informationen. Daraus resultiert zwar eine Informationsasymmetrie, die aber von Anbietern nur schwer opportunistisch ausgenutzt werden kann. Es ist für Anbieter schwer mit Sicherheit vorherzusehen, welche Informationen Nachfrager beschaffen und wo möglicherweise Informationsasymmetrien entstehen. Deshalb ist nicht zu erwarten, dass Anbieter über Sucheigenschaften falsch informieren. Die Gefahr der Aufdeckung 5
Opportunistisches Verhalten bedeutet, dass ein Akteur seine eigenen Interessen mit List und Tücke verfolgt [Williamson 1985, S. 47].
184
8 Bedeutung der Informationsqualität bei Kaufentscheidungen im Internet wäre zu hoch und würde eher zum Nachteil der Anbieter sein [Ford et al. 1990, S. 434], [Nelson 1974, S. 730]. Bei Erfahrungseigenschaften besteht vor dem Kauf eine Informationsasymmetrie zwischen Anbietern und Nachfrager, die sich erst durch die Überprüfung nach der Transaktion reduziert. Bei Vertrauenseigenschaften bleibt diese Informationsasymmetrie auch nach dem Kauf bestehen. Demnach würde eine opportunistische Informationsbereitstellung der Anbieter von den Nachfragern erst nach dem Kauf bzw. überhaupt nicht erkannt. Vor diesem Hintergrund ist die Wahrscheinlichkeit einer falschen Informationsbereitstellung durch die Anbieter bei Erfahrungs- und Vertrauenseigenschaften höher als bei Sucheigenschaften. Diese Feststellung hat Konsequenzen für den Informationsaustausch im Internet.
8.3.3.2 Der Wandel von Sucheigenschaften zu Erfahrungseigenschaften Im Gegensatz zur Produktpräsentation in einem Geschäft ist das Internet auf eine audiovisuelle Darstellung beschränkt. Im Internet stehen daher (nur) digitale Repräsentationen eines Produktes zur Verfügung. Für die meisten physischen Güter gilt, dass sie aus Such-, Erfahrungs- und Vertrauenseigenschaften bestehen, die nicht digitalisierbar sind [Illik 1998, S. 16]. Ursache dafür sind die technischen Gegebenheiten. Demnach hat die Produktpräsentation im Internet den Nachteil, dass eine direkte Bemusterung und Inspektion bei vielen Produkteigenschaften nicht möglich ist, sodass sich der Nachfrager auf die virtuelle Darstellung des Anbieters verlassen muss [Biswas 2004, S. 728], [Rohrbach 1997, S. 79, 86f.]. Sucheigenschaften wurden aber zuvor als solche bezeichnet, weil sie vor dem Kauf direkt am Objekt überprüft werden können. Deshalb können falsche Informationen zu Sucheigenschaften bereits vor einer Kaufentscheidung aufgedeckt werden. Aus der Produktpräsentation im Internet folgt hingegen, dass nichtdigitalisierbare Sucheigenschaften nicht durch persönliche Inspektion der Nachfrager verifiziert werden können. Falls ihnen Informationen über Sucheigenschaften zur Verfügung gestellt werden, die sie bei der Abwicklung einer Transaktion im Internet aber erst nach dem Kauf überprüfen können, nehmen diese Eigenschaften die Merkmale von Erfahrungseigenschaften an [Gräfe 2003, S. 142], [Petrovic et al. 2003, S. 56], [Rese & Gräfe 2002, S. 341f.], [Rohrbach 1997, S. 196]. Die Informationsasymmetrie zwischen Anbietern und Nachfragern in Bezug auf nichtdigitalisierbare Sucheigenschaften im Internet steigt. Daraus ergibt sich, dass im Internet Erfahrungseigenschaften eine dominante Rolle spielen. Dem strategischen Kalkül der Anbieter folgend (s. o.) unterscheidet sich der Austausch von Informationen zu Erfahrungseigenschaften wesentlich von Situationen, in denen Nachfrager Informationen vor einer Transaktionsentscheidung überprüfen können. Falsche Informationen, die zu Erfahrungseigenschaften bereitgestellt werden, können Nachfrager erst nach Abschluss einer Transaktion erkennen. Nachfrager werden deshalb die Glaubwürdigkeit der Informationen abwägen. Die Diskussion des Informationsqualitätskriteriums Glaubwürdigkeit hat jedoch die
185
B Methoden – Techniken – Tools – Regelwerke/Standards Schwierigkeiten aufgezeigt, die Nachfrager bei dieser Beurteilung haben. Daher kann die Bereitstellung von falschen Informationen für opportunistisch agierende Anbieter vorteilhaft sein. Sie können durch die Bereitstellung solcher Informationen eventuell einen ungerechtfertigten Vorteil im Wettbewerb erreichen. Die Chancen dafür sind im Internet höher als im traditionellen Handel.
8.3.3.3 Weitere Besonderheiten im Internet Neben dem Wandel von Such- zu Erfahrungseigenschaften gibt es weitere Gründe, die opportunistisches Verhalten im Internet fördern. Im Vergleich zum traditionellen Handel ist für Nachfrager die Rechtsunsicherheit im Internet höher, die Beratungsmöglichkeiten sind begrenzt und es gibt keinen persönlichen Kontakt zwischen Anbietern und Nachfragern [Schmalen 2001, S. 473f.]. Es gibt zwar institutionelle Reglementierungen, die zur Anpassung an die aktuellen Entwicklungen im Internet auch verändert werden [Clay & Strauss 2002, S. 246], [Petrovic et al. 2003, S. 53]. Durch langwierige Gesetzgebungsverfahren entstehen dabei aber immer wieder Lücken. Die Wirkung von gesetzlichen Regelungen ist zudem zwiespältig. Nelson macht dies an gesetzlichen Regelungen zu betrügerischer Werbung deutlich [Nelson 1974, S. 749]. Ohne ein Gesetz zum Verbot von falschen Aussagen würde kein Verbraucher den Anbieterinformationen Glauben schenken. Da Gesetze Falschaussagen verbieten, vertrauen Verbraucher den Anbieterinformationen und erst dadurch entsteht für Anbieter der Anreiz, sich durch Falschaussagen einen Vorteil im Wettbewerb zu verschaffen und die Nachfrager zu täuschen. Nur wenn die Strafandrohungen für Gesetzesverstöße so hoch sind, dass selbst solche Anbieter vor falschen Aussagen zurückschrecken, die von einer geringen Aufdeckungswahrscheinlichkeit ausgehen, dann erfüllen die Gesetze effektiv ihren Zweck [Nelson 1974, S. 749]. Zudem ist die praktische Anwendung von Gesetzen im Internet problematisch. Nutzer können Angaben zu ihrer Identität verschweigen oder eine falsche Identität annehmen. Bereits ausländische Email-Adressen sind schwieriger zu verfolgen [Kossel 2004, S. 92]. Kommt es trotzdem zu rechtlichen Konflikten, so ist z. B. das Durchsetzen von Ansprüchen schwierig und kostspielig. Dies gilt besonders dann, wenn die beteiligten Parteien bei länderübergreifenden Transaktionen aus unterschiedlichen Rechtsräumen kommen [Ockenfels 2003, S. 296]. Außerhalb des Internets haben herstellerunabhängige und persönliche Kommunikationskanäle bei Kaufentscheidungen eine hohe Glaubwürdigkeit [Backhaus 1999, S. 664]. Der Zusammenhang zwischen Informationsquelle und -qualität erklärt sich dadurch, dass Individuen im Umgang mit traditionellen Medien Wissen und Erfahrungen über Informationsquellen sammeln, die ihnen bei einer späteren Entscheidung über die Qualität einer Information aus diesen Quellen behilflich sind [Rieh 2002, S. 146]. In Bezug auf die Informationsquellen im Internet ist fraglich, inwiefern dieses Erfahrungswissen für dortige Informationsquellen ausreichend verbreitet ist. Auf der einen Seite bilden sich Internetseiten heraus, die eine gute
186
8 Bedeutung der Informationsqualität bei Kaufentscheidungen im Internet Reputation besitzen. Auf der anderen Seite wird die Qualitätsbeurteilung erschwert, da im Internet jeder Nutzer sehr einfach Informationen veröffentlichen kann und regelmäßig neue Quellen hinzukommen bzw. alte Quellen verschwinden. Zudem gibt es im Internet keinen persönlichen vertrauensstiftenden Kontakt zwischen Sender und Empfänger [Graf & Gründer 2003, S. 60], [Ockenfels 2003, S. 296], [Rohrbach 1997, S. 91f.]. Bei der Informationsvermittlung in einem Gespräch hat dieser Aspekt große Bedeutung [Wathen & Burkell 2002, S. 140]. Darüber hinaus besteht im Internet Unsicherheit über die technische Funktionsfähigkeit der Informations- und Kommunikationssysteme [Petrovic et al. 2003] und die Zuverlässigkeit von Zahlungssystemen [Graf & Gründer 2003, S. 61]. Zusätzlich wird die unpersönliche Abwicklung von Transaktionen als Grund für Kreditkartenbetrug im Internet angeführt [Clay & Stauss 2002, S. 260], [Zivadinovic 2004]. Ein weiteres Problem betrifft die Frage, wie Transaktionspartner mit den Daten umgehen, die sie während einer Transaktion erhalten [Clay & Stauss 2002, S. 260], [Petrovic et al. 2003, S. 56]. Es gibt aber auch Besonderheiten im Internet, die die Eignung des Mediums zum Austausch von Informationen vor einer Kaufentscheidung sehr positiv beeinflussen. Wie bereits erwähnt handelt es sich beim Preis um eine digitalisierbare Sucheigenschaft. Folgerichtig haben sich im Internet zahlreiche Preisvergleichsseiten etabliert, die zu einer erhöhten Preistransparenz im Markt beitragen. Deutsche Seiten sind z. B. http://www.geizkragen.de und http://www.guenstiger.de. Grundsätzlich ist bei Such- und Erfahrungseigenschaften davon auszugehen, dass es Quellen für neutrale Informationen gibt. Als neutrale Informationsquellen werden an der Transaktion unbeteiligte Parteien (unabhängige Organisationen) bezeichnet, die kein durch ein Einkommensmotiv getriebenes Interesse an einer Einflussnahme im Entscheidungsprozess der Nachfrager haben. Im Gegensatz zu Anbietern profitieren neutrale Informationsgeber nicht vom Zustandekommen einer Transaktion. Deshalb ist die Glaubwürdigkeit ihrer Informationen hoch.6 Nachfrager sammeln bei der Verwendung von Gütern Informationen, die bei Entscheidungen über zukünftige Transaktionen die Informationsausstattung verbessern. Wenn zwischen den Nachfragern ein Informationsaustausch stattfindet, sind die Erfahrungen von anderen Nachfragern geeignete neutrale Informationen [Nelson 1974, S. 747], [Raffée 1969, S. 166-170], [Simon 1981, S. 592]. Potenzielle Käufer können von anderen Nachfragern dadurch bereits vor ihrer eigenen Kaufentschei6
Neutrale Informationsquellen sind von ‚Trusted third parties’ zu unterscheiden. ‚Trusted third parties’ übernehmen Aufgaben im Rahmen des Zustandekommens von Transaktionen, indem sie beispielsweise die Identität der Transaktionspartner garantieren [Schoder/Müller 1999, S. 6f.], [Zerdick et al. 2001, S. 230]. Auf diese Weise sind ‚Trusted third parties’ aktiv in die Transaktionsabwicklung involviert, während neutrale Informationsquellen ausschließlich Informationen bereitstellen.
187
B Methoden – Techniken – Tools – Regelwerke/Standards dung Informationen über Erfahrungseigenschaften erhalten. Die Glaubwürdigkeit dieser Informationen ist hoch [Cox 1967, S. 606], da Nachfrager als Informationsgeber nicht durch kommerzielle Interessen zur Bereitstellung von Informationen motiviert werden [Kroeber-Riel & Weinberg 1999, S. 500]. Das Internet ist eine sehr gute Plattform, um Informationen zwischen Nachfragern auszutauschen. Es haben sich entsprechende Foren etabliert (z. B. http://ciao.com; http://www.dooyoo.de), in denen Nachfrager Meinungen, Empfehlungen und Erfahrungsberichte zur Verfügung stellen [Henning-Thurau et al. 2004]. Allerdings entsteht oder besteht dennoch die Gefahr von Fehlentscheidungen. Im Zeitverlauf können sich die Transaktionsbedingungen und die Qualität der Kaufgegenstände ändern, sodass vergangene Erfahrungen ihre Gültigkeit verlieren. Zudem sind die Beurteilungen der Nachfrager subjektiv. Neben den Nachfragern stellen auch unabhängige Organisationen Informationen bereit. Es handelt sich beispielsweise um Informationen von Verbraucherministerien, Verbraucherberatungen und Testinstituten [Ford et al. 1988, S. 240f.], [Hornung 1978, S. 49-52]. Durch aufwendige Analysemethoden erreichen diese Informationen verglichen mit Informationen von Nachfragern einen höheren Grad an Objektivität. Neben dem Vorteil der Glaubwürdigkeit neutraler Informationsquellen können Nachfrager zudem ihre Informationskosten reduzieren, wenn durch die Stiftung Warentest beispielsweise ein Alternativenvergleich übersichtlich aufbereitet wurde. Sie brauchen dann nicht eine Vielzahl von Geschäften aufzusuchen oder Produktinformationen auf verschiedenen Seiten im Internet selbstständig zusammenzutragen. Es ist jedoch zu berücksichtigen, dass Nachfrager eventuell nicht mit Sicherheit beurteilen können, ob vermeintlich neutrale Informationsquellen wirklich neutral und unabhängig sind. Haben Anbieter Einfluss auf eine Informationsquelle, die trotzdem den Anschein einer neutralen Informationsquelle erwecken kann, so besteht die Gelegenheit Nachfrager mit scheinbar glaubwürdigen Informationen zu manipulieren. Aus diesem Grund sollten Nachfrager im Rahmen ihrer Möglichkeiten die Neutralität einer solchen Informationsquelle überprüfen und bei Zweifeln die Informationen bei der Entscheidungsfindung nicht berücksichtigen. Zur Verbreitung ihrer Informationen nutzen unabhängige Informationsquellen unter anderem das Medium Internet. Für Nachfrager verbessern sich dadurch die Zugriffsmöglichkeiten auf diese Informationen. Zum Teil sind diese Informationen jedoch kostenpflichtig. Mit Informationen von anderen Nachfragern und unabhängigen Organisationen können Nachfrager Anbieterinformationen vergleichen und Fehlinformationen eventuell schon vor dem Kauf erkennen. Dies stellt für falsch informierende Anbieter eine Gefahr der Entdeckung dar und möglicherweise tendieren sie deshalb zur Bereitstellung von qualitativ hochwertigen Informationen.
188
8 Bedeutung der Informationsqualität bei Kaufentscheidungen im Internet
8.4 Fazit und Handlungsempfehlungen Bei vielen Kaufentscheidungen werden Informationen aus dem Internet berücksichtigt. Die Informationsqualität im Internet ergibt sich aus dem Verhalten der beteiligten Parteien. Zur Analyse des Verhaltens lassen sich aus einem generischen Informations- und Entscheidungsprozess zwölf Informationsqualitätskriterien herleiten. Diese sind dazu geeignet den Handlungsspielraum von Anbietern und Nachfragern beim Informationsaustausch zur Anbahnung einer Transaktion im Internet zu untersuchen. Insbesondere die opportunistischen Verhaltensmöglichkeiten der Anbieter können damit antizipiert werden. Aus der Analyse ergeben sich drei wichtige Ergebnisse: (1) Durch die mangelnde Überprüfbarkeit von nichtdigitalisierbaren Sucheigenschaften bei der Produktpräsentation im Internet, werden Käufe von Gütern mit Sucheigenschaften dem Charakter nach zu Entscheidungen, die dem Kauf von Gütern mit Erfahrungseigenschaften entsprechen. Im Internet werden hauptsächlich solche Situationen vorzufinden sein. (2) Beim Kauf von Gütern mit Erfahrungseigenschaften ist die Informationsausstattung der Nachfrager im Vergleich zu Kaufentscheidungen, bei denen Sucheigenschaften ausschlaggebend sind, deutlich schlechter. Würden Nachfrager falsche Informationen über Sucheigenschaften im traditionellen Handel bemerken, könnten sie von dem Kauf Abstand nehmen. Fallen falsche Informationen bei Transaktionen im Internet erst nach dem Kauf auf, so entstehen zumindest Transaktionskosten für die Reklamation und Rücksendung der Waren. (3) Weil nichtdigitalisierbare Gütereigenschaften im Internet zu Erfahrungseigenschaften werden, sinkt die Glaubwürdigkeit der Anbieterinformationen zu diesen Eigenschaften. Gerade Anbieter von nicht wettbewerbsfähigen Produkten können die mangelnde Überprüfbarkeit ihrer Informationen nutzen, um sich einen ungerechtfertigten Vorteil im Wettbewerb zu verschaffen. Vor diesem Hintergrund wird die Glaubwürdigkeit das wichtigste Informationsqualitätskriterium im Internet. Diese Argumente führen aus der Perspektive der Informationsverwender zu der Feststellung eines Mangels an Glaubwürdigkeit in Bezug auf Anbieterinformationen im Internet [Gräfe 2003, S. 142f.]. Für die gleiche Wirksamkeit der Produktpräsentation müssten Nachfrager der medialen Darstellung im Internet größeres Vertrauen entgegenbringen, als bei der realen Präsentation im stationären Handel erforderlich wäre [Rohrbach 1997, S. 87]. Der Mangel an persönlichen Kontakten im Internet erschwert jedoch die Entwicklung einer dafür erforderlichen Vertrauensbasis [Graf & Gründer 2003, S. 60], [Ockenfels 2003, S. 296], [Rohrbach 1997, S. 91f.]. Daraus ergeben sich für die Anbieter folgende Handlungsempfehlungen: Als geeignet für eine elektronische Vermarktung gelten standardisierte Produkte, die sich gleichzeitig gut beschreiben lassen [Benjamin & Wigand 1995, S. 67]. Außerdem eignen sich Güter mit digitalisierbaren Eigenschaften. Beispielsweise ist die Abfrage in einer Online-Datenbank ein digitales Gut, das mit all seinen Eigenschaften
189
B Methoden – Techniken – Tools – Regelwerke/Standards digital abgebildet und verteilt werden kann [Illik 1998, S. 15f.]. Aus der Sicht der nicht opportunistisch agierenden Anbieter eignen sich Produkte, deren Eigenschaften basierend auf einer Darstellung im Internet nicht überprüft werden können, aufgrund der zu erwartenden Informationsausstattung der Nachfrager weniger für den Vertrieb über das Internet. Es ist schwierig sich glaubhaft von opportunistisch informierenden Anbietern zu differenzieren. Sie können die Glaubwürdigkeit ihrer Informationen steigern, indem sie aktiv die Aufdeckungswahrscheinlichkeit von falschen Informationen erhöhen. Dazu sollten sie selber Informationen von neutralen Informationsquellen bereitstellen und den Informationsaustausch zwischen Nachfragern fördern. Sind Anbieter nicht nur im Internet, sondern zusätzlich auch im traditionellen Handel mit Geschäften präsent, so kann dieser Umstand zu einer Erhöhung der Aufdeckungswahrscheinlichkeit führen. Nachfrager können in den Geschäften Informationen über Sucheigenschaften der Transaktionsgüter sammeln bzw. Anbieterinformationen zu diesen Eigenschaften überprüfen, die im Internet nicht feststellbar sind. Haben Anbieter einen Vorteil im Wettbewerb, dann sollten sie die Vergleichbarkeit ihres Angebots mit den Angeboten der Wettbewerber erhöhen. Damit reduziert sich die Qualitätsunsicherheit der Nachfrager. Des Weiteren können Anbieter zur Differenzierung Signale aussenden, die für täuschungswillige Opportunisten zu teuer sind >Kaas 1992, S. 893@, >Kleinaltenkamp 1992, S. 817@. Gütesiegel wie z. B. DIN Normen oder das DEKRA Gütesiegel für Gebrauchtwagen sind solche Signale. Je höher die Güterqualität eines Anbieters ist, desto einfacher und zu geringeren Kosten wird es möglich sein, ein entsprechendes Gütesiegel zu bekommen. Für Anbieter mit betrügerischer Absicht gilt das nicht. Damit diese die Gütesiegel nicht kopieren, müssen vertrauenswürdige unabhängige Parteien die Einhaltung der Bedingungen überwachen, die mit Gütesiegeln verbunden sind. Insbesondere für Anbieter, die noch keine Reputation im Markt aufgebaut haben, erleichtern Gütesiegel den Markteintritt >Clay & Stauss 2002, S. 259@. Auch eine Marke ist ein differenzierendes Signal. Die Bildung einer Marke erfordert irreversible Investitionen in Form von Zeit und Geld >Klein & Leffler 1981, S. 626-630@. Um den Wert dieser Investition dauerhaft zu erhalten, werden Markenanbieter darum bemüht sein, eine hohe Qualität ihrer Produkte sicherzustellen. Betrügerische Transaktionen würden dagegen zu einer Zerstörung der Marke führen. Selbstbindungen sind eine weitere Möglichkeit, mit der Anbieter eines qualitativ überlegenen Produktes ihren Wettbewerbsvorteil signalisieren können. Durch eine vertraglich festgelegte erfolgsabhängige Entlohnung, durch Konventionalstrafen oder durch Garantien übernehmen Anbieter ganz oder teilweise das Risiko für die Erreichung des vereinbarten Ergebnisses >Kaas 1992, S. 893f.@, >Kleinaltenkamp 1992, S. 817@. Neben der Risikoverteilung signalisiert eine solche Selbstbindung die zugesicherte Qualität. Anbieter würden sich durch eine umfangreiche Garantiegewährung selbst schaden, wenn sie anschließend qualitativ schlechte Güter verkaufen. Nachfrager können davon ausgehen, dass Selbstbindungen für weniger
190
8 Bedeutung der Informationsqualität bei Kaufentscheidungen im Internet gute Anbieter zu teuer sind >Kaas 1992, S. 894@. Rückgaberechte stärken zusätzlich die Position der Nachfrager und reduzieren ihr wahrgenommenes Risiko vor einer Kaufentscheidung >Rohrbach 1997, S. 81@. Aus der Perspektive der Nachfrager entsteht allerdings das Problem der Anonymität und Distanz zwischen ihnen und den Anbietern im Internet. Reagieren Anbieter beispielsweise auf Reklamationen per Email nicht, so sind sie möglicherweise auf Grund einer örtlichen Distanz persönlich schwer zu erreichen. Die aus einer Garantie resultierenden rechtlichen Ansprüche, sind dann schwierig geltend zu machen. Grundsätzlich sollten Nachfrager die Qualität der im Internet verfügbaren Informationen in Frage stellen. Dazu sind die beschriebenen Informationsqualitätskriterien geeignet. Handelt es sich um Informationen, die Anbieter zur Verfügung stellen, so ist insbesondere die Glaubwürdigkeit dieser Informationen fraglich. Es gilt die Gefahr zu reduzieren, durch Informationen unzureichender Qualität Fehlentscheidungen zu treffen. Sofern Nachfrager die Wahrheit bzw. Glaubwürdigkeit und andere Qualitätskriterien einer Information nicht vor dem Abschluss einer Transaktion überprüfen können, sollten sie die Rahmenbedingungen der Transaktion im Internet analysieren. Zunächst sei die Aufdeckungswahrscheinlichkeit für falsche Informationen genannt. Je höher diese ist, desto geringer ist die Wahrscheinlichkeit, dass Anbieter falsche Informationen bereitstellen. Aus diesem Grund sollten Nachfrager bemüht sein, die Aufdeckungswahrscheinlichkeit zu erhöhen. Sie sollten unterschiedliche Informationsquellen nutzen, um sich vor einer Kaufentscheidung zu informieren. Anbieterinformationen sollten gezielt mit Informationen aus anderen Quellen verglichen werden. Das Internet bietet Möglichkeiten, um produkt- und anbieterbezogene Informationen zu verbreiten und mit anderen Nachfragern auszutauschen. Zudem kann auf unabhängige Informationsquellen zugegriffen werden. Ein solcher Informationsaustausch ist besonders bei standardisierten Produkten Erfolg versprechend. Bei sehr differenzierten oder individualisierten Produkten werden dagegen weniger Informationen verfügbar sein. Demnach sollten im Internet eher standardisierte und nicht stark differenzierte Produkte erworben werden. Die Qualität der Anbieterinformationen hängt weiterhin davon ab, wie wertvoll ein Kunde aus der Perspektive eines Anbieters zukünftig ist. Bei einer erwarteten langfristigen Geschäftsbeziehung sind Anbieter bemüht, sich durch die Bereitstellung von Informationen und Produkten hoher Qualität eine positive Reputation aufzubauen. Scheint für Anbieter und Nachfrager sicher, dass beide in Zukunft viele weitere profitable Transaktionen miteinander vereinbaren wollen, so ist die Güte der Anbieterinformationen hoch. Aus diesem Grund sollten sich Nachfrager als möglichst wertvolle Kunden mit langfristigem Geschäftsinteresse präsentieren. Im Internet gibt es allerdings Beispiele für Anbieter, die sich eine gute Reputation über einen längeren Zeitraum aufbauen, um anschließend in größerem Umfang Kunden betrügen zu können. Andere Anbieter wechseln nach einem Betrug ihre Identität, um sich ihrer schlechten Reputation zu entledigen. Deshalb sollten Nach-
191
B Methoden – Techniken – Tools – Regelwerke/Standards frager tendenziell große und bekannte Anbieter wählen. Einem großen Unternehmen dürfte es im Vergleich zu einem privaten Verkäufer schwerer fallen, im Internet die Identität zu wechseln. Es ist weiterhin vorteilhaft, Anbieter zu wählen, die sich ihre gute Reputation über einen sehr langen Zeitraum aufgebaut haben. Für solche Anbieter ist der zukünftige Einsatz ihrer Reputation beim Abschluss von Transaktionen vermutlich wertvoller, als der Gewinn aus einer betrügerischen Transaktion, die zum Verlust der Reputation führen würde. Es ist weiterhin ratsam, die richtige Identität eines Anbieters vor dem Abschluss einer Transaktion zu prüfen. Ehrliche Anbieter werden sich dem nicht widersetzen. Auch bei hoher Reputation des Anbieters sollten Nachfrager mit ihrer Zahlung nicht in Vorleistung gehen oder aber auf die Einbindung eines unabhängigen Treuhänders bestehen.
Literaturverzeichnis >Alexander & Tate 1999@ Alexander, J.E. / Tate, M.A.: Web Wisdom – How to Evaluate and Create Information Quality on the Web. Lawrence Erlbaum Associates, Mahwah, 1999. >Augustin 1990@ Augustin, S.: Information als Wettbewerbsfaktor. Verlag Industrielle Organisation, Verlag TÜV Rheinland, Zürich, 1990. >Bacharach & Board 2000@ Bacharach, M. / Board, O.: The Quality of Information in Electronic Groups, Discussion Paper No. 25, University of Oxford, 2000, URL: http://www.econ.ox.ac.uk/Research/WorkPapers/PDF/paper025.pdf >Zugriff am: 28.06.2002@. >Backhaus 1999@ Backhaus, K.: Industriegütermarketing, 6. Aufl., Vahlen, München, 1999. >Beach et al. 1978@ Beach, L.R. / Mitchell, T.R. / Deaton, M.D. / Prothero, J.: Information Relevance, Content and Source Credibility in the Revision of Opinions. In: Organizational Behavior and Human Performance, Vol. 21 (1978), pp. 1-16. >Bell et al. 1988@ Bell, D.E. / Raiffa, H. / Tversky, A.: Descriptive, Normative, and Prescriptive Interactions in Decision Making. In: Bell, D.E. / Raiffa, H. / Tversky, A. (Eds.): Decision Making: Descriptive, Normative, and Prescriptive Interactions. Cambridge University Press, Cambridge, 1988, pp. 9-30. >Benjamin & Wigand 1995@ Benjamin, R.I. / Wigand, R.T.: Electronic Markets and Virtual Value Chains on the Information Superhighway. In: Sloan Management Review, Vol. 36 (Winter 1995) No. 2, pp. 62-72. >Biswas 2004@ Biswas, D.: Economics of information in the Web economy: Towards a new theory? In: Journal of Business Research, Vol. 57 (2004) No. 7, pp. 724-733. >Bovee et al. 2001@ Bovee, M. / Srivastava, R.P. / Mak, B.: A Conceptual Framework and Belief-Function Approach to Assessing Overall Information Quality. In: Pierce,
192
8 Bedeutung der Informationsqualität bei Kaufentscheidungen im Internet E.M. / Katz-Haas, R. (Eds.): Proceedings of the 6th International Conference on Information Quality at MIT, 2001, pp. 311-328.
>Caldwell & O’Reilly 1983] Caldwell, D.E. / O’Reilly III, C.A.: The Impact of Accurate Information on Job Choice and Turnover Decisions. In: Academy of Management Proceedings, (1983), pp. 200-203. >Clay & Strauss 2002@ Clay, K. / Strauss, R.P.: Institutional Barriers to Electronic Commerce: An Historical Perspective. In: Ingrim, P. / Silverman, B. (Eds.): The New Institutionalism in Strategic Management, Vol. 19 (2002), pp. 245-271. >Cox 1967@ Cox, D.F.: Risk Taking and Information Handling in Consumer Behavior. In: Cox, D.F. (Ed.): Risk Taking and Information Handling in Consumer Behavior. Harvard University, Boston, 1967, pp. 604-639. >Darby & Karni 1973@ Darby, M.R. / Karni, E.: Free Competition and the Optimal Amount of Fraud. In: Journal of Law & Economics, Vol. 16 (1973) No. 1, pp. 67-88. >Dastani 1998@ Dastani, P.: Online Mining. In: Link, J. (Hrsg.): Wettbewerbsvorteile durch Online Marketing. Springer, Berlin, 1998, S. 219-241. >Ford et al. 1988@ Ford, G.T. / Smith, D.B. / Swasy, J.L.: An Empirical Test of the Search, Experience and Credence Attributes Framework. In: Advances in Consumer Research, Vol. 15 (1988), pp. 239-243. >Ford et al. 1990@ Ford, G.T. / Smith, D.B. / Swasy, J.L.: Consumer Skepticism of Advertising Claims: Testing Hypotheses from Economics of Information. In: Journal of Consumer Research, Vol. 16 (1990) No. 4, pp. 433-441. >Gampenrieder & Riedmüller 2001@ Gampenrieder, A. / Riedmüller, F.: Marktforschung via Internet. In: Hermanns, A. / Sauter, M. (Hrsg.): Management-Handbuch Electronic Commerce, 2. Aufl., Vahlen, München, 2001. >Graf & Gründer 2003@ Graf, N. / Gründer, T.: eBusiness: Grundlagen für den globalen Wettbewerb. Deutscher Taschenbuch Verlag, München, 2003. >Gräfe 2003@ Gräfe, G.: Incredible Information on the Internet: Biased Information Provision and a Lack of Credibility as a cause of Insufficient Information Quality. In: Eppler, Martin J. / Helfert, M. (Eds.): Proceedings of the 8th International Conference on Information Quality at MIT, 2003, pp. 133-146. >Gräfe 2005@ Gräfe, G.: Informationsqualität bei Transaktionen im Internet: Eine informationsökonomische Analyse der Bereitstellung und Verwendung von Informationen im Internet, Dt. Univ.-Verl., Wiesbaden, 2005. >Grotz-Martin 1983] Grotz-Martin, S.: Informations-Qualität und InformationsAkzeptanz. In: Hauschildt, J. / Gemünden, H.G. / Grotz-Martin, S. / Haidle, U.: Entscheidungen der Geschäftsführung: Typologie, Informationsverhalten, Effizienz. Mohr, Tübingen, 1983, S. 144-173. >Henning-Thurau et al. 2004@ Henning-Thurau, T. / Gwinner, K.P. / Walsh, G. / Gremler, D.D.: Electronic Word-of-Mouth via Consumer-Opinion Platforms: What
193
B Methoden – Techniken – Tools – Regelwerke/Standards Motivates Consumers to Articulate Themselves on the Internet? In: Journal of Interactive Marketing, Vol. 18 (Winter 2004) No. 1, pp. 38-52.
>Hilke 1989@ Hilke, W.: Werbung und Wettbewerb aus betriebswirtschaftlicher Sicht. In: Röper, B. (Hrsg.): Wettbewerb und Werbung. Duncker u. Humblot, Berlin, 1989, S. 35-55. >Hopf 1983@ Hopf, M.: Informationen für Märkte und Märkte für Informationen, Barudio & Hess, Frankfurt a. M., 1983. >Hornung 1978@ Hornung, G.: Konsumenteninformation und Wettbewerb: Wirkungen verbesserter Markttransparenz der Konsumenten auf den Wettbewerb im Einzelhandel bei sachlicher Homogenität der Produkte und räumlicher Heterogenität, Haag und Herchen, Frankfurt a. M., 1978. >Illik 1998@ Illik, J.A.: Electronic Commerce – eine systematische Bestandsaufnahme. In: HMD (Handbuch der modernen Datenverarbeitung), 35. Jg. (Febr. 1998) Nr. 199, S. 10-24. >Kaas 1991@ Kaas, K.P.: Marktinformationen: Screening und Signaling unter Partnern und Rivalen. In: Zeitschrift für Betriebswirtschaft, 61. Jg. (1991) Nr. 3, S. 357370. >Kaas 1992@ Kaas, K.P.: Kontraktgütermarketing als Kooperation zwischen Prinzipalen und Agenten. In: Schmalenbachs Zeitschrift für betriebswirtschaftliche Forschung, 44. Jg. (1992) Nr. 10, S. 884-901. >Kivetz & Simonson 2000@ Kivetz, R. / Simonson, I.: The Effects of Incomplete Information on Consumer Choice. In: Journal of Marketing Research, Vol. 37 (Nov. 2000) No. 4, pp. 427-448. [Klein & Leffler 1981] Klein, B. / Leffler, K.B.: The Role of Market Forces in Assuring Contractural Performance. In: Journal of Political Economy, Vol.89 (Aug. 1981) No. 4, pp. 615-641
>Kleinaltenkamp 1992@ Kleinaltenkamp, M.: Investitionsgüter-Marketing aus informationsökonomischer Sicht. In: Schmalenbachs Zeitschrift für betriebswirtschaftliche Forschung, 44. Jg. (1992) Nr. 9, S. 809-829. >Kortzfleisch 1973@ Kortzfleisch, H.v.: Information und Kommunikation in der industriellen Unternehmung. In: Zeitschrift für Betriebswirtschaft, 43. Jg. (1973) Nr. 8, S. 549-560. >Kossel 2004@ Kossel, A.: Zuschlag ohne Rückschlag: Betrüger bei eBay erkennen und meiden. In: c’t, (2004) Nr. 4, S. 90-95. >Kroeber-Riel & Weinberg 1999@ Kroeber-Riel, W. / Weinberg, P.: Konsumentenverhalten, 7. Aufl., Vahlen, München, 1999. >Kuri 2004@ Kuri, J.: Verfallsdatum überschritten – überholte Informationen im Internet, 2004, Heise, URL: http://www.heise.de/newsticker/meldung/print/45637 >Zugriff am 18.03.2004@.
194
8 Bedeutung der Informationsqualität bei Kaufentscheidungen im Internet
>Lau 2003@ Lau, O.: Die 10 häufigsten Fehler der Online-Händler, 2003, Heise, URL: http://www.heise.de/newsticker/meldung/print/38456 >Zugriff am 02.04.2004@. >Maaß & Scherm 2007@ Maaß, C. / Scherm, E.: Suchmaschinen-Marketing – Ansatzpunkte und Stolpersteine. In: Das Wirtschaftsstudium, 75. Jg. (2007), Nr. 6, S. 822825. >Manis et al. 1978@ Manis, M. / Fichman, M. / Platt, M.B.: Cognitive Integration and Referential Communication: Effects of Information Quality and Quantity in Message Decoding. In: Organizational Behavior and Human Performance, Vol. 22 (1978), pp. 417-430. >Marschak 1960@ Marschak, J.: Remarks on the Economics of Information. In: Contributions to Scientific Research in Management, Cowles Foundation Paper 146, 1960, pp. 79-98. >Meffert 1999@ Meffert, H.: Marketing – Entwicklungstendenzen und Zukunftsperspektiven. In: Die Unternehmung, 53. Jg. (1999) Nr. 6, S. 409-432. [Merschmann 2007] Merschmann, H. (2007): Guerilla-Marketing bei Amazon, Spiegel, URL: http://www.spiegel.de/netzwelt/web/0,1518,476359,00.html >Zugriff am 08.05.2007@.
>Merz 1999@ Merz, M.: Electronic Commerce, dpunkt-Verl., Heidelberg, 1999. >Mielke 2004@ Mielke, K.: Drei, zwei, eins ... – Ärger? Spezielle Rechtsfragen rund um Internet-Auktionen. In: c’t, (2004) Nr. 4, S. 96-103. >Morehead & Rouse 1985@ Morehead, D.R. / Rouse, W.B.: Computer Aided Searching of Bibliographic Data Bases: Online Estimation of the Value of Information. In: Information Processing & Management, Vol. 21 (1985) No. 5, pp. 387-399. >Nelson 1970@ Nelson, P.J.: Information and Consumer Behavior. In: Journal of Political Economy, Vol. 78 (1970) No. 2, pp. 311-329. >Nelson 1974@ Nelson, P.J.: Advertising as Information. In: Journal of Political Economy, Vol. 82 (1974) No. 4, pp. 729-754. >North 1999@ North, K.: Wissensorientierte Unternehmensführung: Wertschöpfung durch Wissen, 2. Aufl., Gabler, Wiesbaden, 1999. >Ockenfels 2003@ Ockenfels, A.: Reputationsmechanismen auf Internet-Marktplattformen. In: Zeitschrift für Betriebswirtschaft, 73. Jg. (2003) Nr. 3, S. 295-315. >Olaisen 1990@ Olaisen, J.: Information quality factors and the cognitive authority of electronic information. In: Wormell, I. (Ed.): Information Quality: definitions and dimensions. Taylor Graham, London, 1990, pp. 91-121. >Petrovic et al. 2003@ Petrovic, O. / Fallenböck, M. / Kittl, C. / Wolkinger, T.: Vertrauen in digitale Transaktionen. In: Wirtschaftsinformatik, 45. Jg. (2003) Nr. 1, S. 53-66.
195
B Methoden – Techniken – Tools – Regelwerke/Standards
>Picot et al. 2001@ Picot, A. / Reichwald, R. / Wigand, R.T.: Die grenzenlose Unternehmung, 4. Aufl., Gabler, London, 2001. >Porat & Haas 1969@ Porat, A.M. / Haas, J.A.: Information Effects on DecisionMaking. In: Behavioral Science, Vol. 14 (March 1969) No. 2, pp. 98-104. >Raffée 1969@ Raffée, H.: Konsumenteninformation und Beschaffungsentscheidung des privaten Haushalts. Poeschel, Stuttgart, 1969. >Rese & Gräfe 2002@ Rese, M. / Gräfe, G.: Erhöhte Markttransparenz durch das Internet? Eine informationsökonomische Analyse des Anbieterverhaltens bei der Bereitstellung von Informationen. In: Die Unternehmung, 56. Jg. (2002) Nr. 5, S. 333-354. >Rieh 2002@ Rieh, S.Y.: Judgment of Information Quality and Cognitive Authority in the Web. In: Journal of the American Society for Information Science and Technology, Vol. 53 (Jan. 2002) No. 2, pp. 145-161. >Rohrbach 1997@ Rohrbach, P.: Interaktives Teleshopping: Elektronisches Einkaufen auf dem Informationhighway, Dt. Univ.-Verl. Gabler, Wiesbaden, 1997. >Rost 1989@ Rost, D.: Werbung im Wettbewerb. In: Röper, B. (Hrsg.): Wettbewerb und Werbung. Duncker u. Humblot, Berlin, 1989, S. 21-33. >Russell 1966] Russell, B.: An Inquiry into Meaning and Truth, 7th Impression. Allan and Unwin, London, 1966. >Ruthven et al. 2003@ Ruthven, I. / Lalmas, M. / Rijsbergen, K.v.: Incorporating User Search Behavior into Relevance Feedback. In: Journal of the American Society for Information Science and Technology, Vol. 54 (April 2003) No. 6, pp. 528-549. >Scheuble 1998@ Scheuble, S.: Wissen und Wissenssurrogate: eine Theorie der Unternehmung, Dt. Univ.-Verl., Wiesbaden, 1998. >Schmalen 2001@ Schmalen, H.: Grundlagen und Probleme der Betriebswirtschaft, 11. Aufl., Schäffer-Poeschel, Stuttgart, 2001. >Schoder & Müller 1999@ Schoder, D. / Müller, G.: Disintermediation versus Intermediation auf elektronischen Märkten am Beispiel 'Trusted Third Parties'- Eine empirisch gestützte Einschätzung. In: Tagungsband zur "Wissenschaftlichen Jahrestagung 1999 des Verbandes der Hochschullehrer für Betriebswirtschaft e.V.", Wiesbaden 1999, URL: http://www.iig.uni-freiburg.de/telematik/forschung/ publikationen/pubfiles/ScMu1999a.pdf >Zugriff am 22.08.2002@. >Shapiro & Varian 1999@ Shapiro, C. / Varian, H.R.: Information Rules: A Strategic Guide to the Network Economy. Harvard Business School Press, Boston, 1999. >Simon 1981@ Simon, H.: Informationstransfer und Marketing: Ein Survey. In: Zeitschrift für Wirtschafts- und Sozialwissenschaften, 101. Jg. (1981) Nr. 6, S. 589-608.
196
8 Bedeutung der Informationsqualität bei Kaufentscheidungen im Internet
>Slovic & MacPhillamy 1974@ Slovic, P. / MacPhillamy, D.: Dimensional Commensurability and Cue Utilization in Comparative judgment. In: Organizational Behavior and Human Performance, Vol. 11 (April 1974) No. 2, pp. 172-194. >Snavely 1967@ Snavely, H.J.: Accounting Information Criteria. In: Accounting Review, Vol. 42 (April 1967) No. 2, pp. 223-232. >Stiftung Warentest 2003@ Stiftung Warentest: Test Spezial Internet, 2003. >Streufert 1973@ Streufert, S.C.: Effects of Information Relevance on Decision Making in Complex Environment. In: Memory & Cognition, Vol. 1 (1973) No. 3, pp. 224-228. >Taylor 1986@ Taylor, R.S.: Value-Added Processes in Information Systems. Ablex Publishing Corporation, Norwood, 1986. >Trusted Shops 2007@ Trusted Shops Umfrage - Shop-Abmahnungen im Internet, April 2007, URL: http://www.trustedshops.de/shopbetreiber/pdf_download/ Trusted_Shops_Umfrage_Abmahnungen_April_2007.pdf >Zugriff am 13.05.2007@. >Tseng & Fogg 1999@ Tseng, S. / Fogg, B.J.: Credibility and Computing Technology. In: Communications of the ACM, Vol. 42 (May 1999) No. 5, pp. 39-44. >Tversky & Kahneman 1974@ Tversky, A. / Kahneman, D.: Judgment under Uncertainty: Heuristics and Biases. In: Science, Vol. 185 (1974) No. 4157, pp. 1124-1131. >Tversky & Kahneman 1981@ Tversky, A. / Kahneman, D.: The Framing of Decisions and the Psychology of Choice. In: Science, Vol. 211 (Jan. 1981) No. 4481, pp. 453-458. >Wathen & Burkell 2002@ Wathen, C. N. / Burkell, J.: Believe It or Not: Factors Influencing Credibility on the Web. In: Journal of the American Society for Information Science and Technology, Vol. 53 (Jan. 2002) No. 2, pp. 134-144. >Wild 1971@ Wild, J.: Zur Problematik der Nutzenbewertung von Informationen. In: Zeitschrift für Betriebswirtschaft, 41. Jg. (1971) Nr. 5, S. 315-334. >Williamson 1985@ Williamson, O.E.: The Economic Institutions of Capitalism. The Free Press, New York, 1985. >Zerdick et al. 2001@ Zerdick, A. / Picot, A. / Schrape, K. / Artopé, A. / Goldhammer, K. / Heger, D.K. / Lange, U.T. / Vierkant, E. / López-Escobar, E. / Silverstone, R.: Die Internet-Ökonomie – Strategien für die digitale Wirtschaft, European Communication Council Report, 3. Aufl., Springer, Berlin, 2001. >Zivadinovic 2004@ Zivadinovic, D.: Betrug mit Kreditkarten nimmt zu, 2004, Heise, URL: http://www.heise.de/newsticker/meldung/47055 >Zugriff am 03.05.2004@.
197
9 Datenqualitäts-Audits in Projekten Marcus Gebauer, Michael Mielke
9.1 Einleitung Datenqualität leidet zumeist schon in der Entstehung der Daten und ihrer zugrunde liegenden Datenhaushalte. Datenqualität ist üblicherweise der letzte Bereich, der in Projekten berücksichtigt wird, wenn diese Projekte in Schwierigkeiten geraten. Daher ist es notwendig, Datenqualität in den verschiedenen Stadien eines Projektes strukturell zu verankern. Was geschieht nun typischerweise in Projekten? x x x x x x x
Anforderungen an das neue System, Datenhaushalte und Prozesse sind nicht klar definiert Datenflüsse sind sowohl in der System- und Prozesslandschaft als auch in manuellen Schnittstellen zwischen Geschäftbereichen unbekannt Daten- und Prozessverantwortlichkeiten und Dateneigentümer sind nicht definiert Projekte werden nur durch IT-Experten geführt, auch wenn die Projekte geschäftsbezogen sind Spezifizierung der Rollen eines Datenerfassers, Datenbearbeiters und Datennutzers fehlen Projekte werden nicht für die spätere Produktionsphase betrieben. Sie scheinen so etwas wie ein Eigenleben zu führen Wechselwirkungen in der bestehenden System- und Prozesslandschaft sind unbekannt
Das hier dargestellte Datenqualitätsaudit in Projekten wird mittels einer Generischen Datenqualitäts-Checkliste für Neue Datenhaushalte, die einen Satz von Anforderungen vorgibt, durchgeführt. Sie erlaubt es dem Assessor, den Status des neuen Datenhaushaltes in Bezug zu Datenqualität zu bestimmen. In diesem Sinne liefert die hier beschriebene Checkliste eine Risikoanalyse, mit deren Hilfe zu bearbeitende Bereiche herausgefunden werden können. In manchen Punkten geht die Checkliste über den eigentlichen Zweck von Projekten neuer Datenhaushalte hinaus. Dies ist immer dann der Fall, wenn Anforderungen an die Produktivphase des Datenhaushaltes bereits in der Projektphase implementiert werden sollen.
198
9 Datenqualitäts-Audits in Projekten
Zweck Es ist der Zweck der hier vorgestellten Generischen Datenqualitäts-Checkliste für Neue Datenhaushalte ein proaktives Management der Datenqualität sicherzustellen. Jede neue Datensammlung wird einer Bewertung bezüglich ihrer technischer Spezifikationen, Datenhaltung und ihrer Management-Prozesse vor der eigentlichen Implementierung unterzogen. Die Generische Datenqualitäts-Checkliste bietet ein Rahmenwerk neue Datenhaushalte so früh wie möglich noch in ihrer Entstehungsphase zu bewerten. Nutzergruppe sind Datenqualitätsmanager genauso wie Projektleiter von IT- und Fachprojekten. Ziel der Checkliste ist es, die wesentlichen Handlungsfelder mit einem Risiko für die Datenqualität frühzeitig zu identifizieren. Nur so kann einem aufkommenden Risiko rechtzeitig begegnet werden.
Struktur In diesem Kapitel stellen wir in einzelnen Abschnitten die Bereiche vor, in denen Datenhaushaltsprojekte und bestehende Datenhaushalte bewertet werden. Insgesamt werden sieben Bereiche untersucht: x Anforderungen an das Management x Service Level Agreement x Organisations-Spezifizierungen x Prozessdefinitionen x Daten-Sammlung, -Bearbeitung und -Nutzung x Datenqualitätsmanagement, -messungen, -maßnahmen und –monitoring x Technische Anforderungen In jedem Abschnitt werden die Gründe für die Anforderungen kurz beschrieben und die Punkte der Checkliste dargestellt.
9.2 Abstimmung mit anderen Regelwerken Eine Generische Datenqualitäts-Checkliste für Neue Datenhaushalte muss mit dem Willen des Top-Managements implementiert werden. Es gibt viele Gründe, Datenqualität in Projekten niedriger zu priorisieren. Zur Umsetzung bedarf es daher einer starken Management-Entscheidung. Dabei muss die detaillierte Ausgestaltung mit den Regularien jeder IT-Organisation und jedes Prozessmanagements abgestimmt sein.
199
B Methoden – Techniken – Tools – Regelwerke/Standards
9.3 Glossar Viele der in diesem Abschnitt verwendeten Begriffe sind mittlerweile Allgemeingut. Dennoch sind an dieser Stelle einige nochmals spezifiziert. Des Weiteren sind in vielen Fällen die englischen Begriffe immer noch geläufiger als entsprechende Übersetzungen ins Deutsche. Auch diese seien hier erwähnt. Content Rule
Messbarer Ausdruck einer Geschäftsregel.
Datenqualitäts-Metrik
Objektive, messbare Funktion, welche sensitiv für Messungen in den betrachteten Qualitätsattributen ist.
Geschäftsregel
Die Anforderungen der Datennutzer werden mittels sogenannter Geschäftsregeln beschrieben. Eine Geschäftsregel verbindet hierbei verschiedene Geschäftsobjekte und hilft Daten und Informationen in richtige und falsche zu differenzieren.
Key Rule
Messbarer Ausdruck einer Geschäftsregel mit Bezug zu Schlüsseldefinitionen in Datenbanken.
Matching Rule
Messbarer Ausdruck einer Geschäftsregel zur Bestimmung eines Übereinstimmungsgrades verschiedener Datentabellen.
PDCA Kreislauf
PDCA = Plan-Do-Check-Act. Ein Kreislauf zur ständigen Verbesserung, meist für fortwährende Prozesse adaptiert.
Referentielle Integrität
Datenbankinterne Spezifizierung von Abhängigkeiten unter Tabellen. Verwandte Begriffe sind Entitäten-, Domänen- und Nutzer-Definierte-Integrität.
SQL
Structured Query Language: Grundlegende Auswertungssprache relationaler Datenbanken.
Der Vollständigkeit halber sei an dieser Stelle erwähnt, dass die Begriffe Daten und Informationen, obschon ein Unterschied besteht, hier synonym verwendet werden.
9.4 Gebrauch der Generischen Checkliste Wer nutzt die Checkliste? Gegenstand dieser Checkliste sind Neue Datensammlungen. Sie sollte durch den Projektleiter abgearbeitet werden, wenn das Projekt neue Datensammlungen entwickelt oder alte signifikant verändert. Im Idealfall wird er dabei durch ein Datenqualitätsteam unterstützt.
200
9 Datenqualitäts-Audits in Projekten Diese Checkliste sollte jedoch auch im Falle bereits existierender Datensammlungen für eine kontinuierliche Überwachung genutzt werden. Der Rhythmus der Nutzung ist abhängig von der Nutzung der Daten und sollte in Abstimmung mit dem Datenqualitätsbeauftragten abgestimmt sein.
Wann wird die Checkliste genutzt? Es ist nicht möglich für die Anwendung der Checkliste einen präzisen Kalender anzugeben. Mit dem Folgenden ist jedoch eine Richtschnur gegeben.
x
x
x
Projektleiter sollten sich der spezifizierten Anforderungen bewusst sein bevor ein entsprechendes Projekt startet, um hiermit verknüpfte Aktivitäten einplanen zu können. Innerhalb eines Projektplanes können Projektleiter und DatenqualitätsBeauftragter Meilensteine definieren, wann diese Checkliste zur Anwendung kommen soll: o Nach der Erstellung des Business Case. o Nach der Erstellung des Projektplanes. o Nach der Spezifizierung der technischen Anforderungen. o Nach der Spezifizierung der prozessualen Anforderungen. o Nach der Spezifizierung der organisatorischen Erfordernisse. o Nach jedem Schritt, der mit den Anforderungen dieser Checkliste verknüpft ist. o In der Testphase des Projektes. o Am Ende des Projektes im Projekt-Review. Die Checkliste wird immer dann angewendet, wenn ein wesentlicher Teil des Projektes geändert wird und zuvor spezifizierte Anforderungen hiervon betroffen sind. Hierunter fallen z.B. Änderungen des Projektzieles, der technischen Umgebung oder der Organisation.
Grundsätzlich sollte die Checkliste regelmäßig im Projekt abgearbeitet werden, um Risiken frühzeitig erkennen zu können.
Wie wird die Checkliste genutzt? Zu jedem spezifizierten Zeitpunkt nutzt der Projektleiter die Checkliste, um die Erfüllung der Anforderungen zu überprüfen. In diesem Kapitel beschreiben wir nur die Vorgehensweise und die Frageelemente der Generische DatenqualitätsCheckliste für Neue Datenhaushalte. Um diese handhabbar zu machen, hat der Autor diese in eine elektronische Anwendung übertragen. Die folgende Abbildung zeigt die Gesamtübersicht mit Bewertungsergebnis.
201
B Methoden – Techniken – Tools – Regelwerke/Standards
Abbildung 1: Gesamtübersicht der Bewertungsergebnisse des DQ-Audits Abbildung 1 zeigt exemplarisch ein Bewertungsergebnis, in dem sieben DQMElemente einbezogen wurden. Jedem dieser DQM-Elemente wurde ein Gewicht zugeordnet, welches in der Gesamteinstufung berücksichtigt wird. Die Gesamteinstufung selbst richtet sich nach individuell zu spezifizierenden Schwellen. In dem in der Abbildung dargestellten Beispiel sind diese Schwellen bei 70% und 90% gesetzt worden. Für jedes DQM-Element wird ein Satz von Fragen (Abbildung 2) spezifiziert, die in einer fünfstufigen Skala auf ihre Erfüllung bewertet werden. Alle Bewertung jenseits der Einstufung ‚++’ ist als Schwachstelle anzusehen, die bearbeitet werden muss. Die fünf genutzten Stufen sind wie folgt vorgegeben:
++
Die Vorgehensweise ist nachvollziehbar, aktuell dokumentiert und wird angewendet / ist wirksam
+
Die Vorgehensweise ist nachvollziehbar und wird weitestgehend angewendet
+/-
Die Vorgehensweise ist weitestgehend nachvollziehbar und wird meistens angewendet
--
Die Vorgehensweise ist in der Praxis zumeist wirksam
202
Die Vorgehensweise ist lediglich dokumentiert / vielleicht wirksam
9 Datenqualitäts-Audits in Projekten
Abbildung 2: Antworten zu den DQM-Elementen werden in einer fünfstufigen Skala bewertet In der Durchführung der Checkliste muss nicht unbedingt jede Frage beantwortet werden. Unter Umständen sind Elemente für das begutachtete Projekt nicht relevant. In diesem Fall ist das Weglassen von Fragen zu begründen und dies auch zu dokumentieren.
9.5 Datenqualitätsbewertung einer Datensammlung 9.5.1 Anforderungen an das Management Projekte sind vielfachen Regelungen unterworfen, zu denen zum Beispiel Datenschutz- und Datensicherheit, Business Continuity etc. gehören. Es wird als selbstverständlich angenommen, dass Projektleiter über diese Regelungen Bescheid wissen. Da auch Datenqualität eine Führungsaufgabe ist, müssen sich Projektleiter auch der hieraus erwachsenden Anforderungen für ihr Projekt bewusst sein. Diese Datenqualitätsanforderungen sind auf den gesamten Lebenszyklus eines Projektes anzuwenden. Neben den speziellen Datenqualitätsanforderungen gibt es natürlich auch andere Anforderungen an Projekte, die zur Datenqualität beitragen. Diese seien hier mit einbezogen, gerade auch um den Aspekt Datenqualität zu betonen.
203
B Methoden – Techniken – Tools – Regelwerke/Standards
Checkliste x x x x x x x x
Das Projekt spezifiziert klar seine Aufgaben, die Geschäftssicht, die Vision und ein Szenario der implementierten Veränderung.1 Geschäfts- und technische Experten werden durch das Projekt konsultiert. Alle Prozessbeteiligten kommen zu einer gemeinsamen Übereinkunft über die Datenfelder, die im Datenhaushalt gespeichert werden sollen. Der Projektleiter kennt die grundlegenden Anforderungen an und für Datenqualität. Ressourcen wie Budget, Personal und Zeit werden für das Thema Datenqualität im Projekt eingeplant. Datenqualitätsverantwortliche Mitarbeiter werden in der Planungsphase des Projektes konsultiert und haben den Projektplan freigegeben. Das Projekt erstellt einen Datenqualitäts-Aktivitätsplan. Unter Anwendung der Datenqualitäts-Checkliste führt der Projektleiter regelmäßig eine Bewertung des Projektes durch. Dies ist durch Spezifizierung eines Meilensteines im Projektplan terminiert.
9.5.2 Service Level Agreements Datenqualität sollte ein wesentlicher Bestandteil von Service Level Agreements sein. Erst durch die Überprüfung der zweckbezogenen Nutzbarkeit von Informationen kann eine echte Qualitätsaussage in Bezug zu einer Datenlieferung getroffen werden. Die rein technische Bereitstellung, auch wenn diese garantiert wird, reicht nicht aus. Die benannten Parameter sind teilweise nicht unabhängig. Insbesondere ist eine Qualitätsaussage immer abhängig von den Erwartungen des Kunden. Diese Erwartungen sind mess- und nachvollziehbar in einem SLA zu dokumentieren. So kommen wir zu folgender Checkliste.
1
Die folgenden Fragen sollten beantwortet werden: Was wollen wir tun? Welche sind die treibenden Faktoren?
Was ist hinterher neu? Was ist hinterher besser? Was ist der Nutzen und wer profitiert von diesem Projekt? Wer ist der Treiber? et cetera
204
9 Datenqualitäts-Audits in Projekten
Checkliste x x x
Ein SLA ist schriftlich formuliert und durch die Prozessbeteiligten bestätigt. Das SLA beschreibt die Datenfeldlieferung textlich, logisch (Beschreibung von Abhängigkeiten), chronologisch und im Kontext. Das SLA spezifiziert die Datenqualitätsanforderungen an die Organisation, Prozesse, Datenqualitätsmessungen und an abgeleitete, hier beschriebene Aktivitäten.
9.5.3 Organisatorische Spezifikationen Um eine durchgängig hohe Qualität in Datensammlungen zu gewährleisten, müssen bestimmte Rollen spezifiziert werden. Idealerweise können diese Rollen auf Datenfeld-Ebene spezifiziert werden. Da dies unter Umständen mit hohen Aufwänden verbunden ist, kann dies auch in den Informationsgruppen geschehen2, denen die Datenfelder angehören.
Dateneigner Der Dateneigner ist verantwortlich für alle Belange ein Datenfeld oder eine Informationsgruppe betreffend. Er trägt Sorge dafür, dass die Daten und Informationen auch im wechselnden Umfeld stets aktuell bleiben.
Datenerfasser Der Datenerfasser ist die Quelle der Daten, die im weiteren Verlauf prozessiert und genutzt werden. Er gibt Daten ein und pflegt diese. Die Basis guter Datenqualität wird hier gelegt. Die Eingabe falscher Daten kann häufig nur mit großem Aufwand an Zeit und Geld korrigiert werden. Der Datenerfasser spielt so eine entscheidende Rolle in der Datenlieferkette und im Management der Datenqualität.
Datenverarbeiter Der Datenverarbeiter prozessiert die Daten respektive überwacht die Ver- und Bearbeitung der Daten. Er hat die Integrität der Daten und Informationen unter Berücksichtigung der Anforderungen der Datennutzer sicherzustellen.
Datenkunde Der Datenkunde ist der Nutzer der gesammelten und prozessierten Daten. Er ist für die Spezifizierung der Anforderungen an die Daten und Informationsgruppen verantwortlich. Jeder, der Informationen nutzt, die aus Daten abgeleitet werden, ist ein Datenkunde.
2
Datenfelder, welche zur gleichen logischen Information gehören, werden in entsprechenden Informationsgrup-
pen zusammengefasst. Eine Adresse ist eine solche Informationsgruppe, zu der Daten wie ‚Straße’, ‚Hausnummer’, ‚Postleitzahl’ und ‚Ort’ gehören.
205
B Methoden – Techniken – Tools – Regelwerke/Standards
Checkliste x x x x
Die Rollen Dateneigner, Datenerfasser, Datenverarbeiter und Datenkunde sind spezifiziert und unter den Prozessbeteiligten abgestimmt. Die Aufgaben und Verantwortlichkeiten der zuvor spezifizierten Rollen sind klar beschrieben und abgestimmt. Die Prozessbeteiligten, zumindest die Personen, die die zuvor genannten Rollen übernehmen, haben an einer Datenqualitätsschulung teilgenommen. Dateneigner, Datenerfasser, Datenverarbeiter und Datenkunde treffen sich regelmäßig, um die Anforderungen an die Datenqualität der Informationsgruppen abzustimmen.
9.5.4 Prozess-Definitionen Kernursachen schlechter Datenqualität sind häufig begründet in der Prozesslandschaft. Entweder sind Prozesse unbekannt, nicht beschrieben oder beschriebene Prozesse werden nicht gepflegt und dementsprechend auch nicht gelebt. All diese Gründe führen zu einem – schlechte Datenqualität. Daher kommt der Spezifizierung und Implementierung von Prozessen im Projekt eine entscheidende Rolle zu und ist ein wesentlicher Teil der Projektarbeit.
Prozesse Es ist essentiell, die folgenden Prozesse zu implementieren und zu dokumentieren. Sie sollten explizit in einem Datenqualitätsplan beschrieben und durch das Projekt implementiert werden.
Datensammlung Der Prozess der Datensammlung beschreibt wie und welche Daten gesammelt / erfasst werden und welche Abhängigkeiten diese untereinander besitzen. Insbesondere sind hierbei die Beziehungen zu bereits existierenden Datenhaushalten zu berücksichtigen. Die Beschreibung des Datensammlungs-Prozesses umfasst auch technische Aspekte (z.B. Backup-Prozeduren). Es ist entscheidend, dass wichtige Prozessbeteiligte den Datensammlungs-Prozess beeinflussen können. So ist z.B. der Beitrag eines Konten-Sachbearbeiters im Kodierungsprozess eines Kunden wichtig für die Qualität der codierten Daten.
Datenbearbeitung und Datenkorrektur Niemals kann vollends die Entstehung falscher Daten, sei es nun durch Erfassung oder Bearbeitung, vermieden werden. Daher muss ein Prozess zur Bearbeitung und Korrektur der Daten implementiert werden. Dies umfasst den Zugang, die Zugangsautorisierung und die Berücksichtigung von Datenschutzrichtlinien.
206
9 Datenqualitäts-Audits in Projekten
Datenqualitäts-Prozess Der Datenqualitäts-Prozess beschreibt wie Datenqualität überwacht und gemessen wird und wer für die Schritte Definieren, Messen, Bewerten und Verbessern des PDCA-Zyklus verantwortlich ist. Für jeden Schritt wird für den PDCA-Zyklus spezifiziert Wer, Wann, Wo und Wie entsprechende Aktionen durchzuführen sind. Die Interaktion mit bereits vorhandenen, vertrauenswürdigen Informationen wird sichergestellt.
Änderungs-Prozess Veränderung z.B. auf gesetzlicher Seite, neue Systeme, neue Datenelemente, Erweiterungen von Datenbanken, Daten-Migrationen können zu neuen Anforderungen an Datensammlungen führen. Projekte neuer Datenhaushalte müssen Teil einer organisationsweiten Change-Management Regelung sein. Veränderungen in Datenhaushalten müssen allen Prozessbeteiligten bekannt gemacht werden. Insbesondere Veränderungen in führenden Referenz-Datenbeständen, welche direkten Einfluss auf eine Datensammlung haben, sind zu beobachten.
Eskalation Ein Eskalationsprozess garantiert allen Prozessbeteiligten einen gesicherten Weg, mit aufkommenden Datenqualitätsproblemen kontrolliert umzugehen. In diesem Eskalationsprozess ist beschrieben, wie im Falle von Datenqualitätskonflikten eine Entscheidung unter den Prozessbeteiligten herbeigeführt wird.
Prozesskontrolle Alle Prozesse sind Gegenstand einer ständigen Verbesserung. So müssen dementsprechend Mechanismen entwickelt werden, mit deren Hilfe die Prozesse überwacht und verbessert werden können.
Checkliste Die nachfolgende Checkliste gilt für die zuvor beschriebenen Prozesse. Sollen Prozesse nicht implementiert werden, so hat der Projektleiter dies zu begründen.
x x x x x x
Der Prozess erfüllt die spezifizierten Anforderungen. Der Prozess ist beschrieben und dokumentiert und die Dokumentation für die relevanten Personen verfügbar. Die Prozessdokumentation wird gepflegt. Aus Gründen der Verständlichkeit wird der Prozess mittels geeigneter Werkzeuge visualisiert. Der Prozess ist mit den Beteiligten abgestimmt. Ein Prozesseigner ist bestimmt und den Prozessbeteiligten bekannt.
207
B Methoden – Techniken – Tools – Regelwerke/Standards
9.5.5 Datensammlung, Datenverarbeitung und Datennutzung Um Datenredundanzen zu vermeiden, muss jeder neue Datenhaushalt gegen bereits existierende führende Referenz-Datenhaushalte geprüft werden. Führende Datenhaushalte können sowohl aus internen als auch aus externen Quellen stammen. Die Implementierung und Spezifizierung glaubwürdiger Systeme und Datenhaushalte ist für einen unternehmensweiten Datenhaushalt essentiell. Hierdurch werden Redundanzen vermieden, die Pflege vereinfacht und die Kosten der Datenhaltung reduziert.
Checkliste Datensammlung x x x x x x x x x
Existierende führende Referenz-Systeme sind die einzige Quelle für diese Daten. Referenz-Systeme werden als Datenquelle überall dort genutzt, wo es angemessen erscheint. Datenerfasser sind ausreichend geschult und sie sind sich ihrer Bedeutung für die Datenqualität bewusst. Kritische Daten sind spezifiziert und werden im Vier-Augenprinzip erfasst. Es erfolgt eine Qualitätskontrolle für die Datenerfassung. Datenfehler können leicht an der Quelle korrigiert werden. Fehler, Abweichungen oder fehlende Daten werden im Quellsystem bzw. Quelldatenbestand entfernt, korrigiert oder ersetzt. Der Datenerfasser stellt sicher, dass der Referenzdatenbestand die Anforderungen des Datennutzers erfüllt. Daten werden in angemessener Zeit gespeichert.
Datenverarbeitung x x x x
Datenbearbeiter sind ausreichend geschult, um mit dem Datenbestand / dem System zu arbeiten. Veränderungen von Dateninhalten können auf die Quelle dieser Änderungen zurückverfolgt werden. Unternehmensweite Konsistenz der Daten und Information ist gewährleistet. Prozesse zur Speicherung, Transformierung und Anreicherung von Daten sind klar beschrieben.
Datennutzung x
208
Datennutzer haben ihre Anforderungen an die Qualität der Daten klar spezifiziert.
9 Datenqualitäts-Audits in Projekten
x x x x x
Datennutzer können erkennen, ob ihre Anforderungen erfüllt werden. Es gibt einen Kommunikationsplan für die Entwicklungs- und Implementierungsphase neuer Datenhaushalte Datenerfasser, Datenverarbeiter und Datennutzer sind sich über Messkriterien zur Überwachung der Datenqualität einig. Datenerfasser, Datenverarbeiter und Datennutzer tauschen sich regelmäßig aus. Datennutzer geben klare Rückmeldung an den Dateneigner (resp. Eigner des Datenhaushaltes).
9.5.6 Messung, Maßnahmen und Überwachung Auch wenn Datenmodelle und Datenelemente in der frühen Phase ihres Lebenszyklus sehr gut beschrieben sind, ist das Management der Datenqualität, deren Messung und die Abstimmung hierüber essentiell für den Datenhaushalt in der Zukunft. Das Verständnis für Daten und ihren logischen Abhängigkeiten untereinander geht mit der Zeit verloren oder es ändert sich schlicht. Daher sind Anforderungen an Datenqualitätsmessungen so früh wie möglich in der Projektphase neuer Datenhaushalte zu spezifizieren. Dabei sind sie gleichzeitig flexibel zu halten, um zukünftige Anforderungen berücksichtigen zu können. Die Anforderungen an die Datenqualität muss nachvollziehbar beschrieben und Messungen wiederholbar sein. Datenqualitätsmessungen sind eng mit den Anforderungen der Datennutzer korreliert und können selbst für gleiche Datenbestände von Nutzer zu Nutzer unterschiedliche Resultate ergeben. So sind die Datenqualitätsanforderungen aus einem betrieblichen Blickwinkel in sogenannten Geschäftsregeln zu formulieren. Datenqualitätsmanagement umfasst die Datenqualitätsmessung, die Ableitung von Maßnahmen, seien sie nun reaktiv oder aktiv, die Fehlerverifizierung, die Formulierung von Maßnahmen und die Überwachung, ob die eingeleiteten Maßnahmen wirksam waren. Alle beschriebenen Aktivitäten sind gleichermaßen auch auf Metadaten anwendbar. Metadaten beschreiben bis zu einem gewissen Grade die Anforderungen an Datenelemente und sind so ein partielles Kriterium für die Qualität eines Datenelements.
Checkliste Datenqualitätsüberprüfung x x
Häufigkeit von Datenüberprüfungen, -Analysen und –Profilings sind spezifiziert und dokumentiert. Datenüberprüfungen, -Analysen und –Profilings werden unter Berücksichtigung ihrer Nutzung regelmäßig durchgeführt.
209
B Methoden – Techniken – Tools – Regelwerke/Standards
x x x x
x
Daten werden bei der Eingabe und bei Weitergabe validiert. Abstimmungen zu führenden Referenzsystemen werden regelmäßig durchgeführt. Validierungen und Abstimmungen sind mit Bezug zu den Fragen Wer, Wo, Wann und Wie etwas getan werden muss beschrieben. Datenqualitätsmessungen o Datenqualitätsmessungen werden auf Basis von Geschäftsregeln regelmäßig durchgeführt. o Geschäftsregeln zur Durchführung der Messungen sind spezifiziert. o Geschäftsregeln werden bei Datenüberprüfungen und Datenbereinigungen an der Quelle angewendet. o Ein Standardsatz an Datenqualitätsmetriken ist spezifiziert. Datenbestände werden regelmäßig einem Daten-Profiling unterzogen.
Maßnahmen und Überwachung x x x x x
Datenerfasser, Datenbearbeiter und Datennutzer verifizieren und bearbeiten Datenqualitätsprobleme. Auf Datenqualitätsprobleme folgen reaktive und präventive Maßnahmen. Messung, Verifizierung und Überwachung der Datenqualität sind teile eines implementierten PDCA-Zyklus. Abgeleitete reaktive und präventive Maßnahmen werden dokumentiert. Abgeleitete reaktive und präventive Maßnahmen werden in ihrer Umsetzung verfolgt und auf ihre Effektivität überprüft.
9.5.7 Technische Anforderungen Alle Datenbestände sollten integriert und konsistent aufeinander abgestimmt sein. Wo möglich, ist ein übergreifendes Datenmodell zu erstellen, welches die Wechselwirkungen und Abhängigkeiten unter den Datenbeständen beschreibt. Es ist essentiell, dass die logischen Abhängigkeiten der Datenbestände untereinander bekannt und beschrieben sind.
Checkliste Systeme x x
210
System, die auf Datenbestände angewiesen sind, werden mit jedem neuen Release in Bezug auf Datennutzung getestet. Notwendige Veränderungen im Datenbestand werden im neuen Release explizit dokumentiert.
9 Datenqualitäts-Audits in Projekten
Datenmodell und Metadatenmodell x x x x x x x
Unternehmensweit gültige Datenelemente sind konsistent spezifiziert. Datenänderungen werden nachvollziehbar dokumentiert. Daten werden in ihrer Struktur durch Metadaten beschrieben und diese Beschreibung ist verfügbar. Referenz-Datenbestände sind implementiert gegen die sich andere Datenbestände abgleichen können. Für jedes Datenfeld wird Vollständigkeit, Format, Wertebereich, Plausibilität und Exaktheit spezifiziert. Daten sind in angemessener Weise normalisiert. Abgeleitete Variablen werden genauso behandelt wie die zugrunde liegenden Original-Variablen.
Datenflussdiagramm x x
Ein detailliertes Datenflussdiagramm, das alle Schnittstellen und Bestände eines Prozesses aufzeigt, ist verfügbar und aktuell. Die kritischen Punkte und Einschränkungen im Datenfluss sind bekannt und werden kontinuierlich überwacht.
Verbindung zu anderen Datenbeständen x x x
Verbindungen und Abhängigkeiten zu anderen Datenbeständen sind bekannt, dokumentiert und diese Dokumentation ist verfügbar. Redundante Sammlung und Speicherung von Daten, für die es bereits führende Referenzsysteme gibt, wird vermieden. Wenn redundante Sammlung und Speicherung von Daten notwendig ist, werden diese Daten regelmäßig abgestimmt.
Schnittstellen x x x x
Datenstrukturen in Schnittstellen sind klar spezifiziert, beschrieben und unter den Prozessbeteiligten abgestimmt. Schnittstellen sind bevorzugt elektronisch, manuelle Schnittstellen müssen begründet werden. Prozesse, in denen manuelle Schnittstellen involviert sind, sind nachvollziehbar zu beschreiben und unter den Prozessbeteiligten abzustimmen. Schnittstellen sind in Bezug zu logischen, zeitlichen und kontextuellen Anforderungen zu beschreiben.
211
B Methoden – Techniken – Tools – Regelwerke/Standards
Datenzugang x x x x
Daten sind leicht zugänglich. Daten sind durch Nutzung von Standardwerkzeugen zugänglich (z.B. ODBC-, JDBC-Schnittstellen). Der Datenzugriff wird durch eine Authentifizierung überwacht und jeder Zugang nachvollziehbar registriert. Der Datenzugriff ist unter Berücksichtigung des Datenschutzes beschränkt.
Datenbearbeitung x x x x x
Load / Update / Delete Prozesse (manuelle wie automatische) sind klar beschrieben. Falsche Daten können leicht korrigiert werden. Daten können leicht bearbeitet werden. Bearbeitung von Daten wird verfolgt, Log-Dateien werden gehalten. Log-Dateien werden gespeichert und regelmäßig revisioniert.
9.5.8 Dokumentation Alle Anforderungen an die Generische Datenqualitäts-Checkliste für Neue Datenhaushalte müssen in schriftlicher Form niedergelegt werden. Daneben gibt es viele andere Dokumente, in denen für die Datenqualität wichtige Aspekte reglementiert sind.
Checkliste Aus Sicht der Datenqualität sollten die folgenden Dokumente verfügbar sein: x x x x x x x
212
Business Case Projektplan Service Level Agreement Prozess-Beschreibungen Organisationsmodell Datenqualitäts-Aktivitätsplan Technische Dokumentation
9 Datenqualitäts-Audits in Projekten
9.6 Zusammenfassung Die Generische Datenqualitäts-Checkliste für Neue Datenhaushalte liefert einen Satz von Anforderungen, welche es dem Assessor erlauben, neue Datenbestände in Bezug auf Datenqualitätsanforderungen zu bewerten. Acht Bereiche werden hierbei berücksichtigt: x x x x x x x x
Anforderungen an das Management Service Level Agreement Organisatorische Spezifikationen Prozess-Definitionen Datensammlung, Datenverarbeitung und Datennutzung Messung, Maßnahmen und Überwachung Technische Anforderungen Dokumentation
Nicht alle Anforderungen werden in allen Datenbeständen Anwendung finden. Es ist immer die Aufgabe des Assessors die ‚richtigen’, anwendbaren Fragen zu stellen. In einigen Punkten gehen Anforderungen an Projekte über die eigentlichen Projektziele hinaus. Dies ist immer dann der Fall, wenn bereits in der Projektphase der Grundstein zukünftiger Datenqualität im Datenbestand gelegt werden soll.
213
C Organisation
1 Organisatorische Ansiedlung eines Datenqualitätsmanagements Jens Lüssem
1.1 Einführung Für die meisten Unternehmen im deutschsprachigen Raum ist Daten- bzw. Informationsqualität ein junges Thema – ein Thema, das in den letzten Jahren in vielen Organisationen an Bedeutung gewonnen hat. Dies zeigt die Vielzahl der Aktivitäten, die mit dem Thema Datenqualität (DQ) verknüpft sind. In den letzten Jahren werden vermehrt DQ-Werkzeuge am Markt angeboten, immer mehr Beratungsunternehmen spezialisieren sich auf dieses Thema. Viele Unternehmen haben erkannt, dass das Thema organisatorische Veränderungen nach sich ziehen wird, und stehen vor der Entscheidung, ein so genanntes Datenqualitätsmanagement einzuführen und organisatorisch anzusiedeln. Insbesondere Untenehmen des Dienstleistungssektors haben bei diesem Schritt in der Regel keine „Vorbilder“, wie sie bei Produktionsunternehmen in Form von zentralen Qualitätsabteilungen häufig zu finden sind. Die “richtige” Verankerung des Datenqualitätsmanagements stellt für Unternehmen einen wichtigen Erfolgsfaktor für die nachhaltige Schaffung einer angemessenen Datenqualität dar [English 1999, Olson 2003].
1.1.1 Motivation In den vergangenen Jahren wurde eine Reihe von Studien zum Themenkomplex „Datenqualität“ veröffentlicht [Mathes et al. 2005]. Die Ergebnisse dieser Studien ergeben folgendes Bild von den meist genannten Hindernissen auf dem Weg zu einem funktionierenden Datenqualitätsmanagement (aufgelistet in absteigender Relevanz): 1.
Die Unterstützung des Managements für ein (starkes) Datenqualitätsmanagement ist kaum vorhanden oder fehlt gänzlich.
2.
Die Probleme der (organisatorischen) Realisierung eines Datenqualitätsmanagements können nicht behoben werden.
3.
Datenqualitätsmanagement findet in Projekten nicht in ausreichender Weise Berücksichtigung.
4.
Für ein umfassendes Datenqualitätsmanagement existiert kein schlüssiger Business Case.
217
C Organisation 5.
Ein Datenqualitätsbewusstsein hat sich bei den Mitarbeitern des Unternehmens noch nicht ausgebildet.
6.
Im Unternehmen existieren nur unzureichende Konzepte zum Datenqualitätsmanagement.
Für den Aufbau eines funktionsfähigen Datenqualitätsmanagements werden also als Hindernisse neben einer unzureichenden Managementunterstützung vor allem (organisatorische) Realisierungsprobleme genannt. Diese beiden Hindernisse sind direkt mit der organisatorischen Ansiedlung eines Datenqualitätsmanagements im Unternehmen verknüpft. Als drittgrößtes Hindernis werden Probleme bei der Berücksichtigung von Datenqualität genannt. Auch an dieser Stelle spielt die angemessene organisatorische Verankerung des Datenqualitätsmanagements in Projekten der Unternehmen eine entscheidende Rolle. Auch aus dem fünften Punkt, in dem das mangelnde Datenqualitätsbewusstsein bei den Mitarbeitern des Unternehmens thematisiert wird, lassen sich weitere Handlungsempfehlungen ableiten.
1.1.2 Gliederung des Kapitels Das Kapitel folgt dem in der Motivation aufgezeigten Pfad und beginnt mit der Entwicklungslinie des Qualitätsmanagements, anhand derer aufgezeigt wird, dass die organisatorische Ansiedlung einer Qualitätsabteilung (mit-)bestimmt wird von der Ausrichtung der zugeordneten Aufgaben. Eine isolierte Betrachtung der organisatorischen Ansiedlung des Datenqualitätsmanagements ohne eine gleichzeitige Analyse der thematisch angrenzenden Organisationseinheiten erscheint nicht sinnvoll und zielführend. Daher liegt der Fokus des darauf folgenden Abschnitts auf den Organisationseinheiten, die mit dem Datenqualitätsmanagement verbunden sind. Im nächsten Abschnitt wird auf die Rolle eines Datenqualitätsmanagements in Projekten eingegangen. Diese beeinflusst zumindest indirekt die Verankerung des Datenqualitätsmanagements innerhalb der Organisation. Der Trend zu projektorientierter Arbeit in Unternehmen, der weiterhin (ungebremst) zunimmt, wird Auswirkungen auf die Ausrichtung eines Datenqualitätsmanagements und damit auch auf dessen organisatorische Ausrichtung haben. Der letzte Abschnitt geht – neben einer kurzen Zusammenfassung – auf zukünftige Entwicklungen im Bereich des Datenqualitätsmanagements ein und gibt eine Prognose hinsichtlich der möglichen Auswirkungen auf dessen Ansiedlung im Unternehmen.
218
1 Organisatorische Ansiedlung eines Datenqualitätsmanagements
1.2 Datenqualitätsmanagement – Entwicklungsstufen und Aufgaben Aufgaben und organisatorische Ansiedlung eines Datenqualitätsmanagements sind kaum voneinander zu trennen [Argyris & Schön 1978, Schreyögg 2003]. Dies wird anhand des folgenden Schaubilds (Abbildung 1), das sich auf Qualitätssicherung bzw. -management in Produktionsuntenehmen bezieht, deutlich [Dippold et al. 2005, Heinrich & Lehner 2005, Krcmar 2004].
Abbildung 1: Entwicklungsstufen des Qualitätsmanagements
Aus der Abbildung 1 wird deutlich, dass in Unternehmen zunächst zentrale Abteilungen dominierten, die sich um Qualitätssicherung und -kontrolle kümmerten. Eine Beteiligung weiterer Unternehmensbereiche war in diesem Entwicklungsstadium nicht vorgesehen. Erst relativ spät haben sich umfassendere Qualitätskonzepte etabliert, die es erforderten, dass sich neben den zentralen Qualitätsabteilungen weitere Abteilungen (im besten Fall: jeder Mitarbeiter des Unternehmens) mit dem Thema Qualität beschäftigen [Brunner & Wagner 2004, Pfeifer 2001]. Die damit verbundenen – notwendigen – organisationalen Lernprozesse haben sich leider als äußerst komplex erwiesen, so dass Übergänge zu ganzheitlichen Qualitätskonzepten häufig mehrere Jahre dauern können [Argyris & Schön 1978].
1.2.1 Sicherung der Datenqualität In Analogie zu den zentralen Qualitätsabteilungen in Produktionsunternehmen haben sich in den letzten zwei Jahrzehnten – zunächst insbesondere in Unterneh-
219
C Organisation men der Dienstleistungsbranche – zentrale Organisationseinheiten etabliert, die mit der operativen Sicherstellung der Datenqualität betraut sind. Die konkreten Aufgaben reichen hier üblicherweise von einer Kontrolle der (geforderten) Datenqualität bis hin zur Herstellung der (geforderten) Datenqualität1. Diese Aufgaben kann man als eher reaktiv bezeichnen. Eine Beschränkung auf derartige reaktive Aufgaben mag auf ein deutlich verkürztes Verständnis von Datenqualität im Unternehmen hindeuten. Ebenfalls in Analogie zu den aufgezeigten Entwicklungsschritten des Qualitätsmanagements (s. Abbildung 1) werden diese zentralen Abteilungen auch bei der Etablierung ganzheitlicher Datenqualitätsmanagementkonzepte weiterhin aufrechterhalten.
1.2.2 Management der Datenqualität Erst mit der Übernahme von steuernden – und damit wenigstens teilweise proaktiven – Aufgaben kann von einem wirklichen Datenqualitätsmanagement gesprochen werden. Üblicherweise werden zumindest die folgenden Aufgabenbereiche von einem Datenqualitätsmanagement verantwortet: – Erstellung von Vorgaben und Richtlinien zur Datenqualität – Auswahl (und Anwendung2) von Methoden und DQ-Werkzeugen zur o Identifikation von Datenqualitätsmängeln o Messung der Datenqualität (bspw. entlang von Prozessen) o Verbesserung der Datenqualität – Erstellung von Datenqualitätsberichten – Koordinierung von Regelkreisen zur Datenqualität Bereits anhand der Auflistung der wichtigsten Aufgabenbereiche eines Datenqualitätsmanagements wird deutlich, dass eine derartig aufgestellte Organisationseinheit eine Vielzahl von Schnittstellen in das jeweilige Unternehmen besitzen muss, um wirksam werden zu können.
1
Das Wort „geforderten“ ist eingeklammert, da in den Unternehmen, in dem ein derartiges Verständnis von Datenqualität vorherrscht, in vielen Fällen noch keine konkreten Anforderungen an Datenqualität definiert werden.
2
Die Anwendung von DQ-Werkzeugen kann ggf. in die Fachabteilungen oder die ITAbteilung verlagert werden und ist nicht automatisch Bestandteil des Aufgabenportfolios des Datenqualitätsmanagements.
220
1 Organisatorische Ansiedlung eines Datenqualitätsmanagements
1.3 Datenqualitätsmanagement – Ansiedlung im Unternehmen Die folgende Abbildung gibt zum einen Aufschluss über die wichtigsten Ursachen unzureichender Datenqualität und damit zum anderen Hinweise auf die an ein Datenqualitätsmanagement angrenzenden Unternehmensbereiche, die einen Einfluss auf die Datenqualität haben.
Abbildung 2: Ursachen unzureichender Datenqualität
In diesem Unternehmenskontext muss ein Datenqualitätsmanagement etabliert werden, das vor allem in der Lage ist, zentrale Vorgaben bzw. Richtlinien zu erstellen, DQ-Werkzeuge zu etablieren und eine Koordinierungsfunktion auszuüben. Bevor auf eine adäquate Ansiedlung eines Datenqualitätsmanagements in Unternehmen eingegangen werden kann, soll zunächst das Zusammenspiel des Datenqualitätsmanagements mit anderen relevanten Unternehmensbereichen eingegangen werden.
221
C Organisation
1.3.1 Kopplung von Datenqualitätsmanagement mit anderen Unternehmensbereichen Aus Abbildung 2 wird deutlich, dass es diverse Berührungspunkte zwischen Fachbereichen und Datenqualitätsmanagement existieren. Exemplarisch sei nur die Definition von Anforderungen (der Datennutzer) an die Datenqualität genannt. Falls mehrere Fachbereiche Anforderungen an die gleichen Daten stellen, kommt an dieser Stelle dem Datenqualitätsmanagement neben der Beratung der Fachbereiche eine Koordinations- und Moderationsrolle zu.
Abbildung 3: Kopplung des Datenqualitätsmanagements mit Fachabteilungen
Diese in Abbildung 3 angedeutete Kopplung kann nur durch einen stetigen Austausch zwischen Fachabteilungen und Datenqualitätsmanagement gewährleistet werden. Da der Koordinationsfunktion an dieser Stelle eine besondere Bedeutung zukommt, ist es empfehlenswert, das Datenqualitätsmanagement nicht direkt in einer der an diesen Prozessen beteiligten Fachabteilungen anzusiedeln3. Der IT-Abteilung kommt als Instanz, die Verantwortung für die Verarbeitung der Daten besitzt, ebenfalls eine herausragende Bedeutung zu. Insbesondere betrifft dies die folgenden Funktionen (s. auch Abbildung 4): – IT-Architektur (Verantwortung für die Designprinzipien und Ausgestaltung der IT-Landschaft des Unternehmens)
3
Falls es im Wesentlichen nur einen Unternehmensbereich gibt, der die im Unternehmen erzeugten Daten nutzt, kann eine dortige Ansiedlung des Datenqualitätsmanagements sinnvoll sein.
222
1 Organisatorische Ansiedlung eines Datenqualitätsmanagements – Schnittstellenmanagement (Verantwortung für die Konzeption und Umsetzung von Schnittstellen zwischen den IT-Systemen des Unternehmens) – Systemadministration (Verantwortung für das reibungslose Funktionieren der IT-Systeme im Unternehmen)
Abbildung 4: Kopplung des Datenqualitätsmanagements mit der IT-Abteilung
Die in der obigen Abbildung skizzierte Kopplung muss – sowohl in der Linie als auch in Projekten – sehr stark ausgeprägt sein, um wirksam werden zu können. An dieser Stelle sollen mit Prozess- und Qualitätsmanagement zwei weitere Organisationseinheiten Erwähnung finden, die starke Berührungspunkte mit dem Datenqualitätsmanagement haben (s. Abbildung 5).
Abbildung 5: Kopplung des Datenqualitätsmanagements mit Prozess- und Qualitätsmangement
223
C Organisation So führen in vielen Fällen schlecht definierte Prozesse in letzter Konsequenz zu Datenqualitätsproblemen – beispielsweise müssen aufgrund schlecht definierter Prozessschritte in vielen Fällen manuelle Workarounds eingesetzt werden, die dazu führen können, dass die Datenqualität innerhalb des gesamten Prozesses absinkt. [Gaitanides et al. 1994]. Eine unzureichende Qualitätssicherung bei Softwareprodukten kann dazu führen, dass die Datenqualität auf den betroffenen Prozessstrecken absinkt.
1.3.2 Folgerungen für die Ansiedlung eines Datenqualitätsmanagements Aus dem oben Gesagten lassen sich die folgenden zentralen Aussagen hinsichtlich der organisatorischen Ansiedlung eines Datenqualitätsmanagements treffen: – Das Datenqualitätsmanagement sollte als eigenständige Organisationseinheit im Unternehmen etabliert werden. – Eine Ansiedlung in einem Fachbereich ist in der Regel als nicht sinnvoll einzustufen – Ausnahme: der Fachbereich ist im Wesentlichen einziger Nutzer der Daten. – Eine Ansiedlung im IT-Bereich kann zu Zielkonflikten innerhalb des ITBereichs führen (z. B. im Rahmen der Umsetzung von Projekten – Kosten vs. Qualität). Falls diese Zielkonflikte im Sinne des Unternehmens aufgelöst werden können, stellt eine derartige Verankerung eine gute Alternative dar. – Eine Ansiedlung im Stab der Unternehmensleitung stärkt die Durchsetzungskraft eines Datenqualitätsmanagements und liefert damit ebenfalls eine sinnvolle organisatorische Verankerung. Allerdings kann diese exponierte Stellung auf Dauer zu Konflikten mit den oben erwähnten angrenzenden Bereichen führen. – Um eine enge Kopplung mit den Fachbereichen und dem IT-Bereich zu gewährleisten, sollte über adäquate organisatorische Strukturen nachgedacht werden. Eine derartige Möglichkeit stellt das Konzept der dezentralen Datenqualitätskoordinatoren dar. Diese Koordinatoren können im Verbund mit dem zentralen Datenqualitätsmanagement eine DQ-Organisation bilden, die eng verwoben mit den einzelnen Unternehmensbereichen ist4.
4
Falls eine derartige DQ-Organisation geschaffen wird, verbleibt in der Regel die Richtlinien- und Methodenkompetenz bei dem zentralen Datenqualitätsmanagement. Die dezentralen Datenqualitätskoordinatoren sind für die operative Sicherstellung einer angemessenen Datenqualität verantwortlich und berichten an den zentralen DQ-Bereich.
224
1 Organisatorische Ansiedlung eines Datenqualitätsmanagements
1.4 Datenqualitätsmanagement in Projekten Die größten Veränderungen in Unternehmen werden durch Projekte induziert [Gaulke 2004, Gray & Larson 2006, Kerzner 2003]. Veränderungen bedeuten in dem Projektkontext u. a.: – Änderungen von Geschäftsprozessen (ggf. inkl. organisatorischer Veränderungen) – Integration neuer IT-Systeme (inkl. der Erstellung neuer Schnittstellen) – Ersatz alter IT-Systeme (inkl. Datentransfer zwischen altem und neuem ITSystem) Bereits anhand dieser knappen Aufzählung lässt sich in Verbindung mit Abbildung 2 ableiten, dass eine Einbindung des Datenqualitätsmanagements in Projekte erforderlich sein wird, wenn der oben beschriebene umfassende, proaktive Ansatz gewählt wird. Zunächst werden mögliche Aufgaben des Datenqualitätsmanagements in Projekten betrachtet, im Anschluss daran wird auf die Form der Einbindung des Datenqualitätsmanagements eingegangen.
1.4.1 Aufgaben des Datenqualitätsmanagements in Projekten Die Aufgaben eines Datenqualitätsmanagements in Projekten lassen sich nicht von den im ersten Abschnitt dargestellten (Linien-) Aufgaben entkoppeln. Vielmehr sollte sichergestellt sein, dass die Verantwortung für Datenqualität durchgängig wahrgenommen wird. Daher lässt sich das folgende Aufgabenspektrum für ein Datenqualitätsmanagement in Projekten ableiten: – Erstellung von Richtlinien und Vorgaben für Projekte – Wahrnehmung von Review-Tätigkeiten im Rahmen der Qualitätssicherung für Projekte – Bereitstellung von Checklisten für Projektleiter, QS-Teilprojektleiter und Projektmitarbeiter – Beratung bei Problemstellungen, die Einfluss auf die Datenqualität haben können – Koordination von auf das jeweilige Projekt bezogenen DQ-Regelkreisen – Behebung von DQ-Problemen in Legacy Systems, d. h. Koordination (und ggf. Durchführung) von Datenbereinigungen in abzulösenden IT-Systemen
1.4.2 Organisatorische Verankerung des Datenqualitätsmanagements in Projekten Um die oben beschriebenen Aufgaben effektiv und effizient wahrnehmen zu können, ist eine geeignete organisatorische Einbindung des Datenqualitätsmanagements in Projekte erforderlich. Die Art der Einbindung ist abhängig von den konkreten Aufgaben, die in dem jeweiligen Projekt zu leisten sind.
225
C Organisation
Abbildung 6: Organisatorische Einbindung des Datenqualitätsmanagements in Projekte
In Abbildung 5 sind mit Review-Board, PM-Office und Teilprojektleitung drei mögliche Verankerungen des Datenqualitätsmanagements in Projekten aufgezeigt: – Eine Verankerung des Datenqualitätsmanagements im Review-Board ist insbesondere für die Projekte angebracht, die für Belange der Datenqualität von großer Bedeutung sind. Dies können bspw. Projekte sein, in denen neue Prozesse und Verantwortlichkeiten für Daten(-bestände) etabliert werden. In diesem Fall kann ein Datenqualitätsmanagement seine Bedürfnisse frühzeitig adressieren und das Projekt auf eventuelle zukünftige Fehlentwicklungen rechtzeitig hinweisen. – Eine Verankerung des Datenqualitätsmanagements in einer Teilprojektleitung ist insbesondere bei Projekten sinnvoll, in denen große Datenbestände Änderungen erfahren (bspw. bei Migrationsprojekten). In der Verantwortung für ein Teilprojekt Datenqualität kann durch die Organisationseinheit Datenqualitätsmanagement eine adäquate Planung, Steuerung und Koordination der durchzuführenden Arbeitspakete erfolgen.
226
1 Organisatorische Ansiedlung eines Datenqualitätsmanagements Neben den oben beschriebenen Verankerungen in Projekten kann das Datenqualitätsmanagement eine Beratungsfunktion für Auftraggeber, Projektausschuss bzw. Projektleitung wahrnehmen5.
1.5 Zusammenfassung und Ausblick 1.5.1 Zusammenfassung Die adäquate Ansiedlung von Datenqualitätsmanagement in Unternehmen spielt vor dem Hintergrund der wachsenden Bedeutung von Daten- bzw. Informationsqualität eine entscheidende Rolle. Wenn sich Unternehmen nicht auf die reaktiven Aufgaben der Kontrolle und Sicherung von Datenqualität beschränken wollen, sondern ein aktives Management der Qualität von Daten benötigen, erscheint es erforderlich, die mit einem Datenqualitätsmanagement verbundenen Aufgaben breit im Unternehmen zu verankern, um nachhaltig ein Bewusstsein für Datenqualität zu fördern. Neben einer zentral angesiedelten Organisationseinheit, die sich eher auf konzeptionelle und koordinierende Tätigkeiten konzentriert, schaffen dezentral im Unternehmen etablierte Stellen die notwendigen Verbindungen in die gesamte Organisation. Die Einbindung in Projekte muss vor dem Hintergrund der Linienaufgaben des Datenqualitätsmanagements erfolgen, um zu vermeiden, dass sich zwei unterschiedliche Niveaus hinsichtlich des Umgangs mit Datenqualität etablieren. Dies hätte eine Verlagerung der DQ-Tätigkeiten von Projekten in die Linie oder umgekehrt zur Folge.
1.5.2 Ausblick Zukünftig werden Unternehmen im Zuge der zunehmenden Virtualisierung der Wertschöpfungsketten ein stärkeres Datenqualitätsmanagement benötigen, um die in dem Unternehmen befindlichen Glieder der Wertschöpfungskette abzusichern. Um dies zu gewährleisten, muss sich ein Datenqualitätsmanagement zukünftig mehr auf die Konzeption und die Durchführung von DQ-Assessments [Lee et al. 2006], in denen für einen definierten Bereich der Status bzgl. der Datenqualität (bspw. Aussagen über Verantwortlichkeiten, Prozesse, Kontrollmechanismen) ermittelt wird, wie auch auf die Anwendung quantitativer Methoden zur Messung von Datenqualität fokussieren.
5
Eine enge Begleitung aller in einem Unternehmen durchgeführten Projekte wird sich aus Ressourcengründen nicht umsetzen lassen. Die Beratung von Schlüsselpersonen in Projekten stellt daher eine sinnvolle Alternative oder Ergänzung dar.
227
C Organisation Weitere Adjustierungen hinsichtlich der organisatorischen Ansiedlung des Datenqualitätsmanagements können sich durch die Entwicklung neuer ITArchitekturkonzepte (z. B. service-orientierte Architekturen) und damit der einhergehenden stärkeren Verschmelzung von IT und Business ergeben.
Literaturverzeichnis [Argyris & Schön 1978] Argyris, C., Schön, D.: Organizational Learning: A Theorie of Action Perspective. Addison-Wesley, Reading, 1978. [Brunner & Wagner 2004] Brunner, F. J., Wagner, K. W.: Taschenbuch Qualitätsmanagement, 3. Auflage. Carl Hanser Verlag, München, 2004. [Dippold et al. 2005] Dippold, R., Meier, A., Schnider, W., Schwinn, K.: Unternehmensweites Datenmanagement, 4. Auflage. Vieweg Verlag, Braunschweig, 2005 [English 1999] English, L. P.: Improving Data Warehouse and Business Information Quality. John Wiley & Sons, New York, 1999. [Gaitanides 1994] Gaitanides, M., Scholz, R., Vrohlings, A., Raster, M.: Prozeßmanagement. Carl Hanser Verlag, München, 1994. [Gaulke 2004] Gaulke, M.: Risikomanagement in IT-Projekten, 2. Auflage. Oldenbourg Wisschaftsverlag, München, 2004. [Gray & Larson 2006] Gray, C.F., Larson, E.W.: Project Management. McGraw-Hill, New York, 2006. [Heinrich & Lehner 2005] Heinrich, L. J., Lehner, F.: Informationsmanagement, 8. Auflage. Oldenbourg Verlag, München, 2005. [Kerzner 2003] Kerzner, H.: Projektmanagement. mitp-Verlag, Bonn, 2003 [Krcmar 2004] Krcmar, H. Informationsmanagement, 4. Auflage. Springer Verlag, Berlin, 2004. [Lee et al. 2006] Lee, Y. W., Pipino, L. L., Funk, J. D., Wang, R. Y.: Journey to Data Quality. MIT Press, Cambridge, 2006. [Mathes et al. 2005] Mathes, T., Bange, C., Keller, P. : Software im Vergleich : Datenqualitätsmanagement. Oxygon Verlag, München, 2005. [Olson 2003] Olson, J. E.: Data Quality. Morgan Kaufmann, San Francisco, 2003. [Pfeifer 2001] Pfeifer, T.: Qualitätsmanagement, 3. Auflage. Carl Hanser Verlag, München, 2001. [Schreyögg 2003] Schreyögg, G.: Organisation, 5. Auflage. Gabler Verlag, Wiesbaden, 2003.
228
2 Organisatorische Maßnahmen für gute Datenqualität Jürg Wolf
2.1 Messungen, Ursachen und generische Ansätze Datenqualität kann nicht delegiert, verordnet und im Nachhinein nur schwer in ein Software-Produkt integriert werden. Maßnahmen für eine gute Datenqualität müssen bereits beim Design einer Applikation oder eines Prozesses getroffen werden. Für den Benutzer sind die meisten der zu treffenden Maßnahmen unsichtbar, ähnlich einem Eisberg, der nur 10 % seiner Masse aus dem Wasser herausragen lässt, und das ist eigentlich auch gut so, da das Thema Datenqualität nicht alleine dem Benutzer aufgebürdet werden kann. Dieser Artikel zeigt, welche organisatorischen Maßnahmen getroffen werden können, um die Datenqualität in einer Datenbank dauerhaft zu steigern.
2.1.1 Möglichen Arten von Datenqualitätsmängeln Datenqualitätsmängel können aus organisatorischer Sicht ihre Quelle in jedem Schritt des Grundablaufes der klassischen IT-Funktionen haben: Bei der Eingabe, der Verarbeitung und bei der Ausgabe (EVA-Prinzip) sowie der technischen Speicherung der Daten (siehe Abbildung 1). Zusätzlich zu diesen technischen Mängelquellen (zentraler Bereich der Grafik) kommen noch mögliche menschliche Quellen (Bereiche an den Enden) dazu: die Erhebung und die Interpretation. Tabelle 1 gibt anhand von Beispielen einen Überblick über verschiedene Ursachen von Datenqualitätsmängeln.
229
C Organisation Tabelle 1: Ursachen für Datenqualitätsmängel und ausgewählte Beispiele DQ-Mängel
Mögliche Ursachen (Auswahl)
Prozessfehler
– Doppelerfassungen – Daten werden zu einem zu frühen oder zu späten Zeitpunkt verlangt – Ergebnisse, welche den Empfänger nicht erreichen
Anwenderfehler
– Ungenügende Erhebung – Tippfehler – Verlegenheitseinträge
Programmierfehler
– Mehrfachvergabe von Schlüsseln – Datensätze verschwinden oder man kann nicht mehr darauf zugreifen – Auswertungen werden missverständlich umgesetzt – Ungenügende oder fehlerhafte Speicherung von Daten
Kundenfehler (Datenbezüger)
– Falsch oder ungenau angeforderte Daten und Auswertungen – Missverständliche Definitionen
2.1.2 Datenqualitätsmängel – Entstehung und Bekämpfung Ausgehend von diesen möglichen Ursachen können einige generische Ansätze beschrieben werden, welche die Datenqualität verbessern. Ausgangspunkt ist dabei Abbildung 1, welche den Zusammenhang zwischen Fehlerquellen und den Fehlerarten aufzeigt. Für jede dieser Fehlerarten kann ein generischer Ansatzpunkt gefunden werden, der nachhaltig zur Behebung von Datenqualitätsmängeln beitragen kann. Die vier generischen Ansätze sind: 1. 2. 3. 4.
Verantwortung, Messen und Publizieren Freiheit und Führung Standards setzen und durchsetzen Durchgängige Definitionen festlegen
Zu jedem dieser generischen Ansätze können nun Maßnahmen definiert werden, welche in groben Zügen aufzeigen, wie eine schlechte Datenqualität bekämpft werden kann.
230
FehlerQuellen
FehlerArten
Generische Ansätze
2 Organisatorische Maßnahmen für gute Datenqualität
Verantwortung, Messen und Publizieren Freiheit und Führung
Standards
Definitionen
Prozesse Anwender
Erhebung
Programmierung
Eingabe
Verarbeitung
Ausgabe
Kunde
Interpretation
Speicherung Abbildung 1: Das organisatorische DQ-Modell mit Fehlerarten und Ansätzen
2.1.3 Vier Generische Ansätze 2.1.3.1 Ansatz 1: Verantwortung, Messen und Publizieren Nach Peter Drucker kann man nur lenken, was man messen kann1. Dabei muss bedacht werden, dass es umso wichtiger ist, die Prozessperspektive speziell zu berücksichtigen je unternehmenskritischer die Qualität der Daten ist. Darum muss für jeden Prozess- und/oder Datenbereich jemand die Verantwortung übernehmen, die Datenqualität zu messen und die Resultate den Beteiligten zugänglich zumachen.
1
Originalzitat in Englisch von Peter F. Drucker aus [Wikiquote]: „If you can’t measure it, you can’t manage it”.
231
C Organisation Bleibt nur noch die Frage, wer denn alles zu den Beteiligten gehört. Sicher müssen der Process Owner, der Anwender, der Programmierer und der Kunde mit einbezogen werden. Es kann aber durchaus sein, dass der Anwender wiederum als Kunde einer vorgelagerten Verarbeitung auftritt und somit nicht der Urheber der Daten ist und der Kunde nicht der Endkunde ist. Dann müssen auch diese in den Kreis der Betroffenen aufgenommen werden, bis die gesamte relevante Verarbeitungskette, wie in Abbildung 2 dargestellt, abgedeckt ist. Prozess Anwender
Erhebung
Programmierung
Eingabe
$SSOLNDWLRQ$
Verarbeitung Speiche rung
Kunde / Anwender
Ausgabe
Programmierung
Eingabe
Verarbeitung
Kunde / Anwender
Ausgabe
Eingabe
Speiche
$SSO% rung
Programmierung
Verarbeitung Speiche rung
Ausgabe
Kunde
Interpretation
$SSOLNDWLRQ&
Abbildung 2: Die Prozesskette unter Einbezug aller beteiligen Applikationen
2.1.3.2 Ansatz 2: Freiheit und Führung Die Softwareentwicklung bescherte uns die Grafischen Benutzerschnittstellen (GUI – Graphical User Interface), aber die Kommandozeile konnte auch durch das modernste GUI immer noch nicht eliminiert werden – hauptsächlich, weil es Benutzer mit verschiedenen Systemkenntnissen und Ansprüchen gibt. Analog dazu gibt es auch verschiedene Benutzer von datenbankbasierter Software und Workflowsystemen: Im Normalfall, wenn der Standardprozess passt, genießt der Benutzer die Führung durch die Software, aber bei Sonderfällen muss der Benutzer eine Möglichkeit haben, den Eingabe- oder Verarbeitungsprozess der Realität anzupassen. Besteht diese Eingriffsmöglichkeit nicht, werden alle Fälle, die nicht dem Standardablauf entsprechen, eine schlechte Datenqualität aufweisen.
2.1.3.3 Ansatz 3: Standards setzen und durchsetzen Die Entwicklung von Software durchläuft meistens standardisierte Phasen und wird nach standardisierten Verfahren getestet. So ist die mittel- bis langfristige Qualität der Daten die mit dieser Software erstellt, verarbeitet, gespeichert und ausgegeben werden, mit Sicherheit besser, als wenn die Software „wild“ erstellt wurde - die Art und Weise wie eine Software entworfen, hergestellt und ausgebreitet wird, hat einen maßgeblichen Einfluss auf die Datenqualität in späteren Jahren. Ähnlich ist es mit Standards bezüglich Prozessen, Eingabeformaten etc.: was einheitlich erfasst wurde, kann einheitlich verarbeitet und ausgewertet werden.
232
2 Organisatorische Maßnahmen für gute Datenqualität
2.1.3.4 Ansatz 4: Durchgängige Definitionen festlegen Zur Datenqualität tragen nicht nur die Daten eingebenden und verarbeitenden Personen und Organisationen bei – der Kunde hat in dem ganzen Thema die wichtigste Aufgabe, indem er zuerst einmal definieren muss, was ihm wichtig ist. Somit muss zwischen dem Datenlieferanten und dem Kunden ein gemeinsames Verständnis für das entwickelt werden, was am Ende erwartet wird. Diese direkte Kommunikation ermöglicht den beteiligten Parteien, gemeinsam das Ziel der gewünschten Datenqualität zu erreichen. Dadurch kann ein gemeinsames Verständnis für Begriffe, Definitionen, Prozesse und Resultate erarbeitet werden, welches die Kommunikation wesentlich vereinfacht.
2.2 Aus den generischen Ansätzen abgeleitete Strategien Aus den in Abbildung aufgeführten generischen Ansätzen und den daraus abgeleiteten Maßnahmen können nun verschiedene Strategien entwickelt werden. Tabelle 2 gibt einen Überblick über insgesamt 5 mögliche Strategien, welche im Folgenden detailliert vorgestellt werden. Tabelle 2: Generische Ansätze und Strategien Generischer Ansatz: Strategien:
Ansatz A:
Ansatz B:
Ansatz C:
Ansatz D:
Verantwortung
Freiheit & Führung
Standards
Definitionen
Strategie A: Transparenz schafft Vertrauen
9
Strategie B: Definition von Verantwortlichkeiten
9
Strategie C: gezielt Abhängigkeiten suchen
9
Strategie D: Daten-Lifecycle auf Basis des Prozesses Strategie E: Niederschwellige Verbesserungs-Werkzeuge
9
9 9
9
9 9
9
Wie Tabelle 2 zeigt, wirken die meisten der aufgelisteten Strategien auf mehrere generische Ansätze. Umgekehrt kann die Umsetzung eines generischen Ansatzes Elemente verschiedener Strategien umfassen. Somit ist die Umsetzung eines einzelnen Feldes dieser Tabelle nicht möglich, da es sich immer um mehrere vernetzte Abhängigkeiten handelt.
233
C Organisation
2.3 Strategie A: Transparenz schafft Vertrauen 2.3.1 Ansatzpunkt dieser Strategie Als organisatorische Transparenz lassen sich folgende Punkte auflisten: – Die verwendeten Begriffe, Definitionen, Annahmen und Grundlagen für die Datenqualitätsmessungen werden dokumentiert und offengelegt. – Umfang, Methode und Periodizität der durchgeführten Messungen wird klar definiert und laufend kommuniziert. – Die Resultate der Datenqualitätsmessungen sind immer für alle beteiligten Personen einsehbar. Zudem wird nur das gemessen, wofür ein Kunde (Kunde im Sinne von Auftraggeber) einen Auftrag gibt und allenfalls dafür bezahlt. Andernfalls verkommt die ganze Übung zu einer Selbstbeschäftigung der durchführenden Stelle. Neben den jeweils aktuellen Zahlen zur Datenqualitätsmessung sollte auch ein Verlauf über einen größeren Zeitraum dauernd abrufbar sein, damit die Entwicklung der Datenqualität verfolgbar ist. Die Messungen sollten zentral durchgeführt werden. Ist die durchführende Stelle auch noch weitgehend neutral gegenüber den Beteiligten der beobachteten Daten, so ist dies ein weiterer Pluspunkt für eine breit anerkannte Messung. Daneben sorgt die technische Transparenz für eine öffentliche Dokumentation, eine zentrale Messung und eine dauernd freie Verfügbarkeit der Resultate. Idealerweise erfolgt dies durch eine Publikation der der Resultate auf dem Intranet.
2.3.2 Nutzen dieser Strategie Unter allen Beteiligten existiert eine gemeinsame Basis darüber, was, wo und wie gemessen wird. Von dieser Basis aus können gemeinsame Aktionen und Verbesserungen viel einfacher gestartet und koordiniert werden. Durch das Gespräch mit dem Kunden ergibt sich auch eine Sensibilisierung aller Beteiligten für das Thema, was für sich alleine schon eine Verbesserung der Datenqualität ergibt. Sind auch noch entsprechende öffentlich verfügbare Messungen vorhanden, ergibt sich daraus relativ schnell ein Wettbewerb, der alle Beteiligten anspornt, da nun die Qualität der eigenen Arbeit sichtbar ist.
2.3.3 Nachteile und Risiken dieser Strategie Transparenz wird nicht überall gerne gesehen, da sie anderen Abteilungen einen Einblick in die eigene Organisation, deren Strategie, Effektivität und Effizienz gibt. Damit öffnet man für sich selbst und den eigenen Mitarbeiter eine Angriffsfläche für Kritik. Aus diesem Grund muss diese Strategie in jedem Fall von allen Beteiligten befürwortet werden, damit sie umgesetzt werden kann.
234
2 Organisatorische Maßnahmen für gute Datenqualität
2.4 Strategie B: Definition von Verantwortlichkeiten 2.4.1 Ansatzpunkt dieser Strategie Wer sich nicht verantwortlich fühlt für etwas, verbessert auch nichts daran. Also muss es im Interesse aller sein, wenn sich die verschiedenen Stellen im Datenverarbeitungsprozess in Form von Rollen benennen lassen. Folgende Businessrollen haben sich als nützlich erwiesen: Der Process Owner, der Data Owner, der Data Definition Owner, der Data Consumer und der Data Provider.
2.4.2 Positionierung dieser Businessrollen im Modell In Abbildung 2 wird die Positionierung und Zuordnung dieser Businessrollen im Modell sichtbar. Nachfolgend werden die einzelnen Rollen erklärt.
FehlerQuellen
FehlerArten
Data Provider
Process Owner
'DWD2ZQHU Data Owner
Data Definition Owner / Data Consumer
Prozesse Anwender
Erhebung
Programmierung
Eingabe
Verarbeitung
Kunde
Ausgabe
Interpretation
Speicherung Abbildung 3: Positionierung der Rollen im Modell der Fehlerarten
235
C Organisation
2.4.2.1 Der Process Owner Der Process Owner kennt den gesamten Ablauf von der Erfassung bis zur Verwendung und ist verantwortlich dafür, dass ein Prozess definiert (und dokumentiert) wird. Er legt fest, in welchem Prozessschritt welche Daten erfasst und verändert werden. Normalerweise umfasst seine Verantwortung alles, was mit dem Prozess zu tun hat inklusive Zeitvorgaben, Prozessverbesserungen etc. Für die Beurteilung der Datenqualität hat er auch für entsprechende Werkzeuge zur Messung, Publizierung und Verbesserung der Datenqualität zu sorgen, da er ohnehin eine integrative Funktion innehat.
2.4.2.2 Der Data Owner Der Data Owner ist der Eigentümer der Daten und ist dadurch verantwortlich für die Verwendung der Daten – von der Erfassung bis zur Eliminierung und somit auch für die Themen Datenschutz und Datensicherheit. Während der Process Owner den Fokus eher auf der Informationserfassung hat, ist der Fokus des Data Owners eher auf der Informationsverarbeitung und -verwendung indem er in der Regel auch die Geschäftsregeln erstellt, welche ein wichtiges Werkzeug bezüglich der Identifikation der Datenqualität sind. Zusätzlich muss er dafür sorgen, dass die Messbereiche und -methoden definiert werden. Sehr oft ist der Data Owner identisch mit dem Data Consumer oder dem Process Owner – kann aber auch völlig außerhalb dieses Modells stehen. Für die korrekte Benennung des Data Owners gibt es keine starren Regeln, sondern nur Hinweise. [Loshin 2001, Seiten 33-37] beschreibt insgesamt 11 Möglichkeiten, wer der Data Owner sein könnte: Der Datenersteller, der Datenverwender, der Datenverarbeiter, das Unternehmen als Ganzes, der Auftraggeber für die Datenerstellung, der Entdecker von Daten, der Zusammensteller von Datensammlungen, der Leser, der Besitzer, der Lizenznehmer und Jedermann (Public Domain).
In der täglichen Praxis werden wohl kaum alle dieser möglichen Data Owner in Frage kommen – die Auflistung zeigt aber, dass die korrekte Identifizierung des Data Owner nicht einfach ist und somit sorgfältig erfolgen sollte.
2.4.2.3 Der Data Definition Owner und Data Consumer Der Data Definition Owner ist meistens identisch mit der Stelle, die die Daten verwendet, dem Data Consumer welcher der eigentliche Nutznießer der Daten ist. Er definiert, welche Daten in welcher Qualität, Granularität und in welchem Format und allenfalls auf welchem Medium geliefert werden müssen. Werden die gleichen Daten von mehreren Stellen konsumiert, wird die Rolle des Data Definition Owner von einem dieser Verwender wahrgenommen indem er die anderen Data Consumer entsprechend koordiniert.
236
2 Organisatorische Maßnahmen für gute Datenqualität
2.4.2.4 Der Data Provider Der Data Provider ist zuständig für die zeitgerechte Beschaffung und Lieferung der benötigten Daten nach der Definition des Data Definition Owner. Hier ist denn auch der klassische Ansatzpunkt für viele Verbesserungsmaßnahmen zu finden. Initiativen zur Verbesserung der Datenqualität dürfen aber nicht nur hier ansetzen. Fehlen vom Data Consumer sowohl Format, Qualität als auch Zeitpunkt, wird es schwierig, den unausgesprochenen Anforderungen gerecht zu werden.
2.4.3 Nutzen dieser Strategie Schon alleine durch die formale Regelung von Verantwortlichkeiten wird Transparenz (siehe dazu auch Strategie A) und Ordnung in das System gebracht. Wird die vereinbarte Verantwortung auch wahrgenommen, liegt ein großes Potential in dieser Strategie. Im Idealfall werden die aufgelisteten Geschäftsrollen auch als Autorisierungsrollen implementiert, so dass sehr einfach eine Übereinstimmung zwischen Aufgaben, Kompetenzen und Verantwortung erreicht wird.
2.4.4 Nachteile und Risiken dieser Strategie Definition, Koordination, Implementation und Wartung von solchen Geschäftsund Autorisierungsrollen ist immer ein Zusatzaufwand und bedingt Konsens und eine Verwaltung. Das alles erhöht die Komplexität des Systems und die Abhängigkeit zu anderen Prozessen oder kreiert neue Prozesse, welche wiederum der Problematik der Datenqualität unterliegen. Diesem Umstand kann begegnet werden, indem mehrere ähnliche Applikationen zu Applikationsgruppen oder Prozesse zu Prozessgruppen zusammengefasst werden und somit für diese Gruppen Prozesse, Geschäfts- und Autorisierungsrollen definiert werden können.
2.5 Strategie C: gezielt Abhängigkeiten suchen 2.5.1 Ansatzpunkt dieser Strategie Informationen, welche lediglich dokumentarisch irgendwo abgelegt sind, veralten viel schneller, als wenn sie in einer technischen, juristischen oder finanziellen Abhängigkeit eingeflochten sind. Solche Abhängigkeiten zur Realität und deren Prozessen können für die meisten Datenbanken gezielt zur Validierung von Informationen verwendet werden. Dabei reicht es teilweise schon, die Herkunft einer Information zu kennen. Beispiel 1 zeigt, was die Herkunft einer Information über deren Qualität aussagen kann:
237
C Organisation Beispiel 1 – die vertrauenswürdigere Information Vor Ihnen steht auf zwei separaten Blättern Papier die Information, dass ein entfernter Bekannter ein Auto einer bestimmten Marke fährt. Die Informationen sind nicht übereinstimmend, könnten aber plausibel sein. Sie sind sich zudem sicher, dass er nur ein Auto besitzt. Das erste Papier ist ein aktueller Ausdruck der Webseite dieses Bekannten, auf der er angibt, dass er Fahrzeug A fährt. Das zweite Papier ist ein Ausschnitt von der Parkplatzliste seines Arbeitgebers, auf welchem steht, dass unter seinem Namen das Fahrzeug B für den Parkplatz Nummer 15 angemeldet ist. Die vertrauenswürdigere Information ist sicher diejenige, welche aus der Parkplatzliste stammt. Wieso? Immerhin stammt doch die andere Information direkt vom Bekannten selbst. Das Problem liegt hier darin, dass es keinerlei Konsequenzen hat, wenn auf seiner Webseite noch das vorletzte Auto aufgeführt ist – vielleicht hat er einfach vergessen, dass er diese Information jemals da hingestellt hat und hat sie deshalb nie aktualisiert. Dagegen wird bei zugewiesenen Parkplätzen einer Firma im Normalfall ein Auto nach einer ersten Mahnung sehr schnell entfernt, wenn es nicht dort hingehört. Also hat es direkte Konsequenzen, wenn die Information nicht korrekt ist – der Autohalter wird möglichst schnell sein neues Auto in der Parkplatzliste nachtragen lassen, um nicht zu riskieren, dass es abgeschleppt wird.
2.5.2 Gezielte Definition von Master und Slave Redundanzen bergen normalerweise die Gefahr von Doppelspurigkeiten und Widersprüchen in sich. Daher müssen solche Redundanzen periodisch abgeglichen werden. Dazu wird für jede redundant vorliegende Information ein „Master“ (die vertrauenswürdigere Quelle) bestimmt und dessen Informationen an andere Datenbanken verteilt, welche als „Slave“ oder „Spiegel“ betrieben werden. Dadurch müssen die gespiegelten Daten nicht mehr an mehreren Orten gepflegt werden, sondern nur noch in der Datenbank, in der die benötigte Datenqualität sichergestellt werden kann. Von hier aus werden sie an alle anderen interessierten Applikationen verteilt. Ist ein Master nicht eindeutig definierbar, weil beispielsweise Daten annähernd gleicher Qualität von gleich vertrauenswürdigen Quellen bezogen werden, dann muss im schlimmsten Fall ein eigener Master definiert werden, der von diesen Quellen gespeist wird und von nun an die qualitätsgeprüfte Referenz ist. Dieses Vorgehen hat nichts mit Datenintegration oder einem Data Warehouse zu tun, sondern ist als gezielter Datenaustausch zwischen gleichberechtigten Datenbanken zu verstehen. Jede der gezielt verteilten Datenbanken hat für einen ganz klar umrissenen Bereich eine Masterfunktion.
238
2 Organisatorische Maßnahmen für gute Datenqualität Beispiel 2 – das Personalverzeichnis einer größeren Firma Für diese Informationssammlung gibt es vom Telefonverzeichnis bis zur Gehaltsabrechnung verschiedenste Abnehmer. Abbildung 4 zeigt den Datenaustausch zwischen verschiedenen Applikationen: Die Personaldatenbank ist der geeignete Master für Personendaten, da von hier aus auch die Gehaltszahlungen ausgehen. Eine schlechte Datenqualität im Personenstamm wird hier vermutlich zuerst bemerkt. Für die Telefonnummern ist es aber besser, die Daten direkt von der Telefonzentrale zu beziehen, da eine falsche Telefonnummervergabe hier zuerst bemerkt wird.
Abbildung 4: Der Datenfluss zwischen den Applikationen aus Beispiel 2
2.5.3 Nutzen dieser Strategie Durch das gezielte Einbinden von Informationen einer Datenbank in technische oder buchhalterische Abläufe werden Abhängigkeiten geschaffen, welche durch eine Rückkopplung aus der Realität eine „dauernde Validierung“ haben.
2.5.4 Nachteile und Risiken dieser Strategie Abhängigkeiten sind hier nicht nur erwünscht, sondern bergen auch Risiken in sich: So ist bei jeder Schnittstelle ein Koordinationsaufwand zu berücksichtigen. Auch steigt mit jeder Schnittstelle die Komplexität und die Fehlermöglichkeiten der gesamten Infrastruktur. Sind noch verschiedene Technologien zu berücksichti-
239
C Organisation gen, so kann dieser Ansatz auf der organisatorischen Ebene zu einer Komplexität führen, die irgendwann nicht mehr überblickbar ist. Lösungsmöglichkeiten bieten hier Proxyserver oder Data Warehouses/Data Marts auf denen die verschiedenen Datenquellen zusammengeführt und von dort zentral den Datenbeziehern zur Verfügung gestellt werden. Die Masterfunktion ist aber immer noch bei den einzelnen Applikationen – der Proxyserver übernimmt nur die Verteilfunktion der Daten.
2.6 Strategie D: Daten-Lifecycle auf Basis des Prozesses 2.6.1 Ansatzpunkt dieser Strategie Im Fokus der Organisation von Unternehmen gibt es laut [Müller-Stewens & Lechner 2003, Seite 450] eine Verschiebung von der Aufbauorganisation zur Ablauforganisation, respektive zum Prozess. Ebenso ist es heute aus Sicht der Datenorganisation und Datenqualität weniger wichtig, wer zuständig ist für Kundengewinnung, Bestell- oder Mahnwesen: im Gegenzug ist es wichtiger geworden, welchen Prozess ein Datensatz vom Zeitpunkt der Ersterfassung bis zur Eliminierung durchläuft.
2.6.2 Der Prozess und Lebenszyklus Die Abfolge von einzelnen Phasen kann als Lifecycle (Lebenszyklus)2 des Datensatzes beschrieben werden. Die Definition und Unterteilung dieser Phasen erfolgt mit Hilfe des Wissens darüber, wo und unter welchen Umständen eine Information entsteht oder verändert wird und wo sie am zweckmäßigsten erfasst und verarbeitet wird. Beispiel 3 veranschaulicht diesen Zusammenhang. Beispiel 3 – der Lifecycle eines Kundendatensatzes Eine Person interessiert sich für ein Produkt einer Firma und wünscht darum einen Katalog. Dafür sind nur Name und Adresse im System zu erfassen. Weitere Informationen wie beispielsweise die Bonität sind zu diesem Zeitpunkt der Kundenbeziehung weder praxisgerecht noch notwendig. Im Lifecycle ist diese Adresse nun im Lifecycle-Status „Interessent“. Als Mussfelder existieren hier die nur erwähnten Felder. Alles andere ist optional oder nicht sichtbar. Wird nun aus der Katalogbestellung eine Produktbestellung, geht der Datensatz vom Status „Interessent“ in den Status „Besteller“ über, bei der weitere Felder wie z.B. der Ansprechpartner zu Mussfeldern werden können. Parallel zur Kommissionierung der Bestellung läuft die Abklärung der Bonität. Nur wenn das Resultat positiv ist, kann der Status auf „Kunde“ geändert werden, da das Feld „Boni2
Siehe auch [Kotler/Bliemel 2001, Seite 571ff] zum Produktlebenszyklus.
240
2 Organisatorische Maßnahmen für gute Datenqualität tät“ ein Testkriterium für den Phasenwechsel ist von nun an ein Mussfeld ist. Idealerweise ist das System so eingerichtet, dass ein Versand von Artikeln nur an Adressen in diesem Status möglich ist. Ist die Abklärung der Bonität negativ, wird der Status auf „Unerwünscht“ gesetzt, die Kommissionierung wird wieder rückgängig gemacht und an den abgewiesenen Kunden eine entsprechende Mitteilung versendet.
Durch die Implementierung eines solchen Lifecycle-Konzeptes ist es möglich, viele Probleme mit leeren Datenfeldern, respektive mit unter Zwang gefüllten (und damit wertlosen) Feldern, einfach und wirkungsvoll zu lösen. In Tabelle 3 ist für Beispiel 3 dargestellt, wann welche Felder als Mussfelder (X) definiert sind, wann als optionale Felder (?) und wann sie überhaupt nicht auf der Bearbeitungsmaske des Systems erscheinen (-). Tabelle 3: Mussfelder und optionale Felder im Lebenszyklus eines Datensatzes
2.6.3 Nutzen dieser Strategie Durch die Implementierung eines solchen Lifecycle-Modells lässt sich sehr effektiv und effizient die Einschränkung von Datenbankmanagementsystemen aufbrechen, ein Feld für immer als Mussfeld oder für immer als optionales Feld definieren zu müssen. Durch das Lebenszykluskonzept lässt sich ein Datenbankfeld für einzelne Phasen als Mussfeld definieren, während es in anderen Phasen nicht zwingend gefüllt sein muss.
2.6.4 Nachteile und Risiken dieser Strategie Auch bei diesem Vorgehen wird die Komplexität des Gesamtsystems erhöht. Zudem wird die Flexibilität in der Geschäftslogik mit einer erhöhten Komplexität in der Benutzerschnittstelle durch die Lifecycle-Prüfungen erkauft. Existieren zu einer Datenbank mit diesem Konzept zudem Schnittstellen von anderen Applikationen oder gibt es Benutzer, welche unter Umgehung der normalen Benutzerschnitt-
241
C Organisation stelle auf die Datenbank schreiben können, dann muss über entsprechende Mechanismen wie z.B. Datenbanktrigger mit Validierungslogik sichergestellt werden, dass die Datenmanipulationen der Logik des aktuellen Lifecycle-Status entsprechen.
2.7 Strategie E: Niederschwellige Verbesserungs-Werkzeuge 2.7.1 Ansatzpunkt dieser Strategie Manche Verantwortliche wissen um die Datenqualität in ihrem Bereich. Spätestens aber bei der allgemeinen Ausweisung des Datenqualitätswertes sehen es aber auch andere. Das heißt aber noch lange nicht, dass der jeweilige Verantwortliche auch willens oder gar fähig ist, diesen Zustand zu ändern. Damit er dies tut, müssen ihm auch entsprechende Werkzeuge in die Hand gegeben werden.
2.7.2 Beispiel eines niederschwelligen Verbesserungs-Werkzeuges In Anlehnung an die inzwischen weit verbreiteten „Cockpits“ werden zentrale Elemente aller Messungen und auch der Einstiegspunkt für Veränderungen auf einer zentralen Webseite dargestellt. Davon ausgehend sind Detaillisten abrufbar, aus denen wiederum ein direkter Start des Verbesserungsprozesses möglich ist. Die hier vorgestellte Applikation wurde im Rahmen der Inventar-Applikation für Hardware und Software der Firma UBS verwirklicht.
2.7.2.1 Schritt 1 – Einstieg über die Management-Sicht Der Einstieg in das System bildet die Management-Sicht aus Abbildung 5, welche in Balkenform die gemessenen Werte jeweils per Messdatum anzeigt.
Abbildung 5: Schritt 1 – Die Management-Sicht in Balkenform Nun kann der Verantwortliche auf den blauen Link seines Bereiches klicken und erhält darauf eine Detail-Fehlerliste mit den Fehlern zum jetzigen Zeitpunkt im EXCEL-Format.
242
2 Organisatorische Maßnahmen für gute Datenqualität
2.7.2.3 Schritt 2 – Detaillisten für das Fehlertracking Diese Detailliste kann nun in EXCEL nach Belieben sortiert, erweitert und über die Autofilter Funktion von EXCEL eingeschränkt werden.
Abbildung 6: Schritt 2 – Die Detailliste in EXCEL Wie in Abbildung 6 ersichtlich, ist im EXCEL-Arbeitsblatt die Software Component ID mit einem Link hinterlegt. Dieser Link führt direkt auf das „WebStammblatt“ dieser Software-Komponente mit all seinen Attributen und Verbindungen zu anderen Entitäten.
2.7.2.5 Schritt 3 – Die Verbesserung der Datenqualität Nun kann in den Bearbeiten-Modus gewechselt werden in dem die Daten unmittelbar verbessert, ergänzt und abgespeichert werden können (Abbildung 7).
Abbildung 7: Schritt 3 – Korrektur der Information und Speichern Der ganze dargestellte Ablauf dauert im Normalfall zwischen 1 und 3 Minuten, sofern die verantwortliche Person die notwendigen Informationen gleich zur Hand hat.
2.7.3 Die Infrastruktur dieses Werkzeuges Durch den Einsatz von Web-Applikationen in Verbindung mit Standardprogrammen wie EXCEL entstehen zwar Medienbrüche vom Browser zu EXCEL und wieder zurück in den Browser. Diese Medienbrüche bürden dem Benutzer aber nicht Mehrarbeit auf, sondern führen den Benutzer dank Hyperlinks in gewohnten Werkzeugen nahtlos von einem Programm zum nächsten. Im Hintergrund ist die Infrastruktur sogar noch weiter aufgesplittet. Diese Tatsache wird dem Benutzer aber komplett verborgen, indem die Datenqualitätsseiten über HTML-Frames in die Applikationswebsite eingebunden werden. Zudem sind die Datenbanken von i-SAC und dem Datenqualitäts-Tool komplett voneinander
243
C Organisation getrennt. Eine redundante Datenhaltung liegt hier aber nicht vor, da eine klare Trennung zwischen den aktuellen Daten in i-SAC und den komprimierten Stichtagsdaten im Datenqualitätstool vorliegt.
2.7.5 Nutzen dieser Strategie Verantwortliche können sich aus diesem Thema ab sofort nicht mehr herausreden mit Ausflüchten wie „ich weiß nicht wie“, „es ist mir zu aufwändig“ oder „ich bin zwar verantwortlich, aber ich kann nichts daran ändern“. Stehen möglichst einfache Mutationsmöglichkeiten bereit, können Verantwortliche einen fehlerhaften Zustand schnell ändern – und werden dies dann auch tun.
2.7.6 Nachteile und Risiken dieser Strategie In diesem Fall wurde für dieses Cockpit eine komplett neue und separate Applikation geschaffen, welche wiederum der Problematik der Entwicklung, Dokumentation, Unterhalt und Datenqualität untersteht. Zudem kann sie nicht sicherstellen, dass die gespeicherten Daten mit der Realität übereinstimmen. Es ist aber denkbar, dass solche Messdimensionen über Korrekturfaktoren einfließen.
2.8 Vor- und Nachteile aller erwähnter Strategien 2.8.1 Der Prozess ist die Vorgabe Alle erwähnten Strategien und die daraus abgeleiteten Maßnahmen müssen in Einklang mit dem jeweiligen Prozess stehen. Das beste Werkzeug nützt nichts, wenn es nicht in einen Prozess integriert und dieser Prozess bekannt ist. Denn ist der Prozess ungeeignet oder unbekannt, wird ein neues Datenqualitätsproblem geschaffen, anstelle der Lösung eines solchen. Neben der Umsetzung dieser Ansätze und Strategien ist daher eine umfassende Sicht auf das Problem, den Prozess und die Firmenkultur zu wahren, soll eine „Verschlimmbesserung“ verhindert werden. Geeignete Kommunikationsmaßnahmen müssen daher rechtzeitig definiert, geplant und umgesetzt werden.
2.8.2 Das Saatkorn ist der Beginn Bei der in Kapitel 2.7 beschriebenen Lösung wurde zuerst mit drei Bereichen (Submodellen) der Inventardatenbank der UBS begonnen: Governance, SoftwareKomponenten und IT-Service-Monitoring. Nachdem ein positiver Trend in der Datenqualität dieser Bereiche festgestellt wurde und dieser Erfolg bei den Verantwortlichen anderer Bereiche bekannt wurde, wurde das System laufend erweitert. Zwei Jahre später sind insgesamt drei Bereiche im Software Inventar, zwei Bereiche im Hardware Inventar sowie ein applikationsinternes Messsystem bezüglich Aktualität in Betrieb. Ein gutes, funktionierendes Messsystem mit einfachen Ver-
244
2 Organisatorische Maßnahmen für gute Datenqualität besserungsprozessen ist somit die beste Werbung für die Notwendigkeit – und vor allem der Erreichbarkeit – einer hohen Datenqualität.
2.8.3 Komplexität des Systems und Datenvolumen Jede der beschriebenen Strategien erhöht die Komplexität des einzelnen Systems, aber auch der ganzen Systemlandschaft. Teilweise werden auch neue Abhängigkeiten zwischen den Systemen geschaffen und die bestehenden Abhängigkeiten verstärkt. Daher ist es unumgänglich, nicht gleich eine Maximal-Lösung zu planen, sondern einfach zu beginnen um das große Ziel in mehreren kleinen Schritten zu erreichen. Zudem werden durch diese Strategien immer mehr oder weniger neue Daten in irgendeiner Form produziert. Diese Daten unterliegen wiederum den Regeln und Anforderungen der Datenqualität, womit die Datenqualitätszahlen ebenfalls dauernd hinterfragt und überprüft werden müssen.
2.9 Vorgehen bei der Umsetzung dieser Strategien 2.9.1 Kontakt zwischen den Parteien Die Umsetzung der hier erläuterten Strategien ist je nach aktuellem Stand der bisherigen Maßnahmen ein kleineres oder größeres Projekt bezüglich Ressourcen, Implementierungsaufwand, Prozessumsetzung, Schulung und Firmenkultur. Daher sollte der Kontakt zwischen allen beteiligten Parteien gepflegt werden und die vorgenommenen Änderungen müssen eindeutig und stufengerecht kommuniziert werden. Zusätzlich empfiehlt es sich, die angepeilten Änderungen in kleine Pakete einzuteilen und diese in Abständen von zirka zwei bis drei Monaten ins produktive Umfeld einzuführen. In diesem Zeitraum haben alle Beteiligten den Sinn und die Auswirkungen dieses Schrittes verstanden und sind jeweils bereit für den nächsten Schritt.
2.9.2 Management-Unterstützung Entscheidend für das Erreichen einer verbesserten Datenqualität ist die Unterstützung durch das Management. [Loshin 2001] hat ein Verfahren beschrieben, wie die Kosten von schlechter Datenqualität errechnet und kommuniziert werden können – mit dem Ziel, die benötigten Ressourcen zu bekommen.
2.10 Schlussfolgerungen und Ausblick Alle der hier dargestellten Strategien können parallel implementiert werden, teilweise bedingen sie sich sogar gegenseitig. So ist es beispielsweise unmöglich, einen Lifecycle zu definieren (Strategie D), wenn keine Verantwortlichkeiten bekannt sind (Strategie B). Somit stellt sich bei dem Verantwortlichen für die Datenqualität
245
C Organisation nicht die Frage, welche dieser generischen Ansätze umgesetzt werden sollen, sondern eher die Frage, in welcher Reihenfolge und in welchem Zeitrahmen sie sinnvoll umgesetzt werden. Der von Vielen gehegte Wunsch, die Datenqualität schnell und ohne großen Aufwand mittels einer Software „ab Stange“ zu lösen, wird sich auf absehbare Zeit aus verschiedenen Gründen nicht erfüllen: – Software „ab Stange“ ist problemlos in der Lage, notwendige technische Checks durchzuführen, stößt aber an Grenzen, wenn Abläufe mit nichttechnischen Abhängigkeiten geprüft werden müssen. – Die wichtigsten Maßnahmen, mit denen die Datenqualität verbessert werden kann, liegen nicht im technischen, sondern im organisatorischen Bereich. – Eine Inventardatenbank stellt andere Anforderungen an die Datenqualität als eine Logistiksteuerung oder ein Online-Shop. Eine generische Lösung für alle möglichen Anwendungen ist deshalb heute noch undenkbar. Wo Standardsoftware mit Erfolg eingesetzt werden kann, ist in den Bereichen Data Profiling, Data Cleansing, Datenintegration und bei der Visualisierung – z.B. mittels eines Cockpits. Der Hauptaufwand liegt jedoch jenseits der technischen Maßnahmen: Hinterfragen von bestehenden Einstellungen, Abläufen und Schnittstellen – im Extremfall sogar ein Kulturwechsel bei allen Beteiligten. Erst dann haben automatisierte Datenbank-Checks, deren Visualisierung und andere technische Maßnahmen überhaupt eine Chance, die angestrebten Ziele zu erreichen. Zudem muss mittels Stichproben oder Feedback-Mechanismen eine Verbindung zwischen den Daten und der Realität zur Validierung erfolgen. So führt die Verbesserung der Datenqualität in eine kontinuierliche Maßnahme, bei der viel Überzeugungsarbeit – und auch ein bisschen Technik – anfällt.
246
2 Organisatorische Maßnahmen für gute Datenqualität
Literaturverzeichnis Wird in Weblinks das Zeichen “¬“ angezeigt, so bedeutet dies lediglich ein Zeilenumbruch und ist bei der Eingabe der URL in den Webbrowser nicht mit einzugeben. [Kotler/Bliemel 2001] Kotler, Philip; Bliemel, Friedhelm; 2001; Marketing Management, Schäffer-Poeschel Verlag Stuttgart; ISBN 3-7910-1689-X [Loshin 2001] Loshin, David; 2001; Enterprise Knowledge Management, The Data Quality Approach; Morgan Kaufmann; ISBN: 0-12-455840-2 [Müller-Stewens & Lechner 2003] Müller-Stewens, Günther; Lechner, Christoph; 2003; Strategisches Management; 2. überarbeitete und erweiterte Auflage; SchäfferPoeschel Verlag, Stuttgart; ISBN 3-7910-2051-X [Wikiquote] Wikiquote-Artikel „Peter F. Drucker“ URL: http://de.wikiquote.org/w/index.php?title=Peter_F._Drucker&oldid =201475 [Wolf 2007] Wolf, Jürg; Strategien zur Hebung der Datenqualität in Datenbanken; URL: http://akad.flyout.net/dl/DA/Diplomarbeit/Strategien%20zur%20Hebung%20 der%20 Datenqualitaet%20in%20Datenbanken.pdf [Wolf et al. 2005] Wolf, Jürg; Würthele, Volker; Thut, Peter; 2005, Messung und Visualisierung von Datenqualität, Vortrag an der 3. GIQMC 13.-14.10.2005 URL: http://www.dgiq.de/downloads.php?ddetail=1&did=22 und http://www.datenqualitaet-praktisch.de/index.php?op=ViewArticle&articleId=8& blogId=1
247
3 Informationsmanagementprozesse im Unternehmen Klaus Schwinn
3.1 Motivation In vielen Organisationen werden Datenqualitätsprojekte nachwievor taktisch lanciert. Anhand eines konkreten, punktuellen Problems werden Qualitätsprobleme erkannt und ebenso konkret und punktuell zu lösen versucht. Nachhaltige Qualitätsverbesserungen sind i.d.R. so nicht zu erzielen. Hierfür ist strategisches Denken und Handeln erforderlich, d.h. das Denken in Lösungsräumen (Mehrdimensionalität) und Wirkungszusammenhängen. Nachhaltige Qualitätsverbesserungen für die Gesamtorganisation sind nur erreichbar, wenn der Informationsmanagementprozess als Ganzes gesehen und in die Prozesslandschaft der Organisation integriert wird. Hierfür kann durchaus ein konkretes, punktuelles Problem den Anstoss geben. Die Frage ist, ob die Verantwortlichen den Willen und die Fähigkeit haben, über das konkrete Problem hinaus die Informationsmanagementprozesse der Organisation ganzheitlich zu organisieren und damit die Basis für ein nachhaltiges Informationsqualitätsmanagement zu legen. In diesem Beitrag soll anhand eines Beispiels, das auf konkreten Erfahrungen aus verschiedenen Beratungsprojekten beruht, aufgezeigt werden, wie aus einer spezifischen, eingeschränkten Problemstellung eine ganzheitliche Sichtweise auf das Daten- bzw. Informationsmanagement entwickelt werden kann. Die Begriffe Daten und Informationen werden in diesem Beitrag als Synonyme verwendet, da sie hinsichtlich der Daten- bzw. Informationsmanagementprozesse gleich zu behandeln sind.
3.2 Ausgangslage In dem Unternehmen, das wir hier betrachten wollen, wird seit einigen Jahren ein umfangreiches Data Warehouse System betrieben, das verschiedenen Reportingund Analysezwecken dient. Einige Veränderungen im Unternehmen verlangen eine Neupositionierung des Data Warehouse Systems und zukünftiger Projekte in diesem Umfeld. Es soll ein Review des Data Warehouse Systems durchgeführt werden, der eine Bewertung hinsichtlich der Architektur, der Informationsqualität und der Wirtschaftlichkeit erlaubt. Auf der Basis dieser Bewertung sollen Empfehlungen für eine mögliche Neupositionierung und die zukünftige Ausrichtung des Data Warehouse Systems formuliert werden.
248
3 Informationsmanagementprozesse im Unternehmen Eine erste Analyse zeigt, dass das Data Warehouse von den Benutzern als relativ unflexibel und unergonomisch beurteilt wird. Bei der Geschäftsleitung ist sogar die Meinung vorherrschend, das ganze System sei zu teuer, müsste abgeschaltet und ggf. ersetzt werden. Der Nutzen kann von kaum einem Anwender qualifiziert und schon gar nicht quantifiziert werden. Ohne eine Nutzenquantifizierung kann aber naturgemäß auch keine Kosten-/Nutzen-Relation hergestellt werden, was die Rechtfertigung von hohen Kosten und zusätzlichen Investitionen erschwert. Die weitere Untersuchung der Situation zeigt auch, dass an vielen Stellen des Unternehmens Berichts- und Analysesysteme entstanden sind, die das Data Warehouse nicht als Datenquelle nutzen, sondern die ihre jeweilige Datenbasis mit eigenen Mitteln erstellen und hierzu eigene Schnittstellen in die operativen Systeme entwickelt haben. Es existiert kein zentrales Data Dictionary oder Glossar, das die Datensemantik verbindlich festlegt, ebenso wenig sind Datenverantwortliche oder Dateneigentümer bestimmt. So erfolgt auch die Dateninterpretation und das Datenqualitätsmanagement jeweils nach eigenen Regeln. Was bei diesem Unternehmen auf der Datenseite fehlt, ist auf der Prozessseite vorhanden. Es gibt eine Prozesslandkarte, die einen Überblick über die Unternehmensprozesse erlaubt. Die wesentlichen Geschäftsprozesse sind mit ihren Abhängigkeiten im Detail beschrieben und die Prozessverantwortlichen sind definiert. Die Abbildung 1 zeigt die Prozesslandkarte des Unternehmens, wie sie im Auftrag der Geschäftsleitung erstellt wurde. Aus der Sicht des Informationsmanagements fallen hier sofort zwei Aspekte auf: 1. In der Prozesslandkarte sind die Managementprozesse gegenüber den Kernprozessen sehr prominent dargestellt. Das mag einerseits daran liegen, dass der Auftrag zur Erstellung der Prozesslandkarte aus der Geschäftsleitung kam. Andererseits zeigt es aber auch, dass in diesem Unternehmen den Managementprozessen eine große Bedeutung beigemessen wird. Managementprozesse sind aber per se sehr informations-intensiv, d.h. für deren effektive Unterstützung ist die Verfügbarkeit qualitativ guter Informationen essenziell. 2. Umso verwunderlicher ist es daher, dass Informationen in der Darstellung als relevante Unternehmensressource nicht auftauchen. Die klassischen Betriebsmittel wie Personal, Finanzen, Anlagen und Material sind dagegen aufgeführt. Dies dokumentiert einen deutlichen Mangel an Sensibilität für die Notwendigkeit eines professionellen Informations- und Datenmanagements.
249
C Organisation
Abbildung 1: Prozesslandkarte des betrachteten Unternehmens Die Ausgangslage lässt sich folgendermaßen zusammenfassen:
x
Es wird einerseits ein kosten-intensives Data Warehouse System betrieben, von dem in der Organisation kaum jemand beurteilen kann, welchen Nutzen es für das Gesamtunternehmen stiftet und nicht nur für einzelne Anwender, die auch auf anderen, weniger kostspieligen Wegen zu ihren Daten kommen könnten.
x
Andererseits wurde konzeptionell und organisatorisch wenig unternommen, die vorhandene Prozessfokussierung durch eine Datensicht zu ergänzen und so den Zusammenhang zwischen den Management- und Geschäftsprozessen sowie den Informations- und Datenmanagementprozessen herzustellen.
3.3 Bewertung Data Warehouse Systeme sind in besonderer Weise geschäftsgetrieben, wobei Informationen sowie die Managementprozesse, die auf Datenanalysen angewiesen sind, im Mittelpunkt stehen. Zentral für den Erfolg von Data Warehouse Implementierungen ist die Qualität und der Geschäftsnutzen der zur Verfügung gestell-
250
3 Informationsmanagementprozesse im Unternehmen ten Daten, und zwar nicht nur für die einzelne Anwendung, sondern für das Unternehmen insgesamt. Da in dem betrachteten Unternehmen eine Prozesslandkarte erstellt wurde und ein ausgeprägtes Bewusstsein für die Bedeutung von Prozessen vorhanden ist, scheint die Etablierung von Datenmanagementprozessen und die Erstellung einer Datenlandkarte als Teil einer Informationsstrategieentwicklung ein Erfolg versprechender Ansatz zu sein. Als Ausgangspunkt hierfür dient zunächst die vorhandene Prozesslandkarte, die auch auf der Geschäftsleitungsebene bekannt ist. Um die Sensibilität für die Bedeutung des Produktionsfaktors „Daten / Informationen“ zu verstärken, wird die Prozesslandkarte mit dieser Ressource entsprechend ergänzt (vgl. Abbildung 2) und mit der Geschäftsleitung besprochen.
Abbildung 2: Prozesslandkarte und Informationsmanagement Die erweiterte Prozesslandkarte macht deutlich, dass Informationen im Unternehmen betriebsnotwendige Ressourcen darstellen, wie die klassischen Betriebsres-
251
C Organisation sourcen auch1. Das bedeutet, dass es auch einen zugehörigen Managementprozess geben muss. Dieser ist aber nicht unabhängig von den Management- und Geschäftsprozessen, sondern wird von diesen ausgelöst und gesteuert.
3.4 Informationsmanagementprozess
Controlling InformationsPlanung
InformationsBeschaffung
InformationsOrganisation
InformationsNutzung
InformationsEntsorgung
Strategie
Unternehmensziele
Die folgende Abbildung 3 zeigt den Informationsmanagementprozess in seiner idealen Form auf dem höchsten Abstraktionsniveau [Dippold et.al. 2005].
Qualitätsmanagement
Daten
Abbildung 3: Informationsmanagementprozess Das Informationsmanagement besteht aus den Teilprozessen Informationsplanung, Informationsbeschaffung, Informationsorganisation, Informationsnutzung und Informationsentsorgung. Der gesamte Informationsmanagementprozess oriJe nach Branche des Unternehmens sind die Ressourcen von unterschiedlicher Bedeutung. In der Finanzindustrie z.B. besteht das Ergebnis des Leistungserstellungsprozesses im Wesentlichen aus Information. Information ist einerseits Ressource, andererseits Produkt. 1
252
3 Informationsmanagementprozesse im Unternehmen entiert sich hierbei an den Unternehmenszielen und der Unternehmensstrategie. Das Management der Ressource „Information“ unterscheidet sich von der Logik her kaum vom Management der anderen betrieblichen Ressourcen. Informationsplanung bedeutet vor allem die Abstimmung zwischen dem objektiven Informationsbedarf, dem Informationsangebot und der Informationsnachfrage (vgl. hierzu auch den nächsten Abschnitt). Bei allen strategischen, dispositiven oder operativen Entscheidungen müssen die Auswirkungen auf den Daten- und Informationshaushalt des Unternehmens beachtet werden. Wenn z.B. neue Dienstleistungen oder Produkte an den Markt gebracht werden sollen, eine neue Marktstrategie umgesetzt werden soll, neue Kundensegmente erschlossen werden sollen, usw. ist jeweils zu planen, welche Informationen neu entstehen, welche notwendig sind um das Geschäft zu steuern (beispielsweise ein neues Kennzahlensystem), wer die Adressaten dieser Informationen sein werden, wie und wo die Informationen zu beschaffen sind, ggf. zu welchem Preis, usw.. Die Informationsbeschaffung umfasst sämtliche Aktivitäten der Erkennung und Sammlung von Informationen. Nach der Informationsplanung müssen die benötigten Informationen entweder intern im Unternehmen oder extern beschafft werden. Die Beschaffung der Informationen hat grundsätzlich unter dem Gesichtspunkt der Wirtschaftlichkeit und in Abstimmung mit dem Informationsbedarf zu erfolgen. Die Beschaffung oder Aufbewahrung aller verfügbaren Informationen, unabhängig von einem konkreten Bedarf, führt zur Gefahr eines “Information Overloads”. Eine wesentliche Aufgabe der Informationsbeschaffung ist die Auswahl der Informationsquellen, die sowohl innerhalb als auch ausserhalb des Unternehmens angesiedelt sein können. Schon bei der Auswahl sind auch Qualitätsaspekte zu berücksichtigen. Die Organisation der Daten und Informationen ist i.d.R. der komplexeste Teilprozess. Hier findet das eigentliche Datenmanagement statt. Es muss aufgrund eines Datenmodells die Semantik der Daten und ihre logische Struktur im Gesamtkontext des Unternehmens festgelegt und beschrieben werden, die Daten- und Informationsobjekte werden in technischen Prozessen bearbeitet, veredelt und in Datenbanken oder Dokumentmanagementsystemen persistent gespeichert, Probleme des Datenschutzes, der Datensicherheit, der Verteilung und des Zugriffs müssen gelöst werden, u.v.m.. Die Nutzung der Informationen wird den hierzu berechtigten Personen und Systemen ermöglicht. Die Qualität der Informationen wird durch die Nutzer kontinuierlich geprüft. Durch die Nutzung der Informationen können wieder neue Datenund Informationsanforderungen entstehen. Auch die Entsorgung von Informationen ist zu planen und durchzuführen. Daten verbrauchen sich zwar nicht, wie sich etwa Anlagen und auch Kapital verbrauchen, im Gegenteil, je häufiger sie genutzt werden, desto wertvoller werden sie sogar häufig, aber trotzdem werden auch sie irgendwann einmal obsolet. Da die
253
C Organisation Speicherung, aber viel mehr noch die irrelevante Nutzung veralteter Daten Kosten verursacht und Risiken birgt, sollten sie rechtzeitig entsorgt werden. Die Kriterien, wann dieser Zeitpunkt gekommen ist, sollten möglichst schon bei der Planung oder Beschaffung festgelegt werden. Das Qualitätsmanagement sollte in jedem Unternehmen ein etablierter Prozess sein. Dieser begleitet in seiner besonderen Ausprägung als Informationsqualitätsmanagement auch die Informationsprozesse im Unternehmen. Ein Informationsmanagement ohne ein korrespondierendes Qualitätsmanagement sollte es nicht geben, so wie umgekehrt ein isoliertes Informationsqualitätsmanagement ohne institutionalisierte Informationsmanagementprozesse nur Stückwerk bleiben kann. Wie jeder andere Prozess und jede andere Ressource im Unternehmen unterliegt auch das Informationsmanagement einem strikten Controlling. In entsprechenden Kennzahlen werden Kosten, Aufwand, Nutzung und Nutzen des Informationsmanagements erfasst, berichtet und ggf. Korrekturmassnahmen eingeleitet.
3.5 Schema einer Informationsplanung In der Informationsplanung wird festgelegt, welche Informationen im Unternehmen gegenwärtig und zukünftig, in welcher Form und zu welchem Zweck benötigt werden. Objektiv stimmen in den wenigsten Organisationen der Informationsbedarf, die Informationsnachfrage und das Informationsangebot überein. Abbildung 4 veranschaulicht eine solche Situation schematisch. Feld 4 zeigt den Informationsstand, den das Unternehmen hat, und den Grad, inwieweit der Informationsstand dem Informationsbedarf, der Informationsnachfrage und dem Informationsangebot entspricht. Feld 1 zeigt die erforderlichen Informationen, die nachgefragt, aber nicht angeboten werden, weil die Daten intern nicht gespeichert oder extern nicht beschafft werden können. Feld 2 symbolisiert die objektiv erforderlichen Informationen, die zwar angeboten, aber aus Unkenntnis der Verfügbarkeit oder aus Unkenntnis der Notwendigkeit nicht nachgefragt werden. Feld 3 steht für jene Informationen, die angeboten und auch nachgefragt werden, für deren Nutzung aber eigentlich kein unternehmens-relevanter Bedarf besteht. Das Ziel einer Informationsplanung ist es, den Informationsstand des Unternehmens (Feld 4) weitgehend mit Informationsbedarf, –angebot und –nachfrage in Deckung zu bringen.
254
3 Informationsmanagementprozesse im Unternehmen
Informationsbedarf Informationsangebot
2
1
4 3
Informationsnachfrage
Abbildung 4: Informationsbedarf, -angebot und –nachfrage Die Grundlage für die Informationsplanung bildet die Informationsbedarfsanalyse. Die Erstellung einer Datenlandkarte kann hierfür ein visuelles Hilfsmittel sein.
3.6 Datenlandkarte und Datenarchitektur Wie die Datenlandkarte einer Organisation aussehen kann, zeigt generisch die Abbildung 5. Sie stellt Indikatoren dar, zu welchem Zweck Daten in welchem Detaillierungsgrad und über welche Aufbewahrungszeit zu speichern sind und wie komplex das Reporting und die Datenanalysen sein werden. Diese Darstellung kann dafür verwendet werden, sowohl die Ist-Situation wie auch die Soll-Situation zu beschreiben und daraus eine Gap-Analyse zu entwickeln. Sie ist darüber hinaus ein gutes Kommunikationsinstrument mit Fachabteilungen.
255
Data Mining Simulationen
Compliance/ Fraud Detection
multi-dim. Analysen konzipierte Reports Statistiken einfache Abfragen
Komplexität des Reporting
C Organisation
Scoring
MIS / Dash Board
Produkt-/ Prozess-/ Analyse
Risikomanagement Balanced Scorecard
Controlling/ Budgetierung
kurzfristige Recherche operatives CRM
Prediction / Simulation / aCRM
langfristige Recherche Fakturierung
Compliance/ Archivierung
operative Prozesse Snapshot
5 Jahre
Aufbewahrungsdauer Granularität
EinzelTransaktion
Aggregation Tagesbasis
höhere Aggregation
Abbildung 5: Datenlandkarte eines Unternehmens Der nächste Schritt besteht darin, aus der Analyse abzuleiten, welche Datenspeicher für welche Daten benötigt werden und wie die Hierarchie dieser Datenspeicher aussieht. Die Abbildung zeigt die Zuordnung der Daten und Anwendungen zu dedizierten Datenspeichern. Operative Geschäftsprozesse werden über operative Snapshot Datenbanken abgewickelt. Daten werden ständig verändert, eine Historie wird nicht geführt, es finden einfache Abfragen auf einzelnen Entitäten statt. Auf der nächsten Stufe der Datenspeicherung, dem Operational Data Store (ODS), werden Daten und ihre kurzfristigen Veränderungen im Detail gespeichert. Für die mittel- und langfristige Speicherung von aggregierten oder auch detaillierten Daten zur komplexeren Auswertung und Analyse dient das Data Warehouse und ggf. dezidierte Data Marts. Vor allem dort, wo spezifische Sichten, bestimmte Aggregationen oder sehr komplexe Analysen unterstützt werden müssen, sollten Data Marts zur Verfügung gestellt werden. Das Data Warehouse dient als Data Hub für die Data Marts. Eine Sonderrolle spielen jene Daten, die aus regulatorischen Gründen im Detail über lange Fristen archiviert werden müssen.
256
Data Mining Simulationen
Compliance/ Fraud Detection
multi-dim. Analysen konzipierte Reports Statistiken einfache Abfragen
Komplexität des Reporting
3 Informationsmanagementprozesse im Unternehmen
Operational Data Store
Produkt-/ Prozess-/ Analyse
Risikomanagement Balanced Scorecard
Controlling/ Budgetierung
kurzfristige Recherche
langfristige Recherche Fakturierung
Compliance/ Archivierung
operative Prozesse Snapshot
5 Jahre Archiv Data Marts
Abbildung 6: Datenlandkarte und Datenspeicher Diese Landkarte sollte in eine Datenarchitektur übertragen werden. Die Architektur besteht einerseits aus einer logisch-semantischen und andererseits aus einer technischen Architektur. Die logisch-semantische Architektur unterteilt die Daten einerseits in Kerndaten des Gesamtunternehmens und applikations-spezifische Daten, sowie andererseits in Bestandes- und Bewegungsdaten. Die Datenstrategie und –architektur legen die zukünftige Datenspeicherung und – nutzung verbindlich fest. Eine entsprechende Informationsplanung sieht den schrittweisen Übergang in eine solche Architektur vor, d.h. jedes Projekt, ob es sich um eine neue Anwendung oder die Erweiterung einer bestehenden handelt, leistet seinen Beitrag zur Umsetzung der Datenstrategie. Die Informationsplanung und das entsprechende Controlling sind eine ständige Managementaufgabe.
257
C Organisation
3.7 Geschäftsprozesse und Informationsmanagementprozess Nachdem es gelungen ist, eine erste grobe Datenlandkarte des Unternehmens zu erstellen, daraus eine Datenarchitektur abzuleiten, das Data Warehouse zusammen mit einigen Data Marts zu positionieren und die Etablierung eines Informationsmanagementprozesses anzustoßen, müssen im nächsten Schritt konkrete Geschäfts- und Managementprozesse mit dem Informationsmanagement-prozess verknüpt werden. Als Beispiel wählen wir hier das Produkt-Lifecycle-Management, wie es in der folgenden Abbildung dargestellt ist.
Produktidee / -planung
Marktanalyse
Machbarkeitsstudie / Businessplan
Projektauftrag
ProduktMarketing- Produktion entwicklung mass/ Verkauf nahmen
Wartung / Service
Produktaufgabe
Produkt-Lifecycle-Management Informationsanforderungen
Informationsbereitstellung
Informations-Lifecycle-Management
Informationsplanung
Informationsbeschaffung
Informationsorganisation / persistenz
Informationsnutzung
Informationsentsorgung
Abbildung 7: Produkt-Lifecycle- und Informations-Lifecycle-Management Der Lifecycle eines Produktes (oder einer Dienstleistung) durchläuft von der Produktidee über die Markteinführung und den Verkauf bis zum Zeitpunkt, an dem das Produkt wieder aufgegeben und vom Markt genommen wird, verschiedene
258
3 Informationsmanagementprozesse im Unternehmen Stufen mit unterschiedlicher Intensität und Dauer2. Für jede dieser Phasen bestehen Anforderungen an Informationen, die vom Informations-management bereit gestellt werden müssen. Diese Informations-bereitstellung sollte möglichst geplant und proaktiv geschehen, um das Produkt-Lifecycle-Management effizient zu unterstützen. Hierzu ist es notwendig, das Informationsmanagement aktiv und frühzeitig in die Geschäfts- und Management-prozesse mit einzubeziehen. Nur so kann das Infomationsmanagement rechtzeitig den jeweiligen Informationsbedarf abschätzen und so die Bereitstellung der richtigen Informationen zum richtigen Zeitpunkt bei den richtigen Adressaten planen. Der Informationsmanagementprozess referenziert auf den im Unternehmen standardisierten Produktmanagementprozess. Damit ist gewährleistet, dass Daten für das Controlling, das Reporting und die Ermittlung von Kennzahlen für die Geschäftsleitung verbindlichen und nachvollziehbaren Prozessen unterliegen und zukünftig aus einer konsistenten und qualitätsgesicherten Datenquelle stammen. Der Informationsmanagementprozess ist entsprechend dem Beispiel aus Abbildung mit allen Geschäfts- und Managementprozessen zu verbinden, die Einfluss auf den Informationshaushalt des Unternehmens haben. Dies gilt nicht nur bei der Bereitstellung neuer Informationen, sondern auch bei der Änderung bestehender. Das Anforderungs- und Changemanagement sind daher integrierter Bestandteil des Informationsmanagements. Die aufbauorganisatorischen Aspekte, die mit diesen Prozessen zusammenhängen, sollen hier nicht vertieft werden. Es versteht sich aber von selbst, dass es eine Organisation innerhalb des Unternehmens geben muss, die für die Ressource “Information” gemäß den definierten Prozessen die Verantwortung hat, ähnlich wie es eine Personalabteilung für das Personal oder eine Finanzabteilung für die Finanzen gibt.
3.8 Qualitätsaspekte Qualitätsmanagement ist der Oberbegriff für alle Tätigkeiten, Führungsaufgaben und Methoden, die zur Planung, Sicherung, Verbesserung und Prüfung der Qualität eines (Dienstleistungs-) Produktes gehören [Projekt Magazin 2007]. In dem betrachteten Unternehmen gibt es einen definierten QM- und Verbesserungsprozess (siehe auch Prozesslandkarte in Abbildung ), der auch für das Informationsqualitätsmanagement angepasst und angewendet werden kann. Das wichtigste Hilfsmittel für den Informationsmanager ist hierbei der Qualitätsplan. Er beschreibt die produktbezogenen Ergebnisse der Qualitätsplanung, indem Dies hängt sehr vom Produkt bzw. der Dienstleistung ab. Manche Produkte wie beispielsweise komplexe Medikamente haben vor der Markteinführung sehr lange und kostspielige Entwicklungsphasen zu durchlaufen. 2
259
C Organisation Kriterien und quantitative Ziele (Metriken) sowie die Methoden zu ihrer Erreichung festgelegt werden. Der Qualitätsplan enthält somit die für die Qualität ausschlaggebenden Merkmale sowie die Methoden, mit denen sie gemessen und bewertet werden. Das entscheidende Qualitätsmaß ist die Erfüllung der Anforderungen der Informationsnutzer. Ein Qualitätsplan für das Data Warehouse System kann beispielsweise auch in Form einer Balanced Scorecard (Information Scorecard) gemeinsam mit den Nutzern erstellt werden. Als Teil des Datenqualitätsmanagements im Unternehmen wird das Konzept der „Information Product Map (IPM)3“ eingeführt. Das Prinzip ist relativ einfach. Es geht davon aus, dass die Zwischen- oder Endergebnisse eines Datenverarbeitungsprozesses Produkte darstellen, die im Unternehmen in unterschiedlicher Form genutzt werden. Jedes Informationsprodukt hat einen oder mehrere Adressaten und muss im Sinne des Unternehmenszweckes einen definierbaren Nutzen stiften. Solche Informationsprodukte sind z.B.
x
Berichte auf unterschiedlichen Medien
x
Rechnungen an Kunden
x
Kundenreports
x
Statistiken
x
Datenbanken oder Datenwürfel, die Daten zu Analysezwecken zur Verfügung stellen
x
Spreadsheets
x
Bilanzen
x
Ergebnisse einer Ad-hoc-Abfrage
Kategorien für Informationsprodukte können sein:
x
Standard: Rechnungen, standardisierte periodische Geschäftsberichte, standardisierte Excel-Sheets, Gehaltsabrechnungen, usw.
x
Ad-hoc: Ergebnisse von Ad-hoc-Datenabfragen oder –analysen
x
Storage: Datenbanken, Datenspeicher, Datenverzeichnisse, Dateien, usw.
x
Freie Formate: Bücher, Geschäftsberichte, …
Das Konzept der Informationsprodukte und der Information Product Map stammt vom Massachussetts Institute of Technology (MIT) und wurde von Prof. R. Wang im Zusammenhang mit seinen Arbeiten auf dem Gebiet „Data Quality Management“ entwickelt. Die Definition nach Wang: „An information product (IP) is a collection of data element instances that meets the specified requirements of data consumers.” [Wang 2002]
3
260
3 Informationsmanagementprozesse im Unternehmen Jedes Informationsprodukt wird mit Qualitätskriterien und -metriken versehen, um sicherzustellen, dass die erwartete Qualität erfüllt wird und die Qualitätsziele permanent überprüft werden können. Informationsprodukte, deren Qualität nicht definiert und nicht überprüft wird, machen keinen Sinn. Diese Produkte entstehen durch Produktionsprozesse, die sich wie ein herkömmlicher Produktionsprozess eines materiellen Produktes beschreiben lassen. Das Ergebnis dieser Prozessbeschreibung ist eine Information Product Map (IPM), die Auskunft gibt über die Herkunft der Rohdaten, die Bearbeitung dieser Daten, Medienbrüche, involvierte Stellen, Systeme und Prozesse, sowie Qualitätskontrollen und Nutzung des Informationsproduktes. Die folgende Abbildung zeigt eine (vereinfachte) Information Product Map, die den Produktionsprozess von drei Informationsprodukten für drei verschiedene Adressaten (Information Consumer) beschreibt. Sie zeigt, aus welchen Datenquellen die Daten entnommen werden, wo Konvertierungen vorgenommen werden, welche (Zwischen-)Speicher genutzt werden, wo im Prozess Qualitätssicherungen vorgenommen werden und für wen die Informationsprodukte bestimmt sind. Diese Prozesse lassen sich auf verschiedenen Abstraktionsebenen darstellen. Als oberste Ebene kann das Kontextdiagramm eines Systems angesehen werden.
Plandaten
DatenKonversion / Laden
Data Quality Gate
ControllingDB
Soll-/IstAnalyse
Controller
ControllingView erstellen
Kundendaten
Auftragsdaten
DatenKonversion / Laden
Produktdaten
Data Warehouse
ProduktView erstellen
DatenKonversion / Laden
KundenView erstellen
Produkt Manager
Kundenrechnung
Data Quality Gate
Staging Area
Produktrechnung
Account Manager
InformationProvider
InformationConsumer Legende Information Provider
Process
Data Store
Qualitycheck
Information Product
Abbildung 8: Information Product Map
261
C Organisation Die Ziele dieses Ansatzes lassen sich wie folgt zusammenfassen:
262
Design: Die Methode eignet sich hervorragend, um den Produktionsprozess von Informationsprodukten unabhängig von einer bestimmten Technologie zu entwerfen. Hierbei wird eine Business Perspektive eingenommen und weniger eine IT-Perspektive. Bei Änderungen in der Organisation, der Prozesse oder der Informationsprodukte kann anhand der IPMap’s eine Impactanalyse (Ursache-Wirkung) durchgeführt werden, was das Changemanagement erheblich vereinfacht und verbessert.
Transparenz: Die IP-Map schafft, wie jedes gute Modell, Transparenz. Der Produktionsprozess ist für den Nutzer des Informationsproduktes nachvollziehbar, dadurch steigt die Glaubwürdigkeit der Informationen.
Redundanz: IP-Map’s decken Redundanzen in den Prozessen auf. Die Eliminierung solcher Redundanzen führt zu Synergien und erhöht in der Regel die Qualität des Resultates.
Medienbrüche: Die IP-Map deckt Medienbrüche im Prozess auf. Medienbrüche, beispielsweise manuelle Eingaben in einem ansonsten automatisierten Ablauf, sind häufig mit Risiken für die Qualität und Nachvollziehbarkeit des Ergebnisses verbunden. Medienbrüche sollten minimiert und dort, wo sie unvermeidlich sind, Qualitätssicherungsmaßnahmen eingebaut werden.
Informationsqualität: Die Informationsqualität wird insgesamt erhöht, da die Nachvollziehbarkeit und damit die Glaubwürdigkeit steigt. Durch die Methode der IP-Map ist es einfacher, die Endbenutzer der Informationsprodukte frühzeitig in die Entwurfsphase des Prozesses einzubeziehen, was i.d.R. die Qualität und die Effizienz des Entwurfs verbessert.
Dokumentation: Wenn alle Informationsprodukte nach derselben Methode (IP-Map) entworfen und dokumentiert sind, steigt die Qualität der Dokumentation insgesamt. Die Dokumente werden miteinander vergleichbar, wodurch die oben genannten Effekte bzgl. Transparenz, Redundanz, Medienbrüche und Informationsqualität eintreten. Die Dokumentation ist zuverlässig und dient daher beim Entwurf zusätzlicher Informationsprodukte als Basis, um Redundanzen zu vermeiden und bereits Vorhandenes zu nutzen.
Wirtschaftlichkeit: Die IP-Map deckt mögliche Ineffizienzen (oder Redundanzen; siehe oben) im Prozess auf, liefert Ansatzpunkte zum Reengineering und vermag so die Wirtschaftlichkeit des Informationsmanagements im Unternehmen zu verbessern. Da die Methode unabhängig von einer eingesetzten Technologie ist, können hiermit alle IP-Prozesse dokumentiert werden. Es können Alternativen aufgezeigt, bewertet und berechnet werden, was Wirtschaftlichkeitsanalysen vereinfacht.
3 Informationsmanagementprozesse im Unternehmen
3.9 Ökonomische Aspekte Zum Schluss sollen noch die ökonomischen Aspekte des Data Warehouse Systems betrachtet werden. Ein Data Warehouse System ist immer ein Teil der ITInfrastruktur einer Organisation. Die Wirtschaftlichkeit von Infrastrukturen basiert auf der „Economy of Scale4“, d.h. je besser die Nutzung des Systems ist, desto niedriger ist im Allgemeinen die „Total Cost of Ownership“. Mit dem Grad der Nutzung des Data Warehouse Systems steigen oder fallen die Kosten, die der einzelne Anwender verursacht und die die Kostenstellen zu tragen haben. Die Kosten der Datenspeicherung und der Datennutzung in einem Unternehmen werden durch folgende Faktoren wesentlich bestimmt:
x x x x x
Die Datenmenge, die sich ergibt aus der Granularität der Daten, deren Aufbewahrungsdauer und der Datenproliferation5 Die Anzahl und die Komplexität der Prozesse und Schnittstellen, die unterhalten werden müssen Die Komplexität des Reportings und der Datenanalyse Die Technologie, die für die Datenprozesse, -speicherung und –nutzung verwendet wird Der Aufwand, der für Datenbereinigung und –korrekturen betrieben werden muss.
Der Nutzen, den das Data Warehouse System als Teil der IT-Infrastruktur stiftet, ist im Wesentlichen das Resultat von folgenden drei Effekten: 1. Eine verbesserte Informationsversorgung in qualitativer, zeitlicher und räumlicher Hinsicht. 2. Ein geringeres Risiko und eine erhöhte Qualität bei der Informationsversorgung durch etablierte und weitgehend automatisierte Datenprozesse. 3. Eine spürbare operative Kostensenkung durch Reduktion der Schnittstellen und der Prozesse sowie durch Ausnutzung von Skaleneffekten einer verfügbaren und skalierbaren Infrastruktur. Die in diesem Beitrag gezeigte Vorgehensweise hat für das Unternehmen folgende qualitative und quantitative Vorteile:
Betriebswirtschaftlich bedeutet „Economy of Scale“ soviel wie Fixkostendegression. Da jede Infrastruktur Fixkosten unabhängig von ihrer Nutzung verursacht, wird durch eine verbesserte Nutzung der Infrastruktur (Skaleneffekt), der Fixkostenanteil je Einheit (z.B. Informationsprodukt, Nutzer) gesenkt. 4
Datenproliferation: gleiche Daten in verschiedenen Systemen, unkontrollierte Redundanz [Dippold 2005]
5
263
C Organisation
x x x x x x
Die Datenproliferation nimmt tendenziell ab Die Anzahl von Schnittstellen und Prozessen wird reduziert Die Anzahl von potenziellen Fehlerquellen und damit notwendigen Datenkorrekturen wird reduziert Die Speicherung der Daten erfolgt nach klaren Prinzipien und innerhalb einer Gesamtarchitektur Die zu verwendenden Werkzeuge und Prozesse können standardisiert und für verbindlich erklärt werden Die „Economy of Scale“ der vorhandenen Infrastruktur wird verbessert, die „Total Cost of Ownership“ sinkt.
3.10 Zusammenfassung Das geschilderte Beispiel zeigt, wie aus der eingeschränkten Aufgabenstellung des Reviews einer Data Warehouse Implementierung ein Gesamtkonzept für das Informationsmanagement eines Unternehmens entwickelt werden kann. Die Ergebnisse sind etablierte Informations- und Datenmanagementprozesse, implementierte Methoden des Datenqualitätsmanagements wie die Information Product Map, eine dokumentierte Datenlandkarte und Datenarchitektur, eine verbesserte Nutzung der vorhandenen Infrastruktur und damit eine Verbesserung der Wirtschaftlichkeit im Informationsmanagement des Unternehmens. Damit hat das Unternehmen einen strategischen Ansatz für das Informationsmanagement und damit auch für das Informationsqualitätsmanagement gefunden.
Literaturverzeichnis [Dippold et.al. 2005] Dippold, R.; Meier, A.; Schnider, W.; Schwinn, K.: Unternehmensweites Datenmanagement – Von der Datenbankadministration bis zum Informationsmanagement. 4. Auflage Vieweg, Wiesbaden 2005 [Projekt Magazin 2007] http://www.projektmagazin.de/glossar/ (Zugriff am 20.07.2007) [Wang 2002] Wang, R.; Allen, T.; Wesley, H.; Madnick, S.: An Information Product Approach for Total Information Awareness; Working Paper 407-02; November 2002, MIT Soan School of Management
264
4 Data Governance Dr. Boris Otto, Kristin Wende
4.1 Einführung Unternehmen müssen ihr Geschäftsmodell heutzutage laufend anpassen und weiter entwickeln: Globale Marktpräsenz erfordert weltweit harmonisierte Geschäftsprozesse, Kunden verlangen individuell auf ihre Bedürfnisse zugeschnittene Produkte, und Dienstleistungen werden nach den Prinzipien industrieller Abläufe erbracht. Diese Anforderungen betreffen zum einen die Unternehmensstrategie und die Architektur der Geschäftsprozesse. Zum anderen sind Daten von hoher Qualität eine Grundvoraussetzung, um den Anforderungen gerecht zu werden. Beispiele verdeutlichen die Bedeutung von hoher Datenqualität für den Erfolg von Unternehmen: – Unternehmensvernetzung. In viele Branchen sinkt die Fertigungstiefe einzelner Unternehmen, was zu einer verstärkten Vernetzung und zu einem intensiven Einsatz des elektronischen Datenaustauschs führt. Ohne ein gemeinsames Verständnis über die auszutauschenden Daten sowie einen hohen Qualitätsstandard ist die Integration von Wertschöpfungsketten nicht denkbar. – Kundenmanagement. Zur Steigerung der Kundenzufriedenheit und des Kundenservice müssen sämtliche Daten, die im Unternehmen zu einem Kunden existieren, verfügbar sein. In der Praxis erfordert das häufig die Bereitstellung von Daten aus unterschiedlichen Informationssystemen, z. B. aus Systemen für das Customer Relationship Management (CRM) und aus DataWarehouse-Systemen. Damit diese Kundendatenintegration überhaupt funktioniert, müssen in den beteiligten Systemen die Daten in gleich hoher Qualität gehalten werden. – Unternehmenssteuerung. Entscheidungs- und Führungsprozesse in Unternehmen sind durch wachsende Mengen an Informationen, kurze Entscheidungszyklen und wachsende Komplexität der Entscheidungsbereiche gekennzeichnet. Damit die richtige, eindeutige Information zur rechten Zeit in geeigneter Form und Granularität verfügbar ist, bedarf es eines Datenqualitätsmanagements über die Grenzen einzelner Systeme und Organisationseinheiten hinweg. – Behördliche und gesetzliche Auflagen. Die Zahl an Vorgaben und Richtlinien, die Unternehmen zu beachten haben, steigt kontinuierlich. Um der damit verbundenen Nachweispflicht nachkommen zu können, müssen Unternehmen die erforderlichen Daten bereitstellen können.
265
C Organisation Hohe Datenqualität ist also für das gesamte Unternehmen wichtig und nicht nur für einzelne Unternehmensfunktionen. So treten denn auch Probleme mangelhafter Datenqualität in unterschiedlichsten Bereichen auf, angefangen bei ineffizienter Beschaffung über ein fehlendes Verständnis über Synonyme und Homonyme einzelner Datenobjekte bis zu Verzögerungen bei der Einführung neuer Produkte [Russom 2006a]. Dies ist nicht verwunderlich, weil einige wenige Datenobjekte - z. B. Material, Kunde und Lieferant - in den meisten Geschäftsprozessen eines Unternehmens verwendet werden. Datenqualitätsmanagement (DQM) bezeichnet vor diesem Hintergrund das qualitätsorientierte Management der Daten und umfasst die Verarbeitung, Speicherung, Pflege und Darstellung hochqualitativer Daten. DQM ist eine Querschnittfunktion, seine Aufgaben tangieren verschiedene Unternehmensbereiche, und es ist zumeist nicht als eigene Organisationseinheit in der Aufbauorganisation eines Unternehmens verankert, sondern wird verteilt wahrgenommen. Damit ein Unternehmen DQM trotzdem zielgerichtet betreiben kann, muss es Verantwortlichkeiten organisations- bzw. bereichsübergreifend zuordnen. Das dafür erforderliche Rahmenwerk wird als Data Governance bezeichnet. Data Governance ist der Rahmen für DQM und legt fest, welche Rollen mit welchen Zuständigkeiten die Aufgaben des DQM übernehmen.
Häufig konkretisiert sich Data Governance in Richtlinien und Vorgaben für den Umgang und die Pflege von Daten gemäß den betriebswirtschaftlichen Zielsetzungen des Unternehmens. Trotz der hohen fachlichen Bedeutung und trotz des Querschnittcharakters liegt die Verantwortung für DQM in der Praxis häufig allein beim Management der Informationstechnologie (IT) [Friedman 2006]. Eine Ursache dafür ist das Fehlen von praktischen Empfehlungen, wie Data Governance im Unternehmen gestaltet werden kann. Zwar gibt es eine Reihe von DQM-Ansätzen [z.B. Wang et al. 1998, English 1999, Nohr 2001, Eppler 2006], aber die Frage, welche Rollen dafür notwendig sind, wird lediglich rudimentär behandelt [Redman 1996, English 1999]. Zudem gibt es keine Hinweise darauf, mit welchen Zuständigkeiten die Rollen in Abhängigkeit von den unternehmensspezifischen Einflussfaktoren ausgestattet werden müssen. Eine Analyse über die Wirkungsweise dieser Faktoren, wie sie für die Gestaltung der IT-Organisation vorliegen [Brown 1997, Sambamurthy & Zmud 1999, Weill & Ross 2005], existiert für DQM nicht. Deshalb zielt der vorliegende Beitrag darauf ab, ein Modell für Data Governance zu entwickeln, das Unternehmen bei der organisatorischen Verankerung von DQM unterstützt. Im Folgenden werden sowohl die Gestaltungselemente des Modells abgeleitet als auch die Wirkungsweise wesentlicher Einflussfaktoren auf das Modell analysiert.
266
4 Data Governance Um dieses Ziel zu erreichen, behandelt der nachfolgende Abschnitt den Stand der Wissenschaft und Praxis zu Governance-Ansätzen für das DQM und das ITManagement sowie zu den zugehörigen Einflussfaktoren. Daran schließt sich die Ableitung und Darstellung des Data-Governance-Modells an, bevor Hinweise für die Umsetzung in der Praxis gegeben werden.
4.2 Stand der Wissenschaft und Praxis 4.2.1 Abgrenzung des DQM Für die Entwicklung eines Data-Governance-Modells für DQM ist eine klare Abgrenzung des Gestaltungsbereichs erforderlich. Einerseits umfasst das ITManagement DQM-Aufgaben, denn das Datenmanagement ist Teil des ITManagements. Auf der anderen Seite beinhaltet DQM Aufgaben außerhalb des ITManagements. So sollen beispielsweise Rollen für so genannte „DatenStewards“ geschaffen werden, die nicht im IT-Management, sondern in den Fachbereichen anzusiedeln sind. Zudem werden Daten im Unternehmen zunehmend als Anlagegut erachtet und „gehören“ damit den Fachbereichen bzw. dem gesamten Unternehmen und nicht der IT-Organisation im Unternehmen. Außerdem gibt es Überschneidungen zwischen DQM und dem Qualitätsmanagement im Unternehmen. Bild 1 veranschaulicht den Zusammenhang zwischen DQM sowie IT- und Qualitätsmanagement.
Abbildung 1: DQM im Kontext von IT- und Qualitätsmanagement
4.2.2 Bedeutung des Governance-Begriffs Governance beschreibt generell die Art und Weise in der Organisationen sicherstellen, dass Strategien entwickelt, überprüft und auch umgesetzt werden. Corporate Governance setzt den institutionellen Rahmen für Unternehmen [OECD 2004]. Daraus werden zumeist konkrete Vorgaben und Leitlinien abgeleitet, die wiederum auf die verschiedenen Unternehmensbereiche übertragen werden. So gibt es Governance-Vorgaben für das Rechnungswesen und für die IT-Organisation. Data
267
C Organisation Governance in diesem Sinne bezieht sich auf das DQM, also auf das qualitätsorientierte Datenmanagement.
4.2.3 Data Governance Bisher existiert keine einheitliche Definition von Data Governance. In Anlehnung an IT-Governance und unter Berücksichtigung der Zielsetzung von DQM wird im Folgenden unter Data Governance ein Rahmenwerk verstanden, welches die Aufgaben und Verantwortlichkeiten zur Förderung des DQM im Unternehmen definiert. Das Rahmenwerk beinhaltet drei Gestaltungselemente: Erstens benennt Data Governance die Aufgaben, die im DQM zu erfüllen sind. Hierzu gehören z. B. die Entwicklung einer Datenqualitätsstrategie sowie die Definition von Datenpflegeprozessen. Zweitens identifiziert Data Governance die bei den Aufgaben beteiligten Rollen und legt drittens die Zuständigkeiten fest, mit denen die Rollen in der Aufgabenerfüllung involviert sind. Zu den Rollen des DQM gehören z. B. so genannte „Daten-Stewards“ [English 1999, Dyché & Levy 2006], die mit der Umsetzung von Datenqualitätsstandards betraut sind. Die drei wesentlichen Gestaltungselemente bilden eine Matrix wie in Bild 2 dargestellt.
Aufgaben des DQM
Rollen des DQM
Zuständigkeiten des DQM (im Kontext der Zuordnung von Rollen zu Aufgaben)
Abbildung 2: Gestaltungselemente von Data Governance
Data Governance bildet also den Rahmen, in welchem DQM im Sinne seiner Ziele ablaufen kann, und ist von der operativen Ausführung der Aktivitäten des DQM zu trennen. Die Konkretisierung des Rahmenwerks durch die Detaillierung der Gestaltungselemente wird als Data-Governance-Modell bezeichnet. Die wissenschaftliche Forschung zu Data Governance ist bisher schwach ausgeprägt. Abgesehen von einigen Ansätzen des Datenqualitätsmanagements, welche auch Verantwortlichkeiten betrachten [Redman 1996, English 1999], fehlt eine aus-
268
4 Data Governance führliche Analyse des Zusammenspiels der Rollen im DQM, ihrer Zuständigkeiten und der Zuordnung zu den Aufgaben des DQM. Mehr Aussagen zu Data Governance gibt es aus der Praxis, z. B. von Analystenhäusern und Beratungsunternehmen. Dember [2006] und IBM [2006] schlagen Reifegradmodelle für Data Governance vor, die sich stark an den Anforderungen des Risikomanagements orientieren. Russom [2006b] illustriert den Stand der Praxis zu Data Governance und DQM, erläutert thematische Grundlagen und gibt Empfehlungen für Praktiker. Dyché und Levy [2006] argumentieren wiederum, dass Data Governance in bei Projekten zur Kundendatenintegration von besonderer Bedeutung sei. Allen Ansätzen ist jedoch gemein, dass sie von einem universellen DataGovernance-Modell ausgehen. Rollen und Verantwortlichkeiten werden beschrieben, als seien sie für jedes Unternehmen gleich. Dies ist aber nicht der Fall, weswegen viele Unternehmen bei der Einführung eines Data-Governance-Modells Schwierigkeiten haben. Der Entwicklung des Modells in diesem Beitrag liegt ein situativer Ansatz [z.B. Donaldson 2001] zu Grunde, bei dem die individuelle Ausgestaltung des Modells im Einzelfall von den spezifischen Einflussfaktoren dieses Unternehmens abhängt, z. B. der Grad der Zentralisierung und der Größe des Unternehmens. Der Stand der Wissenschaft und Praxis liefert keine Aussagen, von welchen Faktoren die konkrete Ausgestaltung Data-Governance-Modelle abhängen. Untersuchungen zur Wirkungsweise der Einflussfaktoren auf Governance-Modelle existieren jedoch für das IT-Management, worauf im nachfolgenden Abschnitt eingegangen wird.
4.2.4 Grundmuster für IT Governance Maßgeblich beteiligt an der Untersuchung zu Grundmustern für IT-GovernanceModelle war [Weill 2004]. Auf Basis einer Erhebung bei 250 Unternehmen identifizierte er sechs Grundmuster für die Zuordnung von Entscheidungskompetenzen, um die Aufgaben einer IT-Organisation wahrzunehmen. Für Weill ist Governance die „systematische Bestimmung, wer welche Entscheidungen fällt (Entscheidungsrecht), wer die Vorgaben für eine Entscheidung bestimmt (Vorgaberecht) und wie diese Personen (oder Gruppen) für ihre Rolle verantwortlich gemacht werden.“ IT Governance konzentriere sich auf die wichtigsten Aufgaben, z. B. das Festlegen der IT-Architektur, der IT-Infrastrukturstrategie und das Applikationsmanagement. Die sechs Grundmuster definieren sich durch die Kombination von Personen, die Entscheidungs- oder Vorgaberechte für diese Aufgaben innehaben (siehe Tabelle ).
269
C Organisation Tabelle 1: Grundmuster für IT Governance [in Anlehnung an Weill 2004]
Das Recht, eine Entscheidung zu treffen Gebzw. Vorgaben für diese Entscheidung zu schäftsliefern, haben: führung
Fachliche Vertreter der UnternehmensleiMonarchie tung oder Gremien aus Führungskräften des höheren Managements (kann den CIO beinhalten); keine unabhängig agierenden IT-Führungskräfte
9
Feudal
Leiter der Geschäftsbereiche, Verantwortliche der Hauptprozesse oder deren Vertreter
Föderativ
Vertreter der Unternehmensleitung und mindestens eine andere fachliche Gruppe (vertreten durch Geschäftsbereichsleiter); optional zusätzlich ITFührungskräfte
9
IT-Führungskräfte und eine andere Gruppe (z. B. Vertreter der Unternehmensleitung oder Geschäftsbereichsleiter)
9
Anarchie
Leiter der Geschäftsbereiche oder Prozessverantwortliche
9
ITAusgewählte IT FührungskräfMonarchie te
IT-Duopol
Konzern-IT und/ oder Geschäftsbereichs-IT
9 9
9
9 9
9 9
9
Jeder einzelne Benutzer
Welches Grundmuster für ein Unternehmen passt, hängt von einer Reihe von Einflussfaktoren ab, die im Folgenden genauer dargestellt sind.
4.2.5 Einflussfaktoren auf IT Governance Beim situativen Ansatz der Ausgestaltung von IT Governance für ein Unternehmen hängt die Verteilung von Zuständigkeiten für einzelnen Aufgaben an die beteiligten Rollen von verschiedenen Einflussfaktoren ab, welche sowohl von außerhalb des Unternehmens, aber auch von innerhalb wirken können. Ein Einflussfaktor ist beispielsweise die strategische Grundausrichtung [Weill & Ross 2005]: Unternehmen, die vornehmlich über die Profitabilität gesteuert werden,
270
4 Data Governance tendierten zur Integration der Geschäftsbereiche und zu einem der zentralen Grundmuster für IT-Governance (also Fachliche oder IT-Monarchie oder föderativ). Hingegen verfügten Unternehmen mit einer Wachstumsstrategie tendenziell eher über dezentrale Grundmuster (also feudal). Darüber hinaus gibt es weitere Einflussfaktoren für die Ausgestaltung des ITGovernance-Modells. Hierzu gehören [Weill 2004]: – Aufbauorganisation des Unternehmens – Erfahrung mit IT-Governance – Unternehmensgröße und „Vielfältigkeit“ (z. B. im Hinblick auf geografische Präsenz, Organisation der Geschäftsbereiche etc.) – Branchen- und regionale Besonderheiten Weiterführende Ansätze identifizieren darüber hinaus multiple Einflussfaktoren [Sambamurthy & Zmud 1999]. Sie unterscheiden zwischen einem zentralen ITGovernance-Modell, bei dem eine zentrale IT-Organisation auf Konzernebene alle Entscheidungsrechte innehat, und einem dezentralen Modell, bei dem die Entscheidungsrechte in den einzelnen Geschäftsbereichen und Sparten liegen. Tabelle fasst die multiplen Einflussfaktoren für diese beiden Modelle zusammen. Tabelle 2: Multiple Einflussfaktoren für IT Governance [in Anlehnung an Sambamurthy & Zmud 1999]
Kategorie
Corporate Governance
Diversifikations- bzw. Verbundvorteile
Absorptionsvermögen
Einflussfaktor
Positionierung der Entscheidungsrechte Zentrale ITOrganisation auf Konzernebene
Dezentrale ITOrganisation in den Geschäftsbereichen und Sparten
Generelles Governance-Modell
Zentralisiert
Dezentralisiert
Unternehmensgröße
Gering
Groß
Wachstumsstrategie
Organisches Wachstum
Wachstum durch Übernahmen
Wachstumsrichtung
Verwandte Märkte
Unbekannte Märkte
Verwertungsstrategie
Unternehmensweite Zusammenführung
Unternehmensweite Partnerschaften zwischen IT und Fachbereichen
IT-Wissen in den Fachbereichen
Gering
Hoch
271
C Organisation Weil sich die Gestaltungsbereiche von IT-Management und DQM überschneiden und weil der Stand der Wissenschaft und Praxis keine konkreten Aussagen zu Einflussfaktoren für Data Governance umfasst, werden in der nachfolgenden Ableitung des Modells für Data Governance die Erkenntnisse aus der IT Governance übertragen.
4.3 Ein Modell für Data Governance 4.3.1 Rollen Rollen erledigen die Aufgaben des DQM. Es existieren vielfältige Aussagen darüber, wie viele und welche Rollen dies im Einzelnen sind. Die vorgeschlagene Anzahl reicht von drei bis fünf [Swanton 2005, Marco & Smith 2006, Newman & Logan 2006, Russom 2006b, Smalltree 2006]. Allerdings präferieren Dyché und Levy [2006] und English [1999] sogar zwölf bzw. neunzehn Rollen. Als „gemeinsamer Nenner“ kristallisieren sich vier Rollen und ein Gremium heraus, die in jedem Unternehmen für das DQM benötigt werden (siehe Bild 3).
Sponsor Datenqualitätskomitee Konzern-Daten-Steward Fachlicher Daten-Steward
Technischer Daten-Steward
Abbildung 3: Rollen des DQM
Der Sponsor stellt die Unterstützung der Unternehmensleitung für das DQM im Unternehmen sicher. In den meisten Fällen handelt es sich dabei um den Chief Executive Officer (CEO), den Chief Financial Officer (CFO) oder den Chief Information Officer (CIO) des Unternehmens. Der Sponsor gibt die strategische Ausrichtung des DQM vor, er budgetiert das DQM und hat für die wesentlichen Entscheidungen ein Vetorecht. Das Datenqualitätskomitee ist das zentrale DQM-Gremium und verantwortet die Umsetzung der Datenqualitätsstrategie, also des übergeordneten Leitbilds zur Bedeutung von Datenqualität im Unternehmen und zum Beitrag zu den Unternehmenszielen. Es bildet das Bindeglied zwischen dem operativen DQM und der Unternehmensleitung und ist für die Festlegung von Standards zuständig, z. B. für
272
4 Data Governance Datenmanagementprozesse und für die Messung von Datenqualitätsdimensionen. Zudem bildet das Datenqualitätskomitee das Forum für die beteiligten Geschäftsund Fachbereiche sowie für die IT-Organisation, die wiederum durch die fachlichen und technischen Daten-Stewards vertreten sind. Den Vorsitz hat zumeist der Konzern-Daten-Steward inne, der in dieser Rolle auch zu Sitzungen des Komitees einlädt und Entscheidungen und Beschlüsse festhält. Das Komitee macht zudem Vorgaben für Projekte zur Verbesserung der Datenqualität und entscheidet überwacht das entsprechende Projektportfolio. Das Datenqualitätskomitee entscheidet auch über die Zahl und Zuordnung der fachlichen und technischen Daten-Stewards zu Regionen, Geschäftsprozessen oder Datenobjekten. Die Hauptaufgabe des Konzern-Daten-Stewards besteht darin, die Umsetzung der Entscheidungen und Beschlüsse des Datenqualitätskomitees in die Praxis zu koordinieren und zu überwachen. Er gibt die wesentlichen Messgrößen für die Datenqualität vor und überprüft, inwieweit Maßnahmen zur Erhöhung der Datenqualität zur Zielerreichung beitragen. Ihm berichten sämtliche fachlichen und technischen Daten-Stewards, denen er wiederum als Coach zur Seite steht. Er agiert in enger Kooperation mit Prozess- und Systemverantwortlichen. Er besitzt ausgeprägte Kompetenzen in allen Aspekten des DQM und verfügt über umfassendes Wissen über betriebliche Abläufe. Für die Rolle des Konzern-Daten-Stewards werden synonym die englischen Ausdrücke „Data Quality Officer“ oder „Data Quality Manager“ verwendet. Fachliche Daten-Stewards sind Mitarbeiter des Fachbereichs. Üblicherweise sind sie entweder einem Geschäftsbereich (z. B. einer Sparte), einem Hauptgeschäftsprozess (z. B. dem Einkauf) oder einem bestimmten Stammdatenobjekt (z. B. den Lieferantenstammdaten) zugeordnet. Für seinen Verantwortungsbereich detailliert ein fachlicher Daten-Steward die unternehmensweiten Datenqualitätsstandards, welche vom Datenqualitätskomitee vorgegeben werden. Sein Aufgabenbereich kann die Entwicklung von Geschäftsregeln für Daten umfassen, die Entwicklung von Datenmodellen, die Implementierung von Datenmanagementprozessen sowie die Umsetzung der Messgrößen für Datenqualität. Fachliche Daten-Stewards kennen die betriebswirtschaftliche Terminologie in ihrem Verantwortungsbereich und wissen, welche Datenobjekte in welcher Form in welchen Geschäftsprozessen verwendet werden. Sie bringen diese Expertise in Vorschläge für unternehmensweite Standards und Richtlinien ein. Den Gegenpart zu den fachlichen bilden die technischen Daten-Stewards, die sich mit Fragen der Datenarchitektur und der Systemunterstützung für DQM beschäftigen. In Analogie zum fachlichen Daten-Steward kann ein technischer DatenSteward einem Geschäftsbereich zugeordnet sein, einem Geschäftsprozess oder einem bestimmten Informationssystem. Für ihren Verantwortungsbereich liefern technische Daten-Stewards standardisierte Datendefinitionen und -formate und sie dokumentieren die Quellsysteme für Datenobjekte sowie die Datenflüsse zwischen
273
C Organisation den Informationssystemen. Ins Datenqualitätskomitee bringen sie Anforderungen der Informationstechnologie an das DQM ein und prüfen und begleiten die technische Umsetzung von Datenqualitätsmaßnahmen.
4.3.2 Aufgaben Data Governance legt den Rahmen fest, in dem DQM ablaufen kann. Deshalb definiert Data Governance die wesentlichen Aufgaben im DQM und macht Vorgaben für deren Ausführung. Nicht Bestandteil der Data Governance ist jedoch die Festlegung einzelner Teilaufgaben; die Detaillierung der Aufgabenbereiche liegt vielmehr in der Verantwortung der zugeordneten Rollen. Die nachfolgende Beschreibung der einzelnen Aufgaben basiert auf bestehenden DQM-Ansätzen [Redman 1996, Wang et al. 1998, English 1999, Nohr 2001, Eppler 2006, Lee et al. 2006]. Damit die Aufgaben jedoch unternehmensweit wahrgenommen werden können, ist eine Verankerung in einzelnen Geschäfts- und Fachbereichen oder der IT-Organisation allein ungenügend. Vielmehr ist eine Verankerung auch auf strategischer und Prozessebene erforderlich, weswegen im vorliegenden Modell die DQM-Aufgaben gemäß der drei Ebenen der Unternehmensarchitektur gegliedert werden [z.B. Davenport 1993, Hammer & Champy 1993, Österle & Blessing 2003], nämlich Strategie, Prozesse und Informationssysteme. Bild 4 gibt einen Überblick über die wesentlichen Aufgaben sowie die Zuordnung zu den drei Architekturebenen. Strategie Datenqualitätsstrategie
Prozesse
Informationssysteme
Führungssystem Organisation und Standards
DatenmanagementProzesse
Datenarchitektur lokal
global
Systemarchitektur
Abbildung 4: Aufgaben des DQM
274
4 Data Governance Auf der strategischen Ebene geht es vor allem darum, das DQM an den Unternehmenszielen auszurichten und den Beitrag des DQM zu den Zielen aufzuzeigen. Die Datenqualitätsstrategie beinhaltet ein strategisches Leitbild für DQM, also eine Vision für sämtliche DQM-Aktivitäten im Unternehmen. Sie trifft Aussagen zu den wesentlichen Zielen und dem betriebswirtschaftlichen Nutzen. Zudem beschreibt sie die Aufgabe des Data-Governance-Modells und adressiert alle Stakeholder. Darüber hinaus macht die Datenqualitätsstrategie auch Aussagen zu den wichtigsten Maßnahmen und Projekten zur Verbesserung der Datenqualität im Unternehmen und zeigt einen langfristigen Umsetzungsfahrplan auf (häufig „Roadmap“ genannt). Zwischen der strategischen und der Prozessebene befindet sich das Führungssystem für DQM, das darauf abzielt, die strategischen Ziele der Datenqualitätsstrategie zu operationalisieren, d. h. in konkrete Zielsetzungen für einzelne Geschäfts- oder Funktionsbereiche im Unternehmen zu übersetzen. In der Praxis hat sich bewährt, diese Ziele in die Anreizsysteme des Unternehmens zu integrieren, bspw. durch Aufnahme in die Zielvereinbarungen von Führungskräften wie Prozess- und Fachbereichsverantwortliche. Im Führungssystem ist festgelegt, wie die Datenqualität und - ebenso wichtig - die Wirkung von hochqualitativen Daten gemessen wird, welche Zielgrößen gelten und welche Messverfahren angewendet werden. Die Darstellung der Ist- und Sollwerte erfolgt häufig unter Nutzung so genannter „Scorecards“ für Datenqualität. Außerdem beinhaltet das Führungssystem einen Revisionsprozess und trifft Aussagen über Eskalations- und Sanktionierungsmechanismen bei Nichteinhaltung einzelner Sollwerte. Auf der Prozessebene besteht die Aufgabe, DQM in der Organisation zu verankern. Das erfolgt durch die Zuordnung von Mitarbeitern zu den o. g. Rollen wie den fachlichen und technischen Daten-Stewards und durch die Etablierung der Gremienstruktur. Hierbei ist zu beachten, dass für die Besetzung der Rollen einzelne Mitarbeiter nicht notwendigerweise vollständig von ihren bisherigen Aufgaben befreit werden müssen. Beispielsweise werden die Rollen der fachlichen und technischen Daten-Stewards in der Regel mit Mitarbeitern besetzt, die weiterhin ihre operativen Aufgaben wahrnehmen. Das ist auch insofern notwendig, damit die erforderliche Expertise in einzelnen Geschäftsprozessen, Anwendungssystemen etc. dauerhaft vorgehalten werden kann. Jedoch werden zentrale Rollen wie der Konzern-Daten-Steward häufig durch Mitarbeiter wahrgenommen, die hundertprozentig von ihren bisherigen Aufgaben freigestellt sind. Bei den Datenmanagement-Prozessen sind die Datennutzungs- von den so genannten „Datenproduktionsprozessen“ zu unterscheiden. Zur Verbesserung der Datenqualität in der Nutzung der Daten müssen die Anforderungen der Nutzer identifiziert werden. Auf dieser Basis sind anschließend die Datenproduktions- bzw. bereitstellungsprozesse zu modellieren. In den meisten Fällen handelt es sich dabei um Datenanlage- und Datenpflegeprozesse, z. B. die Erfassung von Logistikdaten zu einem bestimmten Artikelstammdatum. Data Governance hat für diese DQM-
275
C Organisation Aufgaben auch Vorgaben zu machen und Standards zu setzen, wie Datenqualität in den Prozessen einzuhalten ist. Beispielsweise kann bei Unternehmen im Maschinen- und Anlagenbau eine Vorgabe lauten, dass der Status „As built“ im Produktlebenszyklus erst dann gesetzt werden darf, wenn sämtliche Produktdaten vollständig erfasst sind und alle Geschäftsregeln dafür erfüllt sind. Data Governance muss also auch Aussagen treffen, in welchem Umfang die Datenmanagementprozesse in die operativen Geschäftsprozesse (z. B. Produktentwicklung, Beschaffung) eingebettet sind. Denn aus den Geschäftsprozessen leiten sich die Anforderungen an die Datenarchitektur ab. Zur Gestaltungsaufgabe von Data Governance gehört bspw. festzulegen, welche Datenobjekte konzernweit gültig sind und daher einheitlich interpretiert werden müssen, welche Attribute zentral gelten und welche lokal ausgestaltet werden dürfen und wie die wichtigsten Datenobjekte definiert sind. Damit umfasst die Datenarchitektur eines Unternehmens sowohl das Datenmodell als auch die umfassende Strukturierung (z. B. nach Regionen, Sparten oder Hauptprozessen) und Definition der wichtigsten Datenobjekte. Die Datendefinitionen werden häufig in so genannten Datenkatalogen abgelegt, für welche in der Praxis auch der englische Begriff „Business Data Dictionary“ verwendet wird. Auf Basis der logischen Strukturierung der Daten in der Datenarchitektur, beschreibt die Systemarchitektur im DQM-Kontext, welche Datenobjekte in welchen Systemen gehalten werden. Von entscheidender Bedeutung ist dabei die Festlegung, welche Systeme für welche Datenobjekte bzw. für welche Attribute als so genannte „führende“ Systeme eingesetzt werden. Beispielsweise kann eine Enterprise-Resource-Planning-System (ERP-System) führend sein für die Verwaltung von Materialstammdaten und dabei auch originär den zugehörigen Primärschlüssel (z. B. die Materialnummer) verwalten. Aber Geometriedaten können in anderen Systemen, z. B. in der Konstruktionsabteilung des Unternehmens, vorgehalten werden. Darüber hinaus muss Data Governance auf der Ebene der Informationssysteme Aussagen treffen, welche Datenqualitätsvorgaben bei der Entwicklung bzw. Änderung von Systemen zu beachten sind und welche Systeme zur Verbesserung der Datenqualität eingesetzt werden.
4.3.3 Zuständigkeiten Neben der Identifikation und Besetzung von Rollen sowie der Benennung der wesentlichen Aufgaben im DQM ist es Zweck der Data Governance, die Verknüpfung von Rollen und Aufgaben herzustellen. Dabei werden einzelnen Rollen bestimmte Zuständigkeiten für Aufgaben zugeordnet. Gemäß der Darstellung in Bild 2 entsteht auf diese Weise eine Zuständigkeitsmatrix. Für die Ausprägung der Zuständigkeiten steht eine Reihe von praxisbewährten Konzepten zur Verfügung. Zu den bekanntesten gehört der RACI-Ansatz, der auch vom IT Governance Institute für die „Control Objectives for Information and
276
4 Data Governance related Technology“ (COBIT), einem Industriestandard für IT Governance, vorgeschlagen wird. RACI ist ein Akronym für die vier Arten von Zuständigkeit, nämlich responsible (verantwortlich), accountable (rechenschaftspflichtig), consulted (befragt) und informed (informiert). Für die Aufgaben des DQM bedeutet das: – Verantwortliche Rollen (R) führen die Aufgaben durch bzw. detaillieren die Art und Weise, wie die Aufgaben durchgeführt werden. Sie sind für das „Machen“ zuständig. Beispielsweise könnte ein Prozessverantwortlicher im Einkauf dafür verantwortlich sein, dass für alle Lieferantenstammdaten die so genannte D-U-N-S-Nummer zur eindeutigen Identifikation von Geschäftspartnern gepflegt ist. – Rechenschaftspflichtige Rollen (A) genehmigen bestimmte Entscheidungen oder Ergebnisse einzelner Aufgaben. Beispielsweise gibt ein Konzern-DatenSteward die Richtlinien für Datenpflegeprozesse frei, die ein fachlicher Daten-Steward in einem bestimmten Geschäfts- oder Fachbereich implementieren möchte. – Befragte Rollen (C) sind für das Einbringen speziellen Fachwissens zuständig, z. B. kann beim Entwurf der Datenarchitektur ein Systemverantwortlicher für ein ERP-System als Experte mit einer derartigen Zuständigkeit hinzugezogen werden. – Schließlich werden informierte Rollen (I) über die Ergebnisse bestimmter Aufgaben sowie über getroffene Entscheidungen in Kenntnis gesetzt. Verabschiedet das Datenqualitätskomitee bspw. eine neue Vorgabe für die Sollwerte einer bestimmten Datenqualitätsdimension, so werden betroffene Systemverantwortliche darüber informiert. Unterschiedliche Auffassungen existieren darüber, wie viele „A“- bzw. „R“Zuordnungen pro Matrixzeile, also pro Aufgabe, vorgenommen werden dürfen. In der Theorie finden sich verstärkt Tendenzen, jeweils nur eine „A“-Zuordnung zuzulassen, wohingegen in der Praxis zumeist nur eine „R“-Zuordnung, aber stattdessen mehrfache „A“-Zuordnungen verwendet werden. Dieser Auffassung liegt die Überlegung zu Grunde, dass es nur eine Rolle geben sollte, die mit der konkreten Umsetzung betraut ist. Mehrfache „A“-Zuordnungen hingegen dokumentieren eine eher kooperative Koordination der Entscheidungsfindung (siehe hierzu auch Abschnitt 1.3.4). Welche Art von Zuständigkeit welcher Rolle für welche Aufgaben im DQM übertragen wird, hängt für jedes Unternehmen von spezifischen Einflussfaktoren ab. Die Kenntnis dieser Einflussfaktoren und deren Wirkungsweise ist eine entscheidende Voraussetzung für die Anwendung des RACI-Ansatzes und damit auch der Anwendung des Data-Governance-Modells.
277
C Organisation
4.3.4 Einflussfaktoren und Gestaltungsparameter Die Ausgestaltung des unternehmensspezifischen Data-Governance-Modells hängt von verschiedenen Einflussfaktoren ab, zu denen im Wesentlichen diejenigen gehören, die in Abschnitt 1.2.5 im Kontext von IT Governance dargestellt sind. Sie haben Auswirkungen auf die Ausprägung der Datenqualitätsstrategie, auf das Führungssystem - kurz: auf die DQM-Aufgaben. Andererseits hängen auch das Vorhandensein und die Ausgestaltung der Rollen von den Einflussfaktoren ab. So ist es bspw. fraglich, ob ein Unternehmen mit ausgewiesener Wachstumsstrategie und einem sehr dezentralen Führungsstil ein unternehmensweites DataGovernance-Modell inkl. eines Konzern-Daten-Stewards etabliert. Und schließlich wirken sich die Einflussfaktoren auch auf die Verteilung der Zuständigkeiten für DQM aus, also - bildhaft ausgedrückt - auf das Füllen der Matrix (siehe Bild 2). Der Zusammenhang zwischen den Einflussfaktoren, den Gestaltungsparametern sowie den Gestaltungselementen des Data-Governance-Modells und seiner konkreten Anwendung ist in Bild 5 dargestellt. Einflussfaktoren
Gestaltungsparameter
Gestaltungselemente
Modellanwendung
Rollen Aufgaben Zuständigkeiten
Spezifisches DataGovernanceModell
Grösse Aufbauorganisation
Platzierung von Entscheidungsbefugnissen
Wettbewerbsstrategie Corporate Governance
Art der Entscheidungsfindung
Koordination von Entscheidungskompetenzen
Abbildung 5: Zusammenhang zwischen Einflussfaktoren und Gestaltungsparametern
Für diesen Mechanismus sind Gestaltungsparameter verantwortlich. Zur Beantwortung der Frage, was im DQM relevante Gestaltungsparameter sind, werden in Analogie zur Identifikation der Gestaltungselemente von Data Governance Erkenntnisse aus der Forschung zur IT-Organisation übertragen. Dabei sind zwei Gestaltungsparameter von besonderer Relevanz: – Platzierung von Entscheidungsbefugnissen in der Aufbauorganisation [Brown 1997, Sambamurthy & Zmud 1999, Brown & Grant 2005]: Grundsätzlich können unterschieden werden die zentrale Ausprägung, bei der sämtliche Befugnisse in einer zentralen Stelle (z. B. einer zentralen IT-Organisation) gebündelt werden, und die dezentrale Gestaltung, bei der die Befugnisse auf verschiedene organisatorische Stellen im Unternehmen verteilt werden (z. B. auf die verschiedenen IT-Organisationen in den Geschäftsbereichen). Die
278
4 Data Governance zentrale Platzierung von Entscheidungsbefugnissen findet sich tendenziell häufiger bei eher kleinen Unternehmen mit konservativen Wettbewerbsstrategien und formalen Entscheidungsprozessen, wohingegen die dezentrale Platzierung eher in großen Unternehmen mit offensiven Wettbewerbsstrategien und verteilten Entscheidungsprozessen auftritt. – Koordination von Entscheidungskompetenzen [Brown 1999, Peterson 2004]: Hierbei ist zu unterscheiden zwischen der hierarchischen und der kooperativen Koordination der Entscheidungskompetenzen. In erstem Fall erfolgt die Koordination in vertikaler Richtung, in dem Kompetenzen delegiert werden und die Ausführung einzelner Aufgaben anschließend überprüft wird. Bei der kooperativen Koordination werden Entscheidungen im Konsens getroffen und Probleme werden nicht per Dekret, sondern in Zusammenarbeit unterschiedlicher Kompetenzträger gelöst. In Abhängigkeit der Einflussfaktoren wirken die Gestaltungsparameter in unterschiedlicher Weise auf die Ausgestaltung des Data-Governance-Modells. In Tabelle 3 ist dargestellt, welchen Einfluss die Platzierung von Entscheidungsbefugnissen im Unternehmen auf die Zuordnung von Zuständigkeiten im DQM hat. Tabelle 3: Wirkung der Platzierung von Entscheidungsbefugnissen auf das DataGovernance-Modell
Rolle
Zentrales Data-Governance- Dezentrales DataModell Governance-Modell
Sponsor
„A“ bei wenigen, aber den „C“, also eher empfehlend, wichtigsten DQM-Aufgaben nicht steuernd
Datenqualitätskomitee Viele „A“
Viele „C“ und „I“, wenige „A“-Einfachzuordnungen
Konzern-DatenSteward
Viele „A“
„C“, ggfs. auch nicht vorhanden als eigenständige Rolle
Fachliche und technische Daten-Stewards
Überwiegend „R“, wenige „A“ bei weniger wichtigen DQM-Aufgaben
Viele „A“ und „R“
Bei einem eher zentral ausgerichteten Data-Governance-Modell finden sich viele genehmigende Zuständigkeiten in zentralen Rollen, z. B. beim Datenqualitätskomitee und beim Konzern-Daten-Steward, wohingegen die fachlichen und technischen Daten-Stewards in den einzelnen Geschäfts- und Fachbereichen tendenziell eher mit der Ausführung bzw. Detaillierung einzelner Aufgabenbereiche betraut sind.
279
C Organisation Beim dezentralen Modell haben die zentralen Rollen weniger Weisungsbefugnisse - die sich in vielen „A“-Zuordnungen auswirken würden -, sondern vielmehr empfehlenden, beratenden Charakter, was sich in einer verstärkten Zuordnung von „C“-Zuständigkeiten widerspiegelt. Die Rechenschaftspflicht liegt tendenziell eher bei den fachlichen Daten-Stewards in den einzelnen Organisationsbereichen. In analoger Weise ist die Wirkung des Gestaltungsparameters der Koordination von Entscheidungskompetenzen in Tabelle 4 dargestellt. Tabelle 4: Wirkung der Koordination von Entscheidungskompetenzen auf das DataGovernance-Modell
Rolle
Hierarchisches DataGovernance-Modell
Sponsor
„A“-Mehrfachzuordnung „A“ bei wenigen, aber den wichtigsten DQM-Aufgaben
Kooperatives DataGovernance-Modell
Datenqualitätskomitee Viele „A“Einfachzuordnungen
Viele „A“Mehrfachzuordnungen, viele „C“
Konzern-DatenSteward
Viele „A“Einfachzuordnungen
„C“, „I“, kaum „A“Einfachzuordnungen
Fachliche und technische Daten-Stewards
„R“, „I“, viele „C“
Viele „A“Mehrfachzuordnungen, viele „C“
Bei einem hierarchischen Modell treten viele „A“-Einfachzuordnungen in zentralen Rollen auf. Es gibt klare Entscheidungsstrukturen, und Aufgaben werden von übergeordneten an untergeordnete Stellen delegiert. So finden sich bei den fachlichen und technischen Daten-Stewards fast keine „A“-Zuordnungen. Beim kooperativen Modell gibt es viele „A“-Mehrfachzuordnungen, was den Charakter der engen Zusammenarbeit widerspiegelt. Treten zwischen Rollen mit „A“Zuordnung Meinungsverschiedenheiten auf, z. B. über die Festlegung der Messgrößen für Datenqualität, so werden sie im Konsensverfahren geklärt. Ein weiteres Merkmal des kooperativen Modells ist die vermehrte Zuordnung von „C“ und „I“, damit möglichst viele Rollen in den Aufgaben bzw. Entscheidungen beteiligt oder zumindest informiert sind. Mit dem Verständnis über die Wirkungsweisen der Gestaltungsparameter auf das Data-Governance-Modell lässt sich also eine unternehmensindividuelle Ausprägung der einzelnen Gestaltungselemente erreichen. Dadurch wird gewährleistet, dass die in der Datenqualitätsstrategie artikulierten strategischen Ziele erreichbar sind und die Aufgaben des DQM bestmöglich erfüllt werden können.
280
4 Data Governance
4.4 Zusammenfassung Data Governance bietet einen Rahmen für das Datenqualitätsmanagement. Genauer gesagt, weisen Unternehmen Rollen Verantwortlichkeiten für Aufgaben des Datenqualitätsmanagement mit Hilfe der Data Governance zu. Typische Rollen sind der Sponsor, das Datenqualitätskomitee, der Konzern-Daten-Steward und fachliche und technische Daten-Stewards. Die Aufgaben des Datenqualitätsmanagements umfassen die drei Ebenen der Unternehmensarchitektur Strategie, Prozesse und Informationssysteme. So müssen z.B. eine Datenqualitätsstrategie entwickelt, Datenproduktionsprozesse modelliert und die Datenarchitektur gestaltet werden. Die Zuordnung von Verantwortlichkeiten geschieht mit Hilfe des RACIAnsatzes. Diese drei wesentlichen Gestaltungselemente der Data Governance ergeben eine Matrix – das Data-Governance-Modell. Die unternehmensspezifische Ausprägung des Data-Governance-Modells ist von verschiedenen Einflussfaktoren, wie bspw. Größe, Corporate Governance oder Wettbewerbsstrategie des Unternehmens, abhängig. Die Einflussfaktoren wirken auf Gestaltungsparameter, die wiederum die unternehmensspezifische Ausprägung des Modells bestimmen. So neigen z. B. kleine Unternehmen mit zentraler Corporate Governance und einer konservativen Wettbewerbsstrategie zu einer zentralen Platzierung von Entscheidungsbefugnissen. Der zweite Parameter – die Koordination von Entscheidungsbefugnissen – wird von der Art der Entscheidungsfindung des Unternehmens bestimmt. Data Governance ist jedoch kein Selbstzweck und auch keine bürokratische Übung. Um Data Governance erfolgreich umzusetzen, müssen sich Unternehmen zunächst klar darüber werden, welches Ziel sie damit verfolgen und welche Reichweite Data Governance haben soll. Ein guter Ausgangspunkt ist die Identifikation eines Geschäftstreibers für das Datenqualitätsmanagement, wie z.B. neue gesetzliche Anforderungen. Dieser Geschäftstreiber sichert einerseits die notwendige Unterstützung durch das Top Management, hilft aber auch den Nutzen anhand eines hochpriorisierten Themas aufzuzeigen. Um die im Data-Governance-Modell definierten Strukturen umzusetzen, ist es wichtig die richtigen Personen im Unternehmen einzubeziehen. Alle Betroffenen müssen frühzeitig informiert und auch aktiv in die Erstellung des Modells einbezogen werden. Die späteren Daten-Stewards können auch im Projekt bereits eine Schlüsselrolle einnehmen, da sie die Anforderungen am besten kennen. Die im Modell identifizierten Rollen müssen mit Personen besetzt werden, die die Kompetenz besitzen und die richtigen Fähigkeiten haben, um Veränderungen bewirken zu können und sich durchzusetzen. Nur mit einem Kompensationsmodell, welches die Einhaltung der definierten Regeln für höhere Datenqualität fördert, wird die Initiative langfristig Erfolg haben. Schließlich sollte das Modell regelmäßig überprüft und bei veränderten Gegebenheiten angepasst werden.
281
C Organisation
Literaturverzeichnis [Brown & Grant 2005] Brown, A. E., Grant, G. G.: Framing the Frameworks: A Review of IT Governance Research. In: Communications of the Association for Information Systems, 15. Jg., Heft May, S. 696-712. [Brown 1997] Brown, C. V.: Examining the Emergence of Hybrid IS Governance Solutions: Evidence from a Single Case Site. In: Information Systems Research, 8. Jg., Heft 1, S. 69-94. [Brown 1999] Brown, C. V.: Horizontal Mechanisms under Differing IS Organization Contexts. In: MIS Quarterly, 23. Jg., Heft 3, S. 421-454. [Davenport 1993] Davenport, T. H.: Process Innovation: Reengineering Work through Information Technology. Harvard Business School Press, Boston, 1993. [Dember 2006] Dember, M.: 7 Stages for Effective Data Governance. In: Architecture & Governance Magazine, 2. Jg., Heft 4, S. [Donaldson 2001] Donaldson, L.: The Contingency Theory of Organizations. Sage Publications, Thousand Oaks, CA, USA, 2001. [Dyché & Levy 2006] Dyché, J., Levy, E.: Customer Data Integration. John Wiley & Sons, Hoboken, New Jersey, 2006. [English 1999] English, L. P.: Improving Data Warehouse and Business Information Quality. 1, John Wiley & Sons, Inc., New York, NY, 1999. [Eppler 2006] Eppler, M. J.: Managing Information Quality. 2nd Edition, Springer, Berlin, Heidelberg, 2006. [Friedman 2006] Friedman, T.: Gartner Study on Data Quality Shows That IT Still Bears the Burden. G00137680, Gartner Group, Stamford, 2006. [Hammer & Champy 1993] Hammer, M., Champy, J.: Reengineering the Corporation: A Manifesto for Business Revolution. Nicholas Brealey Publishing, London, 1993. [IBM 2006] IBM: IBM Delivers New Data Governance Service to Help Companies Protect Sensitive Information. http://www-03.ibm.com/press/us/en /pressrelease/20769.wss (Zugriff am 09.02.2007). [Lee et al. 2006] Lee, Y. W., Pipino, L. L., Funk, J. D., Wang, R. Y.: Journey to Data Quality. MIT Press, Boston, 2006. [Marco & Smith 2006] Marco, D., Smith, A. M.: Metadata Management & Enterprise Architecture: Understanding Data Governance and Stewardship. In: DM Review, Jg., Heft Sep/Okt/Nov, S. [Newman & Logan 2006] Newman, D., Logan, D.: Governance Is an Essential Building Block for Enterprise Information Management. Gartner Research, Stamford, CT, 2006.
282
4 Data Governance [Nohr 2001] Nohr, H.: Management der Informationsqualität. Nr. 3/2001, Fachhochschule Stuttgart, Stuttgart, 2001. [OECD 2004] OECD: OECD Principles of Corporate Governance. OECD Publications Service, Paris, 2004. [Österle & Blessing 2003] Österle, H., Blessing, D.: Business Engineering Modell. in: Österle, H., Winter, R. (Hrsg.), Business Engineering, Springer, Berlin, 2003, S. 6585. [Peterson 2004] Peterson, R.: Crafting Information Technology Governance. In: Information Systems Management, 21. Jg., Heft 4, S. 7-22. [Redman 1996] Redman, T. C.: Data Quality for the Information Age. Artech House, Boston, London, 1996. [Russom 2006a] Russom, P.: Master Data Management: Consensus-Driven Data Definitions for Cross-Application Consistency. TDWI, Chatsworth, 2006a. [Russom 2006b] Russom, P.: Taking Data Quality to the Enterprise through Data Governance. The Data Warehousing Institute, Seattle, 2006b. [Sambamurthy & Zmud 1999] Sambamurthy, V., Zmud, R. W.: Arrangements for Information Technology Governance: A Theory of Multiple Contingencies. In: MIS Quarterly, 23. Jg., Heft 2, S. 261-290. [Smalltree 2006] Smalltree, H.: Data governance requires checks and balances, Gartner says. http://searchdatamanagement.techtarget.com/originalContent/0,289142,sid91_gci12 30521,00.html (Zugriff am 12.01.2007). [Swanton 2005] Swanton, B.: Master Data Management Organizations: A Balance of Control and Responsibility. AMR Research, Boston, 2005. [Wang et al. 1998] Wang, R. Y., Lee, Y. W., Pipino, L. L., Strong, D. M.: Manage Your Information as a Product. In: Sloan Management Review, 39. Jg., Heft 4, S. 95105. [Weill 2004] Weill, P.: Don't just lead, govern: How top-performing firms govern IT. In: MIS Quarterly Executive, 3. Jg., Heft 1, S. 1-17. [Weill & Ross 2005] Weill, P., Ross, J.: A Matrixed Approach to Designing IT Governance. In: MIT Sloan Management Review, 46. Jg., Heft 2, S. 25-34.
283
5 IQM-Reifegradmodell für die Bewertung und Verbesserung des Information Lifecycle Management Prozesses 5 IQM-Reifegradmodell
Saša Baškarada, Marcus Gebauer, Andy Koronios, Jing Gao
5.1 Einleitung Heutige Organisationen produzieren und speichern mehr Informationen als je zuvor. Der resultierende Informationsüberfluss, zusammen mit einem Mangel an Qualitätssicherung für das Information Lifecycle Management, führt zu einem unsicheren Status der Informationsqualität in vielen Organisationen. Weiterhin hat sich herausgestellt, dass das Bewerten, Verbessern und Steuern der Informationsqualität ein offenkundig schwieriges Unterfangen ist. Dieses Kapitel stellt ein Modell zur Bewertung und Verbesserung der Information Quality Management Capability Maturity (IQM-Reifegrad) vor. Es wird ein Satz von Kriterien vorgestellt, der aus Literaturrecherche und Fallstudien abgeleitet wurde. Die Reifegradindikatoren werden validiert und in einem mehrstufigen Reifegradmodell durch eine Delphi-Studie gruppiert. Das abgeleitete IQM-Reifegradmodell hilft Organisationen ihre bestehenden Praktiken im IQM zu bewerten und potentielle Lücken und Verbesserungsstrategien zu ermitteln. Gartner Research berichtet, dass Organisationen, die auf ein echtes Management von Informationen (IM) verzichten, Wettbewerbsnachteile zu erwarten haben [Logan & Newman 2006]. Eine zunehmende Zahl von Organisationen beginnt daher die Wichtigkeit des Informationsmanagements und der Informationsqualität (IQ) für eine effektive Entscheidungsfindung und ein erfolgreiches Geschäft zu erkennen. Heutige Unternehmen haben gerade in der nahen Vergangenheit signifikante Veränderungen durchgemacht. Technologisch neue Möglichkeiten, Informationen zu sammeln und zu erzeugen, haben geradezu zu einer Informationsflut geführt [Lyman & Hal 2003], von der sich Unternehmen Geschäftsvorteile versprochen haben. Dennoch hat diese Informationsfülle nicht notwendigerweise zu besser informierten Organisationen oder effektiveren Entscheidungsprozessen geführt. Unternehmen managen mehr Informationen als je zuvor und nehmen konsequenterweise allmählich resultierende IQ-Fragen war. Obgleich es ein zunehmendes Bewusstsein für IQ-Fragen gibt, stellen viele Organisationen fest, dass es schwierig ist, die eigenen Fähigkeiten im IQM zu bewerten.
284
5 IQM-Reifegradmodell Das heißt, viele Organisationen sind sich nicht sicher, wie gut sie ihre Informationen managen, ihre Informationsqualität sicherstellen können und wie gut ihre eigene Praxis in der Informationsqualität verglichen mit anderen Organisationen ist. Dieses Kapitel stellt ein IQM-Reifegradmodell zur Bewertung und Verbesserung von IM- und IQM-Prozessen und zur Steigerung IQM-Kompetenzen in Organisationen vor.
5.2 Hintergrund Dieser Abschnitt präsentiert einen kurzen Überblick der relevanten Theorien, wobei das Total Quality Management (TQM), Quality Management Maturity und die IQM- Literatur berücksichtigt wird. Darüber hinaus werden auch bestehende IQMReifegradmodelle betrachtet.
5.2.1 Total Quality Management Die Erstellung qualitativ hochwertiger Produkte und die Erbringung ebensolcher Dienstleistungen werden im heutigen Geschäftsumfeld als Grundlage von Erfolg und Dauerhaftigkeit angesehen [Zeithaml et al. 1990]. Weiterhin hat Feigenbaum argumentiert, dass Qualität die wichtigste Kraft für Erfolg und Wachstum in nationalen und internationalen Märkten ist [Feigenbaum 1986]. Walter Shewhart wird von vielen als der Begründer der heutigen Qualitätsbewegung angesehen, hat er doch statistische Control-Charts und den Shewhart-Kreislauf für eine kontinuierliche Verbesserung entwickelt [Shewhart 1925]. Er schlug für Qualität zwei Aspekte vor; den objektiven Aspekt (z.B. Übereinstimmung mit der Spezifizierung), bezogen auf inhärente Charakteristiken des Produktes / Services, und den subjektiven Aspekt (z.B. Bedienbarkeit oder Einfachheit), bezogen auf subjektive (durch Nutzer / Kunden definierte) Qualitätscharakteristiken. Nach Shewhart können subjektive Aspekte von höherem kommerziellen Interesse sein, obwohl objektive Aspekte üblicherweise gemessen werden [Shewhart 1931]. Philip Crosby definiert Qualität als Übereinstimmung mit den Anforderungen, wobei er den Grad der Übereinstimmung als Unterschied zwischen zwei Stati beschreibt, dem gewünschten Status und dem tatsächlichen [Crosby 1979]. So können zum Beispiel Kundenerwartungen als der gewünschte Status und das Produkt oder die Dienstleistung als tatsächlicher Status angesehen werden. Er bahnte ebenso der Idee der Quality Management Maturity den Weg. J. Juran definiert Qualität als “fitness for use” / “Zweckeignung” [Juran 1974], und führte die Idee der Qualitätstrilogie ein: Qualitätsplanung, Qualitätskontrolle und Qualitätsverbesserung [Juran 1988]. W. Edwards Deming definierte Qualität als den vorhersagbaren Grad von Uniformität und Verlässlichkeit [Deming 1982]. Er legte dar, dass der Kunde der wichtigste Teil der Produktionskette sei, und dass Verbesserungen in der Qualität sowohl zu Verbesserungen in der Produktivität als auch im Wettbewerb führen [Deming 1982]. Kaoru Ishikawa wird die Idee einer
285
C Organisation unternehmensweiten Qualitätskontrolle in Japan zugeschrieben [Ishikawa 1986]. Er führte Qualitätskreisläufe und verschiedene andere Werkzeuge ein, um Wurzelursachen von Qualitätsproblemen zu verstehen. Eines dieser Werkzeuge, das Ursache-Wirkungs-Diagramm, ist auch als Ishikawa- oder Fishbone-Diagramm bekannt. Zahlreiche andere Forscher haben über die Jahre eine große Zahl „Kritischer-Erfolgs-Faktoren“ (CSF – Critical Success Factors) für ein TQM vorgeschlagen. Motwani führte eine vergleichende Analyse von sechs empirischen Studien auf CSF für TQM [Motwani 2001]. Er gruppierte ähnliche Konstrukte, wobei er zum Schluss sieben primäre Faktoren erhielt: Top Management Bekenntnis, Qualitätsmessung und -benchmarking, Prozessmanagement, Produktdesign, Mitarbeiterschulung und -befähigung, Lieferanten-Qualitätsmanagement und Einbeziehung des Kunden und dessen Zufriedenheit.
5.2.2 QM-Reifegrad Die Idee eines QM-Reifegrades stammt ursprünglich von Crosby aus dem Jahr 1979 [Crosby 1979]. Er schlug fünf Stufen einer Quality Management Maturity für Organisationen vor: Unsicherheit, Erwachen, Aufklärung, Weisheit und Gewissheit (Original: uncertainty, awakening, enlightment, wisdom, certainty), welche von verschiedenen Faktoren abhängen, zu denen Management-Verständnis und -Einstellung, Problembehandlung, Qualitätsverbesserungsaktionen und ähnliches mehr gehören. Seine Ideen wurden von IBM weiterentwickelt und in der SoftwareEntwicklung angewandt (1985) [Radice et al. 1985]. Das Software Engineering Institute (SEI) an der Carnegie Mellon University (CMU) und das Verteidigungsministerium der Vereinigten Staaten von Amerika (US DOD - United States Department of Defense) trieben die Quality Maturity Idee weiter voran, in dem sie ab 1986 das Capability Maturity Modell (CMM) entwickelten [Paulk et al. 1993]. CMM wird seitdem durch das US DOD extensiv in der Bewertung seiner Softwareund Systementwickler genutzt. Die aktuelle CMM-Version 1.1 wurde im Februar 1993 bereitgestellt. CMM ist eine Methodologie, die genutzt wird, den Softwareentwicklungsprozess einer Organisation zu konsolidieren und zu verfeinern, in dem ein Rahmen zur kontinuierlichen Prozessverbesserung implementiert und zur Bestimmung der aufzuwenden Mittel herangezogen wird. CMM umfasst fünf Reifegrade (Maturity Level), welche den entwicklungsmäßigen Weg eines zunehmend strukturierten und methodisch reiferen Softwareentwicklungsprozesses darstellen. Dem Erfolg von CMM folgend wurden zahlreiche Reifegradmodelle, einschließlich des CMMNachfolgers CMMI (Capability Maturity Model Integration), für eine breite Palette von Anwendungsbereichen entwickelt [CMMI 2002].
5.2.3 Information Quality Management Nach der Informationstheorie, welche größtenteils in den Bell Labs in den 1940er entwickelt wurde, dienen Informationen der Reduzierung von Unsicherheit
286
5 IQM-Reifegradmodell [Shannon 1948, McEliece 2002, Avery 2003]. Die Tatsache voraussetzend, dass Entscheidungsqualität eine Funktion der Informationsqualität ist, kann die Entscheidungsfindung in Organisationen durch die Qualität dabei eingesetzter Informationen beeinflusst werden [Stephenson 1985, Strong et al. 1992]. Konsequenterweise kommen Organisationen zu der Sicht, dass qualitativ hochwertige Informationen eines ihrer wichtigsten Güter sind [Wang & Strong 1996, Agarwal & Venkatesh 2002]. Zahlreiche Forscher haben versucht, IQ zu definieren und deren Dimensionen zu charakterisieren. Was die Spezifizierung von IQ erschwert, ist die Tatsache, dass die Qualität von Information, die für einen Nutzen ausreichend ist, dies für einen anderen nicht mehr ist, da verschiedene Informationskunden unterschiedliche Qualitätsanforderungen haben können [Giannoccaro et al. 1999]. Die Verbesserung von IQ ist weiterhin eine schwierige Aufgabe, da die Verbesserung einer IQ Dimension eine andere beeinflussen kann. So kann zum Beispiel die Verbesserung der Zeitgerechtigkeit (Timeliness) zu Kosten der Exaktheit (Accuracy) gehen [Ballou & Pazer 1985]. Danach wurde ein IQ-Problem definiert als jedwede Schwierigkeit, die entlang einer oder mehrerer Qualitätsdimensionen entdeckt wird, und die Information insgesamt oder größtenteils für einen Zweck ungeeignet macht [Strong et al. 1997]. Das Total Data Quality Management (TDQM) Rahmenwerk adaptierte Prinzipien des Total Quality Management (TQM) im IQM, indem eine Korrelation zwischen traditioneller Produktfertigung und der Fertigung eines Informationsproduktes (IP) gezogen wurde [Wang 1998]. Daher kann die Qualität eines erzeugten IP direkt durch die Qualität der im Informationssystem implementierten Prozesse beeinflusst werden. Tabelle 1: Analogie zwischen Produktfertigung und IP-Fertigung nach [Wang 1998] Produktfertigung
Informationsfertigung
Input
Rohmaterialien
Rohdaten
Prozess
Montageband
Informationssystem
Output
Physisches Produkt
Informationsprodukt (IP)
Konsequenterweise ist es daher wichtig sicherzustellen, dass Prozesse in jeder Stufe des Lebenszyklusses einer Information deren Qualität nicht negativ beeinflussen. Überdies hat die TDQM-Methodologie den Qualitätsverbesserungskreislauf aus der verarbeitenden Industrie zur Verbesserung der IQ adaptiert(Tabelle 1). Dieser “Plan, Do, Check, Act” Kreislauf von Deming [Deming 1982] wird in der IPQualitätsverbesserung angewandt, da IQ-Verbesserungen von kontinuierlicher Rückmeldung in den Prozess abhängig sind, in dem das IP produziert wird.
287
C Organisation
5.2.4 Existierende IQM-Reifegradmodelle In den vergangenen Jahren wurden eine Reihe IQM-bezogener Reifegradmodelle vorgeschlagen. Caballero et al. stellen das Konzept eines Informationsmanagementprozesses (IMP) dar und berücksichtigen das Informationssystem (IS) als ein Satz von IMPs [Caballero et al. 2004]. Anschließend wird das Reifegradmodell auf jedes IMP angewandt. Kyung-Seok beschreibt einige Reifegradstufen in Bezug auf IM, wobei er zeigt, dass ein höherer Reifegrad im IM zu einer verbesserten Informationsqualität führt [Kyung-seok 2005]. English passte Crosbys Qualitätsreifegitter auf den Bereich der IQ an [English 1999]. Das in diesem Kapitel vorgestellte IQM-CMM wurde an der Universität von SüdAustralien (UniSA) im Strategic Information Management Laboratory (SIM Lab) entwickelt [Baškarada et al. 2006]. Es fundiert auf Crosbys Qualitätsreifegitter, welches fünf Stufen beinhaltet, wobei jede Stufe eine Evolution im IQM-Reifegrad bildet. Durch Trennung von IQ-Zielen in einer Anzahl an Stufen sollte es einfacher sein inkrementell partielle IQ-Ziele zu erreichen.
5.3 Methodologie Das IQM-CMM wurde in zwei Stufen entwickelt. In der ersten Stufe wurde eine Reihe von IQM-Reifegradindikatoren mit Hilfe von Fallstudien und extensiver Literaturrecherche entwickelt. Annähernd zwei dutzend Interviews wurden in fünf großen australischen Organisationen, zu denen verschiedene Regierungsabteilungen und Verteidigungsorganisationen gehörten, durchgeführt. Hierbei wurden die Reifegradindikatoren aus drei Perspektiven betrachtet: organisatorisch, sozial und technologisch. Die zweite Stufe beinhaltete eine Delphi-Studie über vier Iterationen, in welcher die individuellen Reifegradindikatoren validiert und in Stufen gruppiert wurden. An der Delphi-Studie waren 20 IQ-Experten, sowohl von der praktischen als auch von der akademischen Seite, beteiligt. Dies umfasste auch Mitglieder der International Association for Information and Data Quality (IAIDQ) und der Deutsche Gesellschaft für Informations- und Datenqualität (DGIQ).
5.3.1 Die Delphi-Methode Die Delphi-Methode wurde in den 1950er durch die Rand Corporation entwickelt, um den Einfluss von Technologie in der Kriegsführung vorherzusagen [Benarie 1988, Woundenberg 1991]. Der Name selbst geht auf das Orakel von Delphi Pythia zurück [Woundenberg 1991, Parke & Wormell 1956]. Die Delphi-Methode ist eine Technik, um neue Aspekte zu erkennen und Teilnehmer von Studien zu einem Konsens ihrer Meinungen zu bringen [Delbecq et al. 1975, Paliwoda 1983, Cho et al. 1991]. Sie wird auch eher genutzt, um neue Theorien und Hypothesen zu finden als diese zu testen [Kaynak & Macaulay 1984]. Die Methode gebraucht eine Reihe von Fragebögen, in welcher jede folgende Fragerunde die vorhergehende zusammenfasst [Fontana & Frey 1994]. In jeder nachfolgenden Runde sind die Teilneh-
288
5 IQM-Reifegradmodell mer aufgefordert ihre Meinung aufgrund der Ergebnisse der vorangegangenen Runde neu zu überdenken, um so einen Konsens in der Gruppe zu erzielen [Delbecq et al. 1975, Rowe et al. 1991]. Dementsprechend ist die Delphi-Methode dort nützlich wo wertende Information zur Lösung komplexer Probleme notwendig ist. In der letzten Runde werden die Ergebnisse zur Überprüfung an eine Expertenrunde versandt [Prendergast & Marr 1994]. Es wurde schon argumentiert, dass die Delphi-Methode exaktere Vorhersagen macht als solche unstrukturierter Gruppen [Rowe & Wright 1999]. Der Hauptaspekt an Delphi-Studien ist deren Anonymität, kontrollierte Rückmeldung, statistische Auswertung der Gruppenrückmeldung und die Zusammenstellung eines Expertenausschusses zur unabhängigen Beurteilung der Ergebnisse. Daher kann auch die Auswahl des Ausschusses nicht zufällig erfolgen. Sie orientiert sich am Expertenwissen, das für das zu untersuchende Thema notwendig ist [Deitz 1987, Martino 1983]. Darüber hinaus sollten Teilnehmer unterschiedlichen Hintergrundes ausgewählt werden, so dass ein holistisches Ergebnis erzielt werden kann [Delbecq et al. 1975, Rowe et al. 1991, Keeney et al. 2001]. So werden valide und verlässliche Ergebnisse durch einen Konsens des Urteils von Experten erreicht [Bardecki 1984, Parente et al. 1984]. Nach Fowles [Fowles 1978] sollte die Expertenrunde nicht weniger als sieben Teilnehmer haben, andere geben einen Bereich von zehn bis 50 an [Day & Aaker 1990, Mitchell & McGoldrick 1994, Dalkey 1969, DeLoe 1995, Miller 1993, Prendergast & Marr 1994]. Dagegen behauptet Delbecq [Delbecq et al. 1975] auf der anderen Seite, dass es keine bestimmte Anzahl sein muss, solange es genug Teilnehmer gibt, um ausreichend urteilen zu können.
5.4 IQM-Reifegradmodell Das IQM-Reifegradmodell (IQM-CMM) umfasst fünf aufeinander aufbauende Stufen (Tabelle 2), welche einen evolutionären Pfad strukturierterer und methodisch reiferer IQM Prozesse darstellt. Jede Stufe hängt von einer Anzahl Reifegradindikatoren ab, welche wiederum von einer Reihe von Bewertungskriterien abhängen. Das vollständige IQM-CMM beinhaltet über 50 Reifegradindikatoren, und das Bewertungsinstrument verwendet ungefähr fünf Bewertungsmaße pro Indikator. Insgesamt ergeben sich ungefähr 250 Bewertungsmaße. Bei mehr als 50 Reifegradindikatoren des IQM-CMM präsentieren wir in diesem Kapitel nur eine Zusammenfassung auf grobem Niveau. Wir nutzen drei Qualitätsstufen pro Bewertungskriterium: nicht zufriedenstellend, teilweise zufriedenstellend und voll zufriedenstellend (Tabelle 3).
289
C Organisation Tabelle 2: IQM-CMM Beschreibung auf höherer Ebene (durch die Autoren entwickelt) Reifegrad-Niveau
Beschreibung
Stufe 5 OPTIMIEREND
x x
IQM-Durchführungsüberwachung Kontinuierliche IQM-Verbesserung
Stufe 4 STEUERND
x x
IQM-Governance Kontinuierliche IQ-Verbesserung
Stufe 3 MESSEND
x x
IQ Zustands-Überwachung (IQ-Messung) Information Lifecycle Management
Stufe 2 REAKTIV
x x
Grundlegendes Informations-Management IQ-Schwächen sind bekannt
Stufe 1 CHAOTISCH
x
Totales Chaos!
Tabelle 3: IQM-CMM System der Bewertungskriterien (durch die Autoren entwickelt) Wertung
Beschreibung
nicht zufriedenstel- Es gibt keine Dokumentation und es gibt nur eine begrenzte lend oder keine Evidenz, eine Umsetzung zu bestätigen. teilweise zufrieden- Es gibt eine Dokumentation, die Umsetzung ist jedoch durch stellend ad-hoc-Prozesse inkonsistent. voll zufriedenstellend
Komplett dokumentiert, konsistent umgesetzt, effektiv und effizient angewendete Industrie-Best-Practices, mit Ergebnissen über den Erwartungen.
5.4.1 Chaotisch Die erste Stufe beinhaltet per definitionem keine Reifegradindikatoren. Organisationen, die die Bewertungskriterien der zweiten Stufe nicht erfüllen, werden als “Chaotisch“ klassifiziert. Solche Organisationen mögen einige grundlegende IMProzesse haben, diese sind jedoch nicht dokumentiert, standardisiert oder konsistent umgesetzt. Desweiteren versuchen “Chaotische“ Organisationen nicht, die Qualität der Informationen, die sie managen, zu bewerten oder zu verbessern. Unter Umständen ignorieren sie sogar IQ-Probleme und -Schwächen.
290
5 IQM-Reifegradmodell Bereiche im Reifegradprozess: – keine
5.4.2 Reaktiv Organisationen der zweiten Stufe sind sich der IQ-Schwächen bewusster. Dennoch reagieren sie nur auf IQ-Probleme, wenn diese auftauchen. “Reaktive“ Organisationen besitzen dokumentierte, standardisierte und konsistent umgesetzte grundlegende IM-Prozesse, obgleich sie vielleicht nicht über explizite IQM-Initiativen verfügen. Solche Organisationen haben die Interessenvertreter (InformationsLieferanten, -Stewards, -Eigner und -Nutzer) und Informationsnotwendigkeiten identifiziert und haben ein konzeptionelles, logisches und physische Datenmodell entwickelt. Speichermanagement-Regularien stellen sicher, dass kritische Informationen regelmäßig gesichert und archiviert werden, dass replizierte Information geeignet verwaltet wird und dass Informationen regelmäßig daraufhin geprüft werden, ob diese gelöscht werden können. Regelungen der Zugangskontrolle stellen sicher, dass nur autorisiertes Personal Zugriff auf Informationssysteme hat. Prüfungsketten stellen sicher, dass Zugriffs-Aktivitäten chronologisch geloggt werden. Zusätzlich garantieren Sicherheitsregularien adäquate Klassifizierung, Übertragung und Löschung sensitiver Informationen. Bereiche im Reifegradprozess: – – – – – – – – –
Management der Interessenvertreter Analyse der Anforderungen an Informationen Informationsmodellierung (konzeptionell, logisch, physisch) Speicherung redundanter Informationen Archivierung und Wiederbeschaffung von Information Informationszerstörungsmanagement Zugangskontrolle Prüfungsketten Informationssicherheit
5.4.3 Messend Organisationen der dritten Stufe beginnen, ihre Informationen als ein Produkt in allen Phasen des Lebenszyklusses zu managen. Solche Organisationen haben den Informationsfluss dokumentiert und managen die Informationslieferketten entsprechend. Des Weiteren sind Konfigurationsmanagement-Prozesse, welche sicherstellen, dass jede Änderung aufgezeichnet und rückgängig gemacht werden kann, implementiert. Eine konsistente Darstellung wird durch nutzen des gleichen ‚Look and Feel’ für alle Informationsprodukte erreicht. “Messende“ Organisationen haben zusätzlich Metadaten-Registries eingeführt, was bedeutet, dass Metadaten getrennt von ‚normalen’ Daten gesteuert werden. Relevante IQ-Dimensionen sind identifiziert und IQ-Anforderungen wurden durch die Interessenvertreter
291
C Organisation spezifiziert. Hieraus entstehen qualitative und quantitative IQ-Metriken und regelmäßige IQ-Bewertungen. Am wichtigsten ist aber, dass ein Projekt-Manager für die IQM-Anstrengungen verantwortlich ist. Dieser gewährleistet mit Schulungsprogrammen, dass das gesamte Personal die notwendigen Fertigkeiten besitzt. Bereiche im Reifegradprozess: – – – – – – – – –
Information als Produkt Informationslieferketten Konfiguration und Visualisierung des Informationsprodukts Meta-Informationen IQ-Anforderungsanalyse IQ-Metriken IQ-Bewertung IQ-Team und -Projektmanagement IQM-Aufklärung, -Schulung und –Mentoring
5.4.4 Steuernd Organisationen der Stufe vier besitzen strikte Regelungen bezüglich der Rollen und Pflichten, Sicherstellung der Verantwortlichkeiten und geben Anreize und Belohnungen für das IQM. “Steuernde“ Organisationen führen IQ-Benchmarks innerhalb der Organisation und extern gegen ihre Wettbewerber und die Weltmarktführer durch. Konsequenterweise wird IQ strategisch gesteuert, diese wird also mit den Strategien der Organisation und Key Performance Indikatoren (KPI) in Einklang gebracht. Solche Organisationen verbessern IQ kontinuierlich durch die Adressierung von Wurzelursachen von Problemen. Überdies haben “Steuernde“ Organisationen eine Informationsarchitekur entwickelt und dokumentiert, welche die Informationsintegration und Interoperabilität maximiert. Bereiche im Reifegradprozess: – – – – – – – – – –
IQM-Governance IQM-Verantwortung, -Belohnung und -Anreiz IQ-Benchmarking Strategisches IQM IQ-Revisions-Management IQ-Firewall Master Data Management Wurzelursachen-Analyse von IQ-Problemen IQM Kosten-Nutzen-Analyse Geschäftsprozess-Überarbeitung zur Verbesserung der IQ
5.4.5 Optimierend Organisationen auf Stufe fünf sind weltführend in IQM. Sie überwachen die Güte ihrer IQM-Anstrengungen durch in- und externes Benchmarking kontinuierlich.
292
5 IQM-Reifegradmodell Analyse, Bewertung, Berichtswesen und Verbesserung werden kontinuierlich verbessert und stets mit den Zielen der Organisation in Einklang gebracht. Das IQM und die damit verbunden Regeln und Metriken selbst sind Gegenstand ständiger Verbesserung. Bereiche im Reifegradprozess: – – – –
IQM-Benchmarking IQM-Analyse und -Berichtswesen IQM-Metriken Kontinuierliche Verbesserung des IQM
5.5 Zusammenfassung und Ausblick Heutige Organisationen sammeln und speichern mehr Informationen als je zuvor. Dennoch mögen all diese Informationen nicht zu einem strategischen und operativen Vorteil führen, bis sie durch Analyse Wissen erzeugen. Auf der anderen Seite ist Voraussetzung zur Erzeugung von Wissen, dass die genutzte Information von hoher Qualität ist. Als Folge beginnen Organisationen, IQ als wichtige Grundvoraussetzung für ihren Geschäftserfolg zu erkennen. In diesem Kapitel haben wir das IQM-Reifegradmodell IQM-CMM vorgestellt, welches Organisationen hilft, ihre IQM-Kompetenz zu bewerten und Verbesserungs-Strategien zu entwickeln. IQMCMM unterstützt die gezielte, zweckorientierte Sammlung, Speicherung und Nutzung von Information. In der Folge werden die IQ, die Entwicklung der Organisation und die Entscheidungsfindung verbessert.
Literaturverzeichnis [Agarwal & Venkatesh 2002] Agarwal, R. & Venkatesh, V.: Assessing a firm’s web presence: A heuristic evaluation procedure for the measurement of usability. In: Information Systems Research, 2. Jg., 2002, Heft 13, S. 168-178. [Avery 2003] Avery, J.: Information Theory and Evolution. World Scientific Publishing Co. Pte. Ltd., Singapore, 2003. [Ballou & Pazer 1985] Ballou, D. P. & Pazer, H. L.: Modeling Data and Process Quality in Multi-Input, Multi-Output Information Systems. In: Management Science, 3. Jg., 1985, Heft 31, S. 150-162. [Bardecki 1984] Bardecki, M. J.: Participants' Response to the Delphi Method: An Attitudinal Perspective. In: Technological Forecasting and Social Change, 3. Jg., 1984, Heft 25, S. 281-292. [Baškarada, Koronios & Gao 2006] Baškarada, S., Koronios, A. & Gao, J.: Towards a Capability Maturity Model for Information Quality Management: A TDQM Approach. In: 11th International Conference on Information Quality (ICIQ-06), 2006, MIT, Cambridge, Massachusetts, USA, November 10 - 12.
293
C Organisation [Benarie 1988] Benarie, M.: Delphi and Delphi Like Approaches with Special Regards to Environmental Standard Setting. In: Technological Forecasting and Social Change, 2. Jg., 1988, Heft 33, S. 149-158. [Caballero, Gómez & Piattini 2004] Caballero, I., Gómez, Ó. & Piattini, M.: Getting Better Information Quality by Assessing and Improving Information Quality Management. In: The Ninth International Conference on Information Quality (ICIQ-04), 2004, MIT, Cambridge, Massachusetts, November 5-7. [Cho, Jeong & Kim 1991] Cho, Y. Y., Jeong, G. H. & Kim, S. H.: A Delphi Technology Forecasting Approach Using a Semi-Markov Concept. In: Technological Forecasting and Social Change, Jg., 1991, Heft 40, S. 273-287. [CMMI 2002] CMMI: Capability Maturity Model® Integration (CMMI), Version 1.1. Carnegie Mellon Software Engineering Institute, Pittsburgh, 2002. [Crosby 1979] Crosby, P.: Quality is Free. McGraw-Hill, New York, 1979. [Dalkey 1969] Dalkey, N. C.: Delphi Method: An Experimental Study of Group Opinion. The Rand Corporation, Chicago, IL, 1969. [Day & Aaker 1990] Day, G. S. & Aaker, D. A.: Marketing Research. John Wiley & Sons, New York, NY, 1990. [Deitz 1987] Deitz, T.: Methods for Analysing Data from Delphi Panels. In: Technological Forecasting and Social Change, Jg., 1987, Heft 31, S. 79-85. [Delbecq, Ven & Gustafson 1975] Delbecq, A. L., Ven, A. H. V. d. & Gustafson, D. H.: Group Techniques for Program Planning: A Guide to Nominal Group Delphi Process. Scott-Foresman, Glenview, IL, 1975. [DeLoe 1995] DeLoe, R. C.: Explorig Complex Policy Questions Using The Policy Delphi: A Multi-Round, Interactive Survey Method. In: Applied Geography, 1. Jg., 1995, Heft 15, S. 53-68. [Deming 1982] Deming, W. E.: Out of the Crisis. MIT Press, Cambridge, 1982. [English 1999] English, L. P.: Improving Data Warehouse and Business Information Quality. Wiley Computer Publishing, New York, Chichester, Weinheim, Brisbane, Singapore, Toronto, 1999. [Feigenbaum 1986] Feigenbaum, A. V.: Total Quality Control. McGraw-Hill, New York, NY, 1986. [Fontana & Frey 1994] Fontana, A. & Frey, J. H.: Interviewing: The Art of Science. Sage, London, 1994. [Fowles 1978] Fowles, J.: Handbook of Futures Research. Greenwood Press, London, 1978. [Giannoccaro, Shanks & Darke 1999] Giannoccaro, A., Shanks, G. & Darke, P.: Stakeholder Perceptions of Data Quality in a Data Warehouse Environment. In: Australian Computer Journal, 4. Jg., 1999, Heft 31, S. 110-117. [Ishikawa 1986] Ishikawa, K.: Guide to Quality Control. Asian Productivity Organization, Tokyo, 1986.
294
5 IQM-Reifegradmodell [Juran 1974] Juran, J. M.: Quality Control Handbook. McGraw-Hill, New York, NY,, 1974. [Juran 1988] Juran, J. M.: Juran on Planing for Quality. Free Press, New York, 1988. [Kaynak & Macaulay 1984] Kaynak, E. & Macaulay, J. A.: The Delphi Technique in the Measurement of Tourism Marketing Potential. In: Tourism Management, Jg., 1984, Heft, S. 87-101. [Keeney, Hasson & McKenna 2001] Keeney, S., Hasson, F. & McKenna, H. P.: A Critical Review of the Delphi Technique as a Research Methodology for Nursing. In: International Journal of Nursing Studies, Jg., 2001, Heft 38, S. 195-200. [Kyung-seok 2005] Kyung-seok, R.: A study on data quality management maturity model. In: Advanced Communication Technology, 2005, ICACT 2005. The 7th International Conference on Advanced Communications Technology, 2005, S. 598603 Vol. 1. [Logan & Newman 2006] Logan, D. & Newman, D.: From IM to EIM: An Adoption Model. Gartner Research, 2006. [Lyman & Hal 2003] (Zugriff am 25th of August 2006). [Martino 1983] Martino, J. P.: Technological Forecasting for Decision Making. American Elsevier, New York, NY, 1983. [McEliece 2002] McEliece, R. J.: The Theory of Information and Coding. Cambridge University Press, Cambridge, UK, 2002. [Miller 1993] Miller, M. M.: Enhancing Regional Analysis with the Delphi Method. In: Review of Regional Studies, 2. Jg., 1993, Heft 23, S. 191-212. [Mitchell & McGoldrick 1994] Mitchell, V. M. & McGoldrick, P. J.: The Role of Geodemographics in Segmenting and Targeting Consumer Markets: A Delphi Study. In: European Journal of Marketing, Jg., 1994, Heft 28, S. 54-72. [Motwani 2001] Motwani, J.: Measuring Critical Factors of TQM. In: Measuring Business Excellence, 2. Jg., 2001, Heft 5, S. 27-30. [Paliwoda 1983] Paliwoda, S. J.: Predicting the Future using Delphi. In: Management Decision, 1. Jg., 1983, Heft 21, S. 31-38. [Parente, Anderson, Myers & O'Brin 1984] Parente, F. J., Anderson, J. K., Myers, P. & O'Brin, T.: An Examination of Factors Contributing to Delphi Accuracy. In: Journal of Forecasting, 2. Jg., 1984, Heft 3, S. 173-182. [Parke & Wormell 1956] Parke, H. W. & Wormell, D. E. W.: The Delphi Oracle. Basil Blackwell, Oxford, 1956. [Paulk, Curtis, Chrissis & Weber 1993] Paulk, M. C., Curtis, B., Chrissis, M. B. & Weber, C. V.: Capability Maturity Model for Software, Version 1.1. Software Engineering Institute/Carnegie Mellon University, 1993.
295
C Organisation [Prendergast & Marr 1994] Prendergast, G. & Marr, N.: Towards a Branchless Banking Society? In: International Journal of Retail & Distribution Management, 2. Jg., 1994, Heft 22, S. 18-26. [Radice, Harding, Munnis & Phillips 1985] Radice, R. A., Harding, J. T., Munnis, P. E. & R.W.Phillips: A Programming Process Study. In: IBM Systems Journal, 2. Jg., 1985, Heft 24, S. 297-307. [Rowe & Wright 1999] Rowe, G. & Wright, G.: The Delphi Technique as a Forecasting Tool: Issues and Analysis. In: International Journal of Forecasting, Jg., 1999, Heft 15, S. 353-375. [Rowe, Wright & Bolger 1991] Rowe, G., Wright, G. & Bolger, F.: Delphi: A Reevaluation of Research and Theory. In: Technological Forecasting and Social Change, Jg., 1991, Heft 39, S. 235-251. [Shannon, C. E. 1948] Shannon, C. E.: A Mathematical Theory of Communication. In: The Bell Systems Technical Journal, Jg., 1948, Heft 27, S. 379-423, 623-656. [Shewhart 1925] Shewhart, W. A.: The Application of Statistics as an Aid in Maintaining Quality of a Manufactured Product. In: Journal of the American Statistical Association, Jg., 1925, Heft 20, S. 546-548. [Shewhart 1931] Shewhart, W. A.: Economic Control of Quality of Manufactured Product. van Nostrand, New York, NY, 1931. [Stephenson 1985] Stephenson, B. Y.: Management by Information. In: Information Strategy: The Executive’s Journal, 4. Jg., 1985, Heft 1, S. 26-32. [Strong, Lee & Wang 1992] Strong, D. M., Lee, Y. W. & Wang, R. Y.: Decision Support for Exception Handling and Quality Control in Office Operations. In: Decision Support Systems, 3. Jg., 1992, Heft 8, S. 217-227. [Strong, Lee & Wang 1997] Strong, D. M., Lee, Y. W. & Wang, R. Y.: Data Quality In Context. In: Communications of the ACM, 5. Jg., 1997, Heft 40, S. 103-110. [Wang & Strong 1996] Wang, R. Y. & Strong, D.: Beyond Accuracy: What Data Quality Means to Data Consumers. In: Journal of Management Information Systems, 4. Jg., 1996, Heft 12, S. 5-34. [Wang 1998] Wang, R. Y. A.: A Product Perspective on Total Data Quality Management. In: Communications of the ACM, 2. Jg., 1998, Heft 41, S. 58-65. [Woundenberg 1991] Woundenberg, F.: An Evaluation of Delphi. In: Technological Forecasting and Social Change, Jg., 1991, Heft 40, S. 131-150. [Zeithaml, Parasuraman & Berry 1990] Zeithaml, V. A., Parasuraman, A. & Berry, L. L.: Delivering Quality Service: Balancing Customer Perception and Expectations. Free Press, New York, NY, 1990.
296
D Praxisbeispiele
1 Ein Entscheidungsmodell zur Weitergabe persönlicher Daten im Internet Dr. Horst Treiblmaier
1.1 Einleitung In den vergangenen zwei Jahrzehnten wandelte sich das Internet von einer Spielwiese für technikbegeisterte Computerspezialisten zu einem vielseitig einsetzbaren weltweiten Netzwerk für Privatpersonen und Unternehmen. Maßgeblichen Anteil daran besaß die rasante Entwicklung des World Wide Web (WWW), das, durch die Möglichkeit multimediale Inhalte zu vermitteln, für einen großen Teil der Bevölkerung industrialisierter Länder zu einem wesentlichen Bestandteil des täglichen Lebens wurde. Dass diese Entwicklung noch lange nicht abgeschlossen ist, zeigt die derzeitige Diskussion zum Thema Web 2.0 bzw. 3.0. Waren es in den letzten Jahren die hohen Umsatzzuwächse im E-Commerce und multimedial gestaltete Webseiten in Kombination mit aufwändigen Applikationen, die für ständig steigende Nutzerzahlen im World Wide Web sorgten, so wird dieser Innovationsschub nunmehr durch eine Vielzahl von Anwendungen fortgesetzt, die sich durch die zunehmende Vernetzung der Nutzer untereinander auszeichnen. Gemeinsam ist allen Kommunikations- und Transaktionsprozessen im Internet, dass eine Vielzahl von Daten ausgetauscht werden, beginnend mit Informationen über den sendenden Rechner (z.B. IP-Adresse, MAC-Adresse), die im HTTPProtokoll zwingend vorgesehen sind, bis hin zu persönlichen Informationen, die als Nutzlast in Datenpaketen übermittelt werden. Dieser permanente Datenaustausch im Internet stellt die notwendige Basis für alle darauf aufbauenden Anwendungen dar und rückt meist nur im Zusammenhang mit der Problematik des Datenschutzes ins Bewusstsein der Öffentlichkeit. Generell lässt sich dazu festhalten, dass die Nutzer dazu tendieren die Gesamtzahl über sie gespeicherten Datensätze drastisch zu unterschätzen [Borking 1998]. Betrachtet man den Prozess der Datensammlung und -speicherung im Internet aus Sicht der Unternehmen, so sind die Vorteile im Vergleich zur Realwelt offensichtlich: durch die einfache und kostengünstige Erhebung des Nutzungs- und Einkaufsverhaltens entfällt die Notwendigkeit zu aufwändigen Kundenbefragungen. Durch das Vorhandensein der Daten in digitaler Form kommt es zudem zu keinerlei Medienbrüchen beim Prozess der Datenspeicherung. Dennoch ist es in vielen Fällen notwendig bzw. wünschenswert darüber hinausgehende detaillierte Informationen über Nutzer bzw. Kunden einzuholen, die auf mehr oder weniger freiwilliger Angabe persönlicher Daten beruhen. Häufig findet dieser Prozess im
299
D Praxisbeispiele Rahmen einer Anmeldung (z.B. für eine Community) statt. Davon unabhängig wird das Internet aufgrund der oben beschriebenen Vorteile für eine Vielzahl von Befragungen durch Markt- und Meinungsforscher verwendet. Dieser Beitrag widmet sich nicht dem Prozess der nicht-reaktiven Datenweitergabe, d.h. jener Datensammlung, die sich weitgehend unabhängig vom Bewusstsein der Internetnutzer abspielt, sondern behandelt die Weitergabe jener persönlichen Daten, die von Unternehmen durch online-Formulare abgefragt werden. Im Gegensatz zu reinen Nutzungsdaten können Unternehmen durch direkte Befragungen ihrer Kunden auch psychografische oder soziodemografische Merkmale oder Kaufintentionen erheben. Demgegenüber steht die vergleichsweise leichte Möglichkeit auf Nutzerseite durch bewusste Falscheingaben die Qualität dieser Daten zu mindern. Welche Bedeutung korrekte demografische und sozioökonomische Daten für Unternehmen besitzen, zeigen derzeit laufende Forschungsprojekte (z.B. von Microsoft) deren Ziel es ist, aus dem Nutzungsverhalten auf persönliche Daten rückzuschließen. Die daraus entstehenden rechtlichen Probleme sind allerdings noch weitgehend ungeklärt [Marks 2007]. Zudem besitzen derartige Verfahren naturgemäß eine gewisse „Unschärfe“, da mit wahrscheinlichkeitstheoretischen Ansätzen gearbeitet wird. Aus Sicht der Unternehmen ist es demzufolge erstrebenswert, korrekte Daten zu erhalten, die von Internetnutzern freiwillig gegeben werden. In diesem Beitrag wird zunächst ein Entscheidungsmodell vorgestellt, das den Dateneingabeprozess aus Sicht der Nutzer in verschiedene Stufen gliedert. Auf jeder Stufe müssen bestimmte Kriterien erfüllt sein, um eine korrekte Angabe persönlicher Daten zu gewährleisten. Sofern vorhanden, werden die einzelnen Schritte mit empirischen Ergebnissen aus einer Internetnutzer- und einer Unternehmensbefragung unterlegt. Die Gliederung des kognitiven Gesamtprozesses der Datenweitergabe in einzelne, von einander klar trennbare Teilschritte ermöglicht Unternehmen eine kritische Evaluation ihrer derzeit stattfindenden Datenerhebung. Im Gegensatz zu zahlreichen anderen Beiträgen in diesem Buch geht es in dem folgenden Artikel somit nicht um eine ex post Bereinigung vorhandener Datensätze, sondern um eine kritische ex ante Evaluation möglicher negativer Einflussfaktoren auf die Qualität der zu erhebenden Datenbestände.
1.2 Entscheidungsmodell Eine Betrachtung der derzeit vorhandenen Literatur zum Thema der Datenweitergabe im Internet weist vor allem Bedenken der Nutzer hinsichtlich des Datenschutzes und der Datensicherheit als wesentliche Determinanten der Datenweitergabe aus. Bei näherer Betrachtung wird jedoch deutlich, dass der Entscheidungsprozess über die Weitergabe persönlicher Daten (und nur um diese geht es in diesem Beitrag) zahlreiche Stufen umfasst. Eine schematische Übersicht wird in 1 gezeigt. Als Ergebnis des Prozesses werden entweder korrekte Daten (linke Seite)
300
1 Ein Entscheidungsmodell zur Weitergabe persönlicher Daten im Internet oder inkorrekte Daten (rechte Seite) weitergegeben. Die Richtung der Pfeile deutet an, dass die Eingabe inkorrekter Daten unumkehrbar ist oder, mit anderen Worten, dass sich die Internetnutzer auf jeder Stufe erneut für eine korrekte Eingabe entscheiden müssen.
Abbildung 1: Entscheidungsmodell der online-Datenweitergabe
301
D Praxisbeispiele Die zentrale Figur in 1 ist der Nutzer, symbolisch dargestellt in der linken oberen Ecke. Alternativ ist allerdings auch denkbar, dass ein Softwareagent oder Bot (symbolisiert durch den Computer in der rechten oberen Ecke) Eingaben in onlineFormulare tätigt, die von Seiten der Unternehmen nicht von Angaben natürlicher Personen unterschieden werden können. Ein Beispiel für solch einen Softwareagenten war der mittlerweile nicht mehr aktive „Superbot.tk“, der es Internetnutzern ermöglichte frei erfundene Personenprofile anzulegen, die in Folge automatisiert in beliebige online-Formulare eingetragen wurden. Das Ziel des Projektes mit dem markanten Wahlspruch „Machines will eat itself“, war es, die gezielte Suche nach Kundendaten durch die automatisierte Generierung nutzloser Daten ad absurdum zu führen und gleichzeitig auf die Problematik der permanenten Datenerhebung aufmerksam zu machen [Alken 2003]. Vergleichbare Initiativen beschäftigen sich mit dem automatisierten Austausch von Cookies zwischen Internetnutzern (www.cookiecooker.de/), oder mit dem Erzeugen beliebiger Barcodes zum Anbringen auf Kundenkarten, um damit das eigene Einkaufsverhalten zu verschleiern [Carlson 2001]. Die automatisierte Falscheingabe wird im Laufe des Beitrags nicht weiter behandelt, d.h. die folgenden Abschnitte behandeln ausschließlich die bewussten Entscheidungen der Internetnutzer. Es soll an dieser Stelle allerdings noch darauf hingewiesen werden, dass eine derzeit gebräuchliche Technik zur Verhinderung automatisierter Eingaben darin besteht, die Angaben der (nicht registrierten) Nutzer durch die manuelle Eingabe verzerrter (d.h. nicht maschinenlesbarer) Codes verifizieren zu lassen. Bei den folgenden Überlegungen geht es zudem lediglich um persönliche Daten, deren Weitergabe nicht entscheidend für den erfolgreichen Abschluss einer Transaktion ist, wie es etwa bei der Zustelladresse für einen Internetkauf der Fall ist. Die einzelnen Entscheidungsschritte individueller Nutzer (Intention, Nutzen, Vertrauen, Datenart, Eingabefehler) werden auf den folgenden Seiten im Detail behandelt.
1.2.1 Intention In einem ersten Schritt gilt es abzuklären, ob Internetnutzer überhaupt eine grundsätzliche Intention besitzen, korrekte Daten einzugeben. Auf zahlreichen Sites im Internet wird die Nutzung eines Dienstes oder die Teilnahme an einer virtuellen Gemeinschaft von einer vorhergehenden Registrierung abhängig gemacht. Dabei werden meist auch persönliche Daten abgefragt. In vielen Fällen sind die Nutzer solcher Dienste oder Gemeinschaften allerdings gar nicht gewillt ihre persönlichen Daten preiszugeben. Ein gängiges Beispiel dafür ist das Anlegen einer zusätzlichen E-Mail-Adresse, die vorrangig dann weitergegeben wird, wenn die Gefahr einer unautorisierten Weitergabe durch den Empfänger einer Nachricht besteht. Eine alternative Möglichkeit besteht mittlerweile in dem Anlegen einer E-Mail-Adresse, die nur für kurze Zeit gültig ist und zum Registrieren auf wenig vertrauenswürdigen Websites genutzt werden kann [10 Minute Mail 2007].
302
1 Ein Entscheidungsmodell zur Weitergabe persönlicher Daten im Internet Auch bei virtuellen Communities, in denen die Teilnehmer häufig eine andere Identität annehmen, stellt sich die Frage, ob überhaupt eine Intention der Nutzer zur Weitergabe ihrer Daten besteht und welche Kontroll- bzw. Anreizmechanismen existieren, um eine bewusste Falscheingabe persönlicher Daten zu verhindern. Bestehende Strategien von Unternehmen inkludieren beispielsweise die Verweigerung der Eingabe der E-Mail-Adresse eines Gratismail-Services bei der Anmeldung zu einer Community (z.B. www.orf.at), oder die Überprüfung von Adressdaten anhand eines Referenzdatenbestandes unmittelbar nach der Eingabe.
1.2.2 Nutzen Besitzen Internetnutzer die Intention zur Weitergabe korrekter Daten, so stellt sich in einem nächsten Schritt die Frage, welchen konkreten Nutzen sie aus der Weitergabe ziehen, d.h. welchen Gegenwert sie für ihre persönlichen Daten erhalten. Abbildung 2 zeigt in Säulendiagrammen die Wahrnehmung einiger möglicher Vorteile von Individualisierungsmaßnahmen aus Kundensicht, wobei die Bandbreite der Zustimmung zu den jeweiligen Aussagen von 0 (Trifft nicht zu) bis 100 (Trifft zu) reicht. Die Daten stammen dabei aus einer online-Kundenbefragung, die im Jahr 2004 in Kooperation mit AON Österreich durchgeführt wurde. Insgesamt 405 Personen beteiligten sich an dieser Befragung, wobei es keinen Anreiz für die Teilnahme gab. Es sei an dieser Stelle festgehalten, dass die Befragung anonym durchgeführt wurde und nur einige wenige demografische Daten auf freiwilliger Basis erhoben wurden. Es stand den Befragten frei, die Antwort zu verweigern. Dennoch muss ein Bias aufgrund der Selbstselektion der Befragungsteilnehmer in Betracht gezogen werden. Die Visualisierung der Antworten zeigt deutlich das breite Spektrum an Kundeneinstellungen gegenüber unterschiedlichen Vorteilen auf, die eine Weitergabe persönlicher Daten mit sich bringt. Allen Optionen ist gemeinsam, dass das Antwortspektrum den gesamten zur Verfügung stehenden Bereich abdeckt, d.h. dass zu jeder Option Nutzer existieren, welche diese gänzlich ablehnen bzw. völlig zustimmen. In keinem der Fälle sind die Antworten normalverteilt (KolmogorovSmirnov-Test: p < 0,05). Zunächst einmal ist der Zugriff auf interessante Inhalte aller Art, der in vielen Fällen eine Registrierung bei einer Site zwingend voraussetzt, ein potenzieller Anreiz zur korrekten Datenweitergabe (Mittelwert: 65,09; Standardabweichung: 32,12). Auch die Möglichkeiten Preise zu gewinnen (MW: 60,10; SA: 35,99) oder Zeit zu sparen (MW: 69,61; SA: 33,14) werden als interessante Gegenleistungen für die eigenen Daten wahrgenommen. Interessanterweise erhielt der letztgenannte Anreiz die höchste Zustimmungsrate aller möglichen Optionen, wodurch sich zeigt, dass die Höhe der zu erwartenden Gegenleistung nicht allein die Einstellung der Nutzer bestimmt.
303
D Praxisbeispiele
Abbildung 2: Vorteile von Individualisierungsmaßnahmen aus Kundensicht (n = 405) [Treiblmaier 2006]
304
1 Ein Entscheidungsmodell zur Weitergabe persönlicher Daten im Internet Etwas geringer ist die Zustimmung der Konsumenten, wenn es darum geht, die Vorteile individualisierter Kommunikation zu beurteilen. So ist es beispielsweise denkbar, dass durch Weitergabe persönlicher Daten unerwünschte kommunikative Maßnahmen reduziert werden, da die Unternehmen besser über die Wünsche ihrer Kunden Bescheid wissen. Dies wird jedoch von den Konsumenten uneinheitlich gesehen (MW: 55,45; SA: 31,81). Ebenso divergent sind die Meinungen, wenn es darum geht, die Unterstützung individualisierter Kommunikation bei Kaufentscheidungen (MW: 46, 51; SA: 34,02) oder die Erhöhung der generellen Zufriedenheit mit dem Unternehmen durch Individualisierungsmaßnahmen (MW: 54, 65; SA: 32,15) zu beurteilen. Aus Sicht der Unternehmen ist es daher notwendig, kritisch zu hinterfragen, welcher Gegenwert den Kunden für die von Ihnen gegebenen Daten geboten wird. Es zeigt sich, dass konkrete Vorteile, wie etwa der Zugriff auf interessante Inhalte, die Möglichkeit Preise zu gewinnen oder die Zeitersparnis durch das Wegfallen wiederholter Dateneingabe als wichtiger eingeschätzt werden als der vergleichsweise abstrakte Nutzen, der sich aus individualisierter Kommunikation ergibt.
1.2.3 Vertrauen Die große Bedeutung des Vertrauens für Transaktionsprozesse im Internet spiegelt sich in einer Vielzahl von praxisrelevanten und wissenschaftlichen Publikationen wider, die in den vergangenen Jahren erschienen sind. Eine gleichzeitige Suche nach den beiden Begriffen „Trust“ und „Internet“ in der weitverbreiteten Datenbank ABI/Inform bringt nicht weniger als 2487 Suchtreffer hervor (Suchkriterium: „Citation and Abstract“). Dies ist nicht verwunderlich, wenn man sich vor Augen hält, wie häufig Transaktionen im Internet ohne persönlichen Kontakt der daran beteiligten Personen stattfinden. Das wesentliche Kriterium des Vertrauens verlagert sich weg von einer physischen Person hin zu vergleichsweise abstrakten Merkmalen wie etwa der Marke, Gütesiegeln, Berichten unabhängiger Dritter oder (Sicherheits-)Standards. Zusätzlich spielen die Menge der vorhandenen Information über die eigenen Produkte und Dienstleistungen und die Notwendigkeit der ordentlichen Vertragserfüllung eine große Rolle [Urban et al. 2000]. Betrachtet man die Rolle des Vertrauens etwas differenzierter, so zeigt sich, dass sowohl das Internet als auch die datenempfangende Organisation zwei wesentliche Determinanten der Datenweitergabe darstellen. Die Möglichkeit, dass die Daten beim Transfer durch unbefugte Personen abgefangen und missbräuchlich verwendet werden, ist beim elektronischen Datenverkehr naturgemäß ungleich größer als bei anderen Kommunikationsformen. Dazu kommt, dass zahlreiche Internetnutzer über potenzielle Schutzmaßnahmen (z.B. verschlüsselte Datenübertragung) nur unzureichend informiert sind. Doch selbst wenn die Übertragung sicher durchgeführt werden kann, stellt sich für viele Nutzer die Frage nach der ordnungsgemäßen Verwendung der persönlichen Daten durch die Unternehmen. Missbräuchliche Datenverwendung beinhaltet sowohl die Weitergabe an Dritte als
305
D Praxisbeispiele auch die Nutzung der Daten für Zwecke, die nicht den Bestimmungen der Allgemeinen Geschäftsbedingungen des Unternehmens entsprechen.
Abbildung 3: Einfluss des Vertrauens in das Unternehmen und die technische Verbindung auf die Bereitschaft zur Datenweitergabe (n = 405) [Treiblmaier 2006]
In Abbildung 3 wird gezeigt, welchen Einfluss das Vertrauen in das Unternehmen und das Internet für die Weitergabe verschiedener Datenarten besitzt. Beispielhaft wurde nach dem Namen (N), der Wohnadresse (W), den Hobbies (H) und der Kreditkartennummer (K) gefragt. Die Zustimmung wurde mit einer Skala von 1 (unwahrscheinliche Datenweitergabe) bis 100 (sehr wahrscheinliche Datenweitergabe) gemessen. Die in der Abbildung gezeigten Werte zeigen die Mediane der Befragung. Gibt es bereits gute persönliche Erfahrungen mit dem Unternehmen und liegt eine technisch sichere Verbindung vor (V01), so ist die Bereitschaft zur Weitergabe des Namens (Median: 88) und der Wohnadresse (81) vergleichsweise hoch. Demgegenüber ist die Skepsis bei den Hobbies beträchtlich höher (54) und die Weitergabe der Kreditkartennummer (19) wird sogar in diesem Szenario von einem überwiegenden Teil der Befragten als unwahrscheinlich eingestuft. Die Än-
306
1 Ein Entscheidungsmodell zur Weitergabe persönlicher Daten im Internet derungen der Medianwerte in den übrigen Szenarien (V02: gute persönliche Erfahrungen mit dem Unternehmen, keine technisch sichere Verbindung; V03: unbekanntes Unternehmen, technisch sichere Verbindung; V04: unbekanntes Unternehmen, keine technisch sichere Verbindung) sind ebenfalls in Abbildung 3 dargestellt. Dabei fällt auf, dass die Änderungen dieser Werte beim Schritt hin zu einem unbekannten Unternehmen (V01->V03) stärker ausfallen als beim Wegfall einer technisch sicheren Verbindung (V01->V02). Eine Ausnahme bildet hierbei die Kreditkartennummer, die in beiden Fällen den tiefstmöglichen Median von 1 erreicht. Im Fall eines unbekannten Unternehmens und einer unsicheren Verbindung (V04) ist nur mehr ein kleiner Anteil der Befragungsteilnehmer bereit überhaupt Daten zu übermitteln. Allerdings soll an dieser Stelle darauf hingewiesen werden, dass das tatsächliche Verhalten von Internetnutzern in vielen Fällen von ihren Einstellungen zur eigenen Privatsphäre abweicht [Berendt et al. 2005]. Um das Vertrauen der Internetnutzer zu gewinnen beziehungsweise zu halten, ist es notwendig, dass Unternehmen ihre Datenschutzbestimmungen und die von ihnen vorgenommene Datenverwendung klar kommunizieren. Die derzeit auf vielen Websites vorkommenden „Privacy Disclaimer“ sind meist sehr umfangreich und schwer verständlich und werden daher von Nutzern nur selten verwendet. Pollach [2006] zeigt anhand einer umfassendennhaltsanalyse von 50 Websites aus den Bereichen Einzelhandel, Reisen, Nachrichten und Internet (z.B. Suchmaschinen) auf, welche Informationen in solchen Datenschutzerklärungen üblicherweise zu finden sind. Bei einer durchschnittlichen Länge von 2.157 Wörtern gaben nahezu alle Unternehmen (96%) eine Kontaktmöglichkeit an (E-Mail-Adresse: 62%, Postadresse: 56%, E-Mail-Formular: 36%, Telefonnummer: 34%). 90% der Erklärungen sind durch einen Klick auf einen Link auf der Startseite zu erreichen. Allerdings geben 44% der Unternehmen keine Auskunft, wann die Datenschutzerklärung zum letzten Mal aktualisiert wurde. Demgegenüber stehen 86% der Unternehmen, die erklären, dass ihre Bestimmungen Änderungen unterliegen und nur 20% geben an, diese Änderungen im Vorhinein auf der Website bekannt zu geben. Lediglich 68% der untersuchten Unternehmen geben Auskunft darüber, welche Kontrollmöglichkeiten Kunden über ihre eigenen Daten besitzen (z.B. Aktualisierung oder Löschen). Nahezu alle Unternehmen (49) behandeln Cookies in ihren Datenschutzerklärungen, aber nur 35 davon führen die Möglichkeit an Cookies zu deaktivieren oder zeigen die Konsequenzen einer solchen Maßnahme auf. Ein großes Informationsdefizit besteht bei Angaben zur Datenweitergabe an Dritte und „Partner“ (meist als „affiliates“ bezeichnet, wobei dieser Begriff in der Regel nur unzureichend definiert ist). Kein Hinweis zur Weitergabe aggregierter Daten an Dritte findet sich auf 38% der Websites (bzw. auf 12% der Sites für persönliche Daten). Noch weniger transparent ist die Datenübermittlung an Partner. Hier fehlt diese Information auf 66% (aggregierte Information) bzw. 48% (persönliche Information) der Sites.
307
D Praxisbeispiele Das Platform for Privacy Preferences Project (P3P) des World Wide Web Konsortium (W3C) erlaubt es Unternehmen, die Art und Weise in der sie personenbezogene Daten nutzen, auf ihrer Website anzugeben. Bei Anwendung eines entsprechenden P3P-Agenten besteht für Internetnutzer die Möglichkeit, diese Angaben automatisiert mit ihren eigenen Präferenzen zu vergleichen. Allerdings bietet P3P für die Nutzer keinen zuverlässigen Schutz, da es lediglich auf Angaben des Unternehmens basiert [Delaney et al. 2003]. Beispiele für andere Initiativen, die sich mit dem Identitätsmanagement im Internet beschäftigen, sind CardSpace (früher: InfoCard) von Microsoft und das Higgins Project, das am Berkman Center for Internet and Society (Harvard Law School) entwickelt wurde. Das Vertrauen in das Internet ist aus Sicht der Unternehmen noch schwieriger sicherzustellen, da es sich großteils der direkten Einflusssphäre entzieht und zudem viele Internetnutzer über unzureichendes technisches Wissen verfügen. Vor allem bei der Übertragung sensibler Daten ist es daher notwendig, auf das Vorhandensein einer gesicherten Verbindung während des Datentransfers explizit hinzuweisen.
1.2.4 Datenarten In einem nächsten Schritt stellt sich die Frage, inwieweit sich die Internetnutzer des Wertes und des Risikopotenzials ihrer Daten bewusst sind. Die Idee, persönliche Daten gezielt zu verkaufen, ist dabei keineswegs neu [Scheeres 2001]. Umgekehrt sammeln Adresshändler in der Realwelt bereits seit vielen Jahren detaillierte Kundenprofile, um Unternehmen eine zielgruppenspezifische Ansprache zu ermöglichen. Besonderes Augenmerk wird hierbei auf potenzielle Kaufinteressen gelegt, die weit über grundlegende demografische Daten hinausgehen. So finden sich beispielsweise in einem Fragebogen der Lifestyle GmbH, einem Unternehmen der Schober Information Group (www.schober.com), unter anderem Fragen zu Hobbies, Sport, Freizeit, Urlaub, Auto, persönlicher Gesundheitsfürsorge, privaten Finanzen, Einkaufen und Wohnen [Lifestyle GmbH 2006]. Aus Sicht der Kunden hat bereits Abbildung 3 gezeigt, dass sehr wohl zwischen verschiedenen Datenarten (z.B. Name vs. Kreditkartennummer) hinsichtlich ihres „Risikopotenzials“ differenziert wird.
308
1 Ein Entscheidungsmodell zur Weitergabe persönlicher Daten im Internet
100% 90% 80% 70% 60% 50% 40% 30% 20% 10%
Tatsächliche Datenerhebung
Geschlecht
Alter
Beruf
Familienstand
Ausbildung
Politische Einstellung
Einkaufsverhalten
Name
E-Mail-Adresse
Wohnadresse
Telefonnummer
Einkommen/Gehalt
Kreditkartennummer
0%
Subjektives Risikopotenzial
Abbildung 4: Wahrgenommenes Risikopotenzial und Erhebungshäufigkeit verschiedener Datenarten (n1 = 405, Kundenbefragung, Liniendiagramm; n2 = 39, Unternehmensbefragung, Säulendiagramm)
In Abbildung 4 werden einander das subjektiv empfundene Risikopotenzial (von 0% „risikolos“ bis 100% „sehr riskant“) und der Anteil jener Unternehmen, welche diese Datenarten tatsächlich erheben, gegenübergestellt. Die Kundendaten stammen dabei aus der oben bereits erwähnten Kundenbefragung, jene der Unternehmen aus einer ebenfalls im Jahr 2004 durchgeführten Befragung unter österreichischen Unternehmen mit Webpräsenz. Insgesamt wurden 924 Unternehmen kontaktiert, von denen 111 die Bögen retournierten (Rücklaufquote: 12,01%). Von diesen gaben insgesamt 39 Unternehmen an, Kundendaten über das Internet zu erheben. Deutlich zeigt sich, dass die am häufigsten erhobenen Daten (Name, Telefonnummer, Wohnadresse und E-Mail-Adresse) von den Internetnutzern als vergleichsweise riskant angesehen werden. Die beiden „riskantesten“ Datenarten (Kreditkartennummer und Einkommen/Gehalt) werden nur von wenigen der befragten Unternehmen tatsächlich erhoben. Es soll hier allerdings explizit auf die
309
D Praxisbeispiele Zusammensetzung der Stichprobe mit vielen Klein- und Mittelbetrieben verwiesen werden, die das Internet eher als Kommunikations- denn als Transaktionskanal nutzen. Interessant ist auch, dass aus der unbefugten Weitergabe der Kreditkartennummer ein tatsächlicher finanzieller Schaden erwachsen kann, wohingegen sich die kritische Einschätzung der Datenart „Einkommen/Gehalt“ eher mit dem Schutz der Privatsphäre erklären lässt. Das für Unternehmen interessante Einkaufsverhalten der Nutzer findet sich im mittleren Bereich und wurde von den befragten Unternehmen zum Zeitpunkt der Befragung kaum erhoben. Als vergleichsweise wenig riskante Daten wurden all jene Merkmale empfunden, die man vergleichsweise leicht über eine Person in Erfahrung bringen kann, wie beispielsweise der Beruf, das Alter und das Geschlecht. Das Wissen um die Wahrnehmung persönlicher Daten und die dahinter stehenden Gründe kann Unternehmen helfen, gezielt Daten zu erheben und mögliche Befürchtungen der Internetnutzer durch gezielte Informationspolitik abzuschwächen. Neben einer grundsätzlichen Sparsamkeit in der Erhebung der Daten empfiehlt es sich für Unternehmen auf die von ihnen beabsichtigte Datenverwendung hinzuweisen. Interessant sind in diesem Zusammenhang die als vergleichsweise riskant eingestuften Kontaktdaten wie etwa die Telefonnummer, die leicht in öffentlichen Verzeichnissen einsehbar sind (Geheimnummern ausgenommen). Die Ergebnisse legen den Schluss nahe, dass Internetnutzer bei Datenerhebungen auch von einer späteren Verwendung dieser Daten ausgehen und einen möglichen Eingriff in die eigene Privatsphäre fürchten.
1.2.5 Eingabefehler Als letzte Stufe im Entscheidungsprozess der Eingabe soll die Möglichkeit einer unabsichtlichen Falscheingabe nicht unerwähnt bleiben. Selbst wenn all jene oben diskutierten Faktoren (Intention, Nutzen, Vertrauen, Datenart) vorhanden sind, beziehungsweise positiv beurteilt werden, so besteht doch die Möglichkeit, dass aufgrund von Tippfehlern oder der Auswahl falscher Elemente (etwa bei Dropdown-Listen) inkorrekte Daten eingegeben werden. Erschwerend kommt bei online-Formularen dazu, dass der Eingabeprozess in der Regel ohne zusätzliche Unterstützung (z.B. für Rückfragen) stattfindet. Wie oben bereits erwähnt, besteht für Unternehmen die Möglichkeit, durch vorgegebene Optionen und Kontrollmaßnahmen im Browser (Client) beziehungsweise nach Abschicken der Daten durch Abgleich mit existierenden Datenbanken, Falscheingaben zu verhindern.
1.3 Ausblick Der in diesem Beitrag skizzierte mehrstufige Entscheidungsprozess der Weitergabe persönlicher Daten zeigt, dass es verschiedene Einflussfaktoren gibt, die sich unmittelbar auf die Qualität der Daten auswirken. Ebenso werden die Möglichkei-
310
1 Ein Entscheidungsmodell zur Weitergabe persönlicher Daten im Internet ten deutlich, die ein Unternehmen besitzt, um eine hohe Datenqualität bestmöglich sicherzustellen. Technische Lösungen, wie etwa die Eingabe eines nicht maschinenlesbaren Codes, erlauben es, automatisierte Falscheingaben zu verhindern. Ist erst gewährleistet, dass die Eingabe tatsächlich von einer natürlichen Person erfolgt, so muss sichergestellt werden, dass die Kunden wirklich die Intention besitzen korrekte Daten einzugeben. Dies hängt stark mit dem dadurch erzielbaren Nutzen für die Konsumenten zusammen. Daher empfiehlt es sich für Unternehmen kritisch zu hinterfragen, welche Gegenleistung den Kunden für ihre Daten geboten werden. Selbst wenn all diese Kriterien gegeben sind, stellen das Vertrauen in das Unternehmen (d.h. in die zweckgemäße Verwendung der erhobenen Daten) und das Internet (d.h. die sichere Übermittlung der Daten) wesentliche Kriterien dar. In dieser Stufe ist es für die Unternehmen notwendig, ihren Kunden klar zu kommunizieren, welche Richtlinien hinsichtlich der Speicherung und Verwendung der Daten existieren (Privacy Policies). Zusätzlich besteht bei besonders sensiblen Daten (z.B. Kreditkartennummer) die Möglichkeit, die Kunden auf das Vorhandensein sicherer Verbindungen gesondert hinzuweisen. In allen Fällen sollte an deutlich sichtbarer Stelle der Website ein entsprechender Hinweis (Disclaimer) auffindbar sein, um das Vertrauen der Konsumenten zu stärken. Die Ergebnisse der vorliegenden Studien haben zudem gezeigt, dass die Konsumenten zwischen dem Risikopotenzial verschiedener Datenarten unterscheiden. So werden etwa Daten, welche die Möglichkeit zu einem finanziellen Schaden inkludieren (Kreditkartennummer), Daten die generell als privat angesehen werden (Einkommen) und Daten, die eine direkte Kontaktaufnahme erlauben (Telefonnummer, Wohnadresse, E-Mail-Adresse, Name) als wesentlich riskanter eingestuft als beispielsweise Familienstand, Beruf, Alter oder Geschlecht. Auch hier empfiehlt es sich für Unternehmen klar zu differenzieren und vor allem bei den als sensibel wahrgenommenen Datenarten deutlich die Gegenleistung und den Schutz der betreffenden Daten zu kommunizieren. Selbst wenn die Voraussetzungen aller oben angeführten Prozessschritte erfüllt sind und die Kunden korrekte Daten eingeben wollen, besteht die Möglichkeit ungewollter Falscheingaben. Hier bietet sich für Unternehmen die Möglichkeit, clientseitig eine Vorkontrolle zu übernehmen (z.B. Erkennen einer korrekten E-Mail-Adresse durch Überprüfung, ob das „@“Zeichen vorhanden ist) beziehungsweise nach Übermittlung der Daten eine vergleichende Prüfung mit vorhandenen Datenbeständen durchzuführen (z.B. bei Adressdaten). Die in diesem Beitrag angestellten konzeptionellen Überlegungen zeigen in Kombination mit den empirischen Befragungsergebnissen, dass es notwendig ist, bereits bei der Datenerhebung Qualitätskriterien zu berücksichtigen und dass eine ex post Qualitätskontrolle vorhandener Datenbestände nicht ausreichend ist. Neben der grundsätzlichen Frage nach der Notwendigkeit der Erhebung einzelner Daten, ist es notwendig die Wünsche der Kunden ernst zu nehmen und vor der Erhebung
311
D Praxisbeispiele persönlicher Daten ein Vertrauensverhältnis durch eine existierende Kundenbindung aufzubauen.
Literaturverzeichnis [10 Minute Mail 2007] 10 Minute Mail: This E-Mail Address Will Self-Destruct in 10 Minutes. 2007. http://www.10minutemail.com/10MinuteMail/index.html (Zugriff am 10.05.2007) [Alken 2003] Alken, F.: Machines Will Eat Itself. Netzspannung.org, 2003. [Berendt et al. 2005] Berendt, B., Günther, O., und Spiekermann, S.: Privacy in ECommerce: Stated Preferences Vs. Actual Behavior. In: Communications of the ACM, 48. J., 2005, Heft 4, S. 101-106. [Borking 1998] Borking, J.: 2008 - Ende Der Privatheit?. In: Der Neue Datenschutz. Datenschutz in der Informationsgesellschaft von morgen. H. Bäumler (Ed.), Hermann Luchterhand Verlag GmbH, Neuwied, 1998, S. 283-293. [Carlson 2001] Carlson, R.: Rob's Giant Bonuscard http://epistolary.org/ rob/bonuscard/ (Zugriff am 2 Mai 2007)
Swap
Meet.
[Delaney et al. 2003] Delaney, E.M., Goldstein, C.E., Gutterman, J., und Wagner, S.N.: Automated Computer Privacy Preferences Slowly Gain Popularity. In: Intellectual Property & Technology Law Journal, 15. Jg., 2003, Heft 8, S. 17. [Lifestyle GmbH 2006] Lifestyle GmbH. Marktanalyse und Konsumentenbefragungen (Fragebogen). Lifestyle Institut für Marktanalyse und Konsumentenbefragungen GmbH, 2006. [Marks 2007] Marks, P.: New Software Can Identify You from Your Online Habits. In: New Scientist, 2007, http://www.newscientisttech.com (Zugriff am 24 Mai 2007) [Pollach 2006] Pollach, I.: Privacy Policies as a Means of Uncertainty Reduction in WWW Interactions. In: Journal of Organizational and End User Computing, 18. Jg., 2006, Heft 1, S. 23-49. [Scheeres 2001] Scheeres, J.: My Shoe Size? It'll Cost You. http://www.wired.com, 2001 (Zugriff am 17 Juli 2007) [Treiblmaier 2006] Treiblmaier, H.: Datenqualität und individualisierte Kommunikation. Gabler, Wiesbaden, 2006. [Urban et al. 2000] Urban, G.L., Sultan, F., und Qualls, W.J.: Placing Trust at the Center of Your Internet Strategy. In: MIT Sloan Management Review, 42 Jg., 2000, Heft 1, S. 39-48.
312
2 Einführung eines proaktiven DQ-Managements Volker Landt In diesem Kapitel wird die Einführung eines proaktiven Datenqualitätsmanagements in der Bremer Landesbank beschrieben. Nach einer kurzen Erläuterung der Rahmenbedingungen wird auf den Aufbau der Datenqualitätsorganisation eingegangen, die verschiedenen Typen an proaktiven Datenqualitätsmaßnahmen beschrieben, die bankintern definiert wurden und abschließend liegt der Schwerpunkt auf den Bereich Datenqualitätsmessungen .
2.1 Die Bremer Landesbank Zunächst erfolgt eine kurze Vorstellung der Bank, um einen Einblick in das Umfeld zu bekommen. Die Bremer Landesbank ist eine mittelständisch geprägte Bank mit ca. 950 Mitarbeitern und einem Geschäftsvolumen von ca. 40 Milliarden Euro (2006). Sie ist die größte Regionalbank im Nordwesten Deutschlands zwischen Ems und Elbe. Gegründet wurde die Bank in ihrer heutigen Form durch einen Staatsvertrag zwischen der Freien Hansestadt Bremen und dem Land Niedersachsen als Anstalt öffentlichen Rechts. Eigentümer sind die Norddeutsche Landesbank (92,5%) und das Land Bremen (7,5%). Die Bremer Landesbank versteht sich als Universalbank mit den Geschäftsfeldern Privat- und Firmenkunden, Vermögensmanagement, Spezialfinanzierungen und Financial Markets. Den Kunden wird die gesamte Breite des Bankgeschäfts vom Sparbuch, über Girokonten und dem Private Banking bis hin zum qualifizierten Finanzierungs-, Wertpapier- und Wechselgeschäft geboten. Strategisch versteht die Bank sich als regionale Geschäftsbank mit überregionalem Spezialgeschäft z.B. in Schiffsfinanzierungen oder der Finanzierung erneuerbarer Energien. Sie nimmt gleichzeitig die Aufgaben einer Landesbank, einer Sparkassenzentralbank und einer Geschäftsbank wahr.
2.1.1 Der Auftrag Vor Einführung eines kontinuierlichen, proaktiven Datenqualitätsmanagements hat die Bank, wie die meisten Unternehmen, Datenqualitätsfragestellungen anlassbezogen mit Ad-hoc-Maßnahmen bewältigt. Aufgrund der immensen Zunahme an Datenvolumina, diversen aufsichtsrechtlichen Vorgaben, die sich z.B. aus der Abgabenordnung (AO), dem Geldwäschegesetz und Complianceanforderungen ableiten, den immer komplexeren Datenstrukturen und Datenbewegungen im Firmennetz sowie den Anforderungen des Managements der Bank an die Datenqualität bezüglich Eindeutigkeit, Verlässlichkeit, Korrektheit und Aktualität der Daten,
313
D Praxisbeispiele wurde in der Bank frühzeitig die Notwendigkeit zum Aufbau eines proaktiven Datenqualitätsmanagements erkannt. Entscheidend hierbei ist, dass die Unterstützung bis in die höchsten Hierarchiestufen des Unternehmens gewährleistet ist. Konkret wurde der Bereich Organisation/Informatik durch Vorstandsauftrag mit dem Aufbau eines proaktiven Datenqualitätsmanagements beauftragt, die Projektergebnisse sind berichtet worden und ein kontinuierliches Berichtwesen wird aufgebaut.
2.2 Proaktives Datenqualitätsmanagement Unter proaktivem Datenqualitätsmanagement verstehen wir im Datenqualitätsmanagement der Bank alle Maßnahmen, die zur Vermeidung von Datenqualitätsproblemen führen oder die Datenqualität verbessern, ohne dass akuter Handlungsbedarf besteht, um einen reibungslosen Ablauf des Geschäftsbetriebs zu gewährleisten – also alle vorbeugend wirksamen Maßnahmen. Es zeigt sich, dass fast alle Datenqualitätsfragestellungen irgendeinem Mitarbeiter der Bank bekannt – wenn auch nicht immer als solche bewusst sind. So sind gezielte Interviews ein probates Mittel, um DQ-Probleme oder Fragestellungen aufzuwerfen. Zum anderen zeigt sich das große Spektrum der fachlichen Einflüsse, die auf die Datenqualität einwirken. Ein Kollege hat mal im Scherz gesagt: “Ihr könnt ja die ganze Bank über Datenqualität steuern”. Und im Grunde hat er nicht ganz Unrecht. Zur Bearbeitung von Datenqualitätsfragestellungen greift man ein in Bereiche wie Personalwesen im Sinne von Mitarbeiterweiterbildung, der Informatik mit Schnittstellen und Datenhaushaltsfragestellungen aber auch jeder bankfachliche Prozess kann zur Verbesserung der Datenqualität angepasst werden (vgl. Abb. 1).
Abbildung 1: Aufgaben im Datenqualitätsumfeld
314
2 Einführung eines proaktiven DQ-Managements Zu den proaktiven Maßnahmen, die in unserem Haus definiert sind, gehören: – Erstellung von Arbeitsanweisungen, die definierte Datenqualitätsanforderungen enthalten und die Arbeit bei der Dateneingabe möglichst genau und verständlich beschreiben. – Festlegung von Schulungsbedarf bei der Einführung neuer Software. Zur Zeit sind noch keine Angebote von direkten Datenqualitätsschulungen angedacht, obwohl dies für einige Mitarbeiterkreise sicher hilfreich wäre. – Institutionalisierte Kommunikation von Datenqualitätsfragestellungen, dies verringert die Wahrscheinlichkeit, dass dieselben oder vergleichbare Probleme zeitlich verschoben in anderen Organisationseinheiten wieder auftauchen. – Festlegung von Datenqualitätszielen als Zielvereinbarung für Mitarbeiter. Dieses ist bisher nur vereinzelt auf Mitarbeiterebene umgesetzt, wünschenswert wäre ein Top-Down Vorgehen, das heißt Definition von Datenqualitätszielen auf Bereichsebene, die dann über die Abteilungen und Gruppen bis zum einzelnen Mitarbeiter heruntergebrochen werden können. – Berücksichtigung von Datenqualitätsfragestellungen bei Prozessoptimierungen. – Festlegung bestandsführender Systeme, d.h. die Datenwahrheit eines Datums wird durch das bestandsführende System festgelegt. – Angedacht ist die Benennung von Datenfachbeauftragten, die auf Datenkategorieebene den gesamten Lebenszyklus der Daten kennen, Datenqualitätsanforderungen auch unterschiedlicher Nutzer konsolidieren und damit eine Gesamtdatenqualität an die Daten einer Kategorie definieren und die Kontrolle der Datenqualität verantworten. – Schaffung neuer Schnittstellen zwischen Anwendungen zur Minimierung von Eingabefehlern. Nach Möglichkeit soll ein Datum nur im führenden System erfasst und von dort an alle Anwendungen verteilt werden. – Regelmäßige Messung von Datenqualitätsregeln an definierten Datenqualitätsmesspunkten. Gerade der letzte Punkt war im Jahre 2005 absolutes Neuland in der Bremer Landesbank. Im Kapitel D2.5 gehen wir ausführlicher darauf ein. Aus der Breite der fachlichen Anforderungen folgert, dass dieses nur durch ein zentral gesteuertes Management, unterstützt durch breites fachliches Know How, bewältigt werden kann.
2.3 Datenqualitätsorganisation Es wurde entschieden, einen bestehenden Datenqualitätsarbeitskreis zu einem Datenqualitätsmanagement (vgl. Abb. 2) auszubauen. Der Arbeitskreis hatte sich im Jahr 2002 gebildet, um akute Datenqualitätsprobleme zu bearbeiten. Die interne Bezeichnung läuft unter dem Namen “AK–DQM”. Jeder Bereich und jedes Ge-
315
D Praxisbeispiele schäftsfeld der Bank ist mit mindestens einem Mitarbeiter im AK-DQM vertreten. Hiermit ist gewährleistet, dass jede Fachlichkeit und jeder bankfachliche Prozess im Zugriff des Datenqualitätsmanagements liegen. Die Mitarbeiter aus den Fachbereichen nehmen die Funktion der dezentralen Datenqualitätsmanager wahr und bilden die Schnittstelle zwischen zentraler Steuerung durch den zentralen Datenqualitätsmanager und den Fachbereichen. Sie haben die Möglichkeit, Unterstützung bei der Bearbeitung von Datenqualitätsfragestellungen vom zentralen Datenqualitätsmanagement zu erhalten. Der AK-DQM ist die zentrale Instanz, die in der Lage ist, die Schwere und das Ausmaß von Datenqualitätsfragestellungen zu beurteilen und ist somit die wichtigste Kommunikationsmöglichkeit in diesem Zusammenhang. Damit diese funktioniert, berichten die dezentralen Datenqualitätsmanager alle auftretenden Datenqualitätsaktivitäten oder Datenqualitätsprobleme aus den Fachbereichen an das zentrale Datenqualitätsmanagement. Im Regelfall erfolgt dies formlos im Rahmen der regelmäßigen Sitzungen des AK-DQM. Datenqualitätsfragestellungen können intern (durch Mitarbeiter oder Führungskräfte) oder extern (Kunden oder gesetzliche Anforderungen) aufgeworfen werden.
Abbildung 2: Der generelle Datenqualitätsprozess in der Bremer Landesbank
Die Fragestellungen gelangen über die dezentralen Datenqualitätsmanager oder über das zentrale Datenqualitätsmanagement in den AK-DQM. Durch den AKDQM wird festgelegt, welches Geschäftsfeld federführend bei der Behebung von Datenqualitätsproblemen tätig wird oder ob die Bereinigung im Sinne einer Datenqualitätsfabrik zentral gesteuert wird. Diese Entscheidung hängt im großen Maß von der zu bereinigenden Datenmenge und der benötigten Fachlichkeit ab, die zur Bearbeitung des Problems notwendig ist.
316
2 Einführung eines proaktiven DQ-Managements
2.4 Eskalationsinstanz Datenverarbeitung und Dateneingabe ist ressourcenintensiv. Sind nun Datenqualitätsthemen identifiziert worden, muss bewertet werden, ob die Aufwände, die für die Bereinigung der Daten notwendig sind, in einem angemessenen Verhältnis zum Nutzen stehen. Kann hierüber im AK-DQM keine Einigkeit erzielt werden, wird das Thema über den Bereichsleiter Organisation/Informatik an die Beteiligten Bereichsleiter der Markt-, Marktfolge- und Unterstützungsbereiche eskaliert. Wird auch auf dieser Ebene keine Einigkeit erzielt, ist eine Vorstandsentscheidung vorgesehen. Die Definition dieser Eskalationsinstanzen wird in der Bank für notwendig erachtet, da sehr häufig eine verbesserte Datenqualität nicht ohne weiteres in Euro ausgedrückt werden kann (Wie teuer ist eine falsche Strategieentscheidung aufgrund schlechter Datenqualität? Wie groß ist die Wahrscheinlichkeit, dass eine falsche Entscheidung getroffen wird?). Diese Bewertung kann durchaus in den beteiligten Bereichen unterschiedlich ausfallen. Aufgabe des Datenqualitätsmanagements ist es hier für eine bestmögliche Transparenz zu sorgen, um eine Grundlage für bewusste Entscheidungen sicher zu stellen.
2.5 Reporting Reporting im Bereich Datenqualität findet auf verschiedenen Ebenen und in verschieden Rhythmen statt. Während die Fachbereiche anlassbezogen an das zentrale Datenqualitätsmanagement berichten, reportet dieses mindestens einmal jährlich an den Bereichsleiter Organisation/Informatik. Dieser entscheidet dann, als neutrale, dem zentralem DQM vorgesetzte Instanz, welche Informationen an den Vorstand weitergeleitet werden.
2.6 Messung von Datenqualität 2005 wurde mangelnde Datenqualität vereinzelt für schlechte Ergebnisse oder verspätet fertiggestellte Projekte verantwortlich gemacht. Berichte konnten regelmäßig angefochten werden und im Extremfall glaubte man nur noch seinen eigenen Auswertungen. Dieses war sowohl uneffektiv als auch für alle Beteiligten unbefriedigend. Der Bereichsleiter Organisation/Informatik entschied, das Thema Datenqualität in Projektform aufzuarbeiten und zur Verstetigung in eine Linienfunktion zu überführen. Zuerst stellten sich die Fragen: Welche akuten Probleme sind in der Bank bekannt und wie sind sie zu beheben? Welche Ursachen haben die einzelnen Probleme und hätten proaktive Datenqualitätsmaßnahmen das Entstehen der Probleme verhindern oder deren Ausmaß reduzieren können. So ist ein Portfolio an proaktiven Datenqualitätsmaßnahmen definiert worden (vgl. Kapitel D2.2). Das Messen von Datenqualität ist dabei Neuland. Inspiriert wurde das Datenqualitätsmanagement hierbei durch eine andere Landesbank, mit der auch in anderen Fragestellungen zusammengearbeitet wird. Die Landesbank maß zur Ü-
317
D Praxisbeispiele berwachung Ihrer Schnittstellen zweier kundenführender Systeme die Datenqualität und gab die Ergebnisse in Form von Kennzahlen aus. Sie nutzte ein Tool, in dem neben dem Bestandsabgleich auch fachliche Regeln hinterlegt werden konnten. In der Bremer Landesbank werden nur verhältnismäßig wenig Anwendungen im eigenen Rechenzentrum betrieben oder selbstentwickelt, das Kernbanksystem wird von einem externen Dienstleister betrieben, so dass Schnittstellenfragestellungen nur bedingt von Interesse sind. Sehr wohl von Interesse ist aber, ob alle fachlichen Zusammenhänge der Daten gewährleistet sind und ob Bestände von Systemen, die nicht über eine Schnittstelle verbunden sind, aber gleiche oder ableitbare Daten beinhalten müssten, auch korrekte Daten enthalten. Es wurde vom zentralen Datenqualitätsmanagement entschieden, im Rahmen eines Pilotprojekts diese beiden Typen von Messungen zu testen, um dann später diese Methode bankweit auszubauen. Von der Planung des Pilotprojekts bis zur Präsentationsreife der Ergebnisse (CeBit 2006) stand ein Zeitraum von 4 Monaten zur Verfügung.
2.6.1 Die Themen Die Pilotprojektmitglieder entschieden, Themen für das Pilotprojekt zu wählen, die von allgemeinem Interesse sind und eine hohe Identifikation vieler Mitarbeiter nach sich ziehen. So wurde in dieser Phase darauf verzichtet allzu komplexe Themen, die nur einen kleinen Mitarbeiterbereich ansprechen, zu bearbeiten. Diese bereits identifizierten Themen wurden in eine Themensammlung zur späteren Bearbeitung aufgenommen. Als dankbares Thema bietet sich das Kundeninformationssystem (KIS) an, fast alle Bereiche und Geschäftsfelder benötigen Kundendaten. Kundendaten werden in unterschiedlichen Systemen gehalten, zum Teil – was nicht ideal ist – müssen Daten in mehreren Systemen manuell erfasst werden. Jede manuelle Eingabe birgt aber die Gefahr von Eingabefehlern und damit von inkonsistententen Daten. Auch muss bei Datenaktualisierungen darauf geachtet werden in allen Systemen die Daten anzupassen. Auch Datentransport über Schnittstellen birgt die Gefahr inkonsistenter Daten – vor allem wenn ETL-Schritte notwendig sind. Inhaltlich wurden Themen gesucht, bei denen in der Vergangenheit schon mal Probleme aufgetaucht sind oder Szenarien vermutet werden, in denen die Datenqualität sinnvollerweise verbessert werden kann. Datenführendes System für fast alle Felder ist das KIS (Kundeninformationssystem).
2.6.1.1 Abgleich KIS mit Kondor+ Kondor+ ist das bestandsführende System für alle Devisen- und Wertpapiergeschäfte und wird im eigenen Haus betrieben. Für anschließende Auswertungen werden neben dem Namen auch die KUSYMA und die KUST (Schlüssel der Kundenbetreuenden Stelle) in das System eingegeben, beides Felder, deren bestandsführendes System das KIS ist und deren Auswertung wichtige strategische Entscheidungen nach sich ziehen können. Im Kundensystem wird hinterlegt, ob der
318
2 Einführung eines proaktiven DQ-Managements Kunde ein “Kondorkunde” ist. Ohne dieses Merkmal besteht die Gefahr, dass der Kundenstamm beim nächsten Reorganisationslauf gelöscht wird, wenn er keine weiteren Geschäfte anderer Geschäftsarten mit unserer Bank macht. Es wurde bestimmt, – inwieweit alle Kunden des Kondorsystems im KIS-System vorhanden sind und dort das Kondormerkmal gesetzt ist, – inwieweit alle Kunden des KIS, die ein Kondormerkmal haben auch wirklich im Kondorsystem existieren, – ob die KUST in beiden Systemen gleich gesetzt sind, – ob die KUSYMA in beiden Systemen identisch ist.
2.6.1.2 Adressdatenabgleich zwischen externem Dienstleister und KIS Eine Geschäftsart ist nahezu komplett von der Bremer Landesbank ausgelagert worden. Sogar der zugehörige Briefverkehr wird nach entsprechenden Vorgaben vom Dienstleister erstellt. Es muss sichergestellt werden, dass der Kunde die Post, entsprechend seinen Anforderungen zugesandt bekommt. Nun hat ein Kunde, was die Bearbeitung erleichtern würde, nicht immer nur eine einzige Adresse, sondern es sind mehrere unterschiedliche Adressen möglich. Grundsätzlich gibt es immer eine Hausanschrift. Zusätzlich kann der Kunde eine generelle Postanschrift haben und für jedes Konto ist nochmals eine spezielle Postanschrift hinterlegbar. Dieses gilt dann alles nochmals für einen oder mehrere Postbevollmächtigte. Hier galt es nun zu überprüfen, ob die Umsetzung bei der automatisierten Schnittstelle immer zum richtigen Ergebnis führt, um sicherzustellen, dass der Briefverkehr auch an die richtige Adresse geht. Stellen Sie sich vor, was passiert, wenn ein wohlhabender Kunde eine spezielle Postadresse für ein Konto eingerichtet hat und die Post nun fälschlicherweise an eine Adresse versand wird, die nicht im Zusammenhang mit diesem Konto steht. Dieser Kunde wird wahrscheinlich nicht mehr sehr lange Kunde unserer Bank sein. Hier zeigt sich eines der Probleme, die man haben kann, wenn kein direkter Zugriff auf die Daten besteht. Innerhalb des Pilotzeitraums – und auch mehrere Monate danach -- war es nicht möglich, einen geeigneten Datensatz vom Dienstleister zur Verfügung gestellt zu bekommen. Diese Messung konnte also im Rahmen des Pilotprojekts nicht erfolgen.
2.6.1.3 Datenabgleich zwischen KUKA und KIS In der KUKA (Kundenkalkulation) werden unter anderem die Deckungsbeiträge (DB) der Kunden ermittelt, das heißt, hier wird errechnet, wieviel eigentlich von dem Geschäft mit dem Kunden für die Bank übrig bleibt und dies in verschiedenen Stufen (bis hin zum Strom- und Wasserverbrauch der Bank, der mit in den DB eingerechnet werden kann). Die KUKA ist ein getrennter Datenhaushalt, verfügt über teilweise Schnittstellen auch zum KIS, ermöglicht aber auch manuelle Eingaben. Hier wurde im Rahmen des Piloten gemessen, ob
319
D Praxisbeispiele – alle Kunden lt. Anweisung (abhängig von der KUSYMA und dem Kreditvolumen) in der KUKA sind, – alle Kunden aus der KUKA auch im KIS sind, – KUSYMA und KUST in beiden Systemen gleich sind, – der hinterlegte Mitarbeiter in einer Referenzliste enthalten ist.
2.6.1.4 Legitimationsdaten Jeder Kunde einer Bank muss sich legitimieren, bevor ein Konto eröffnet oder eine Vollmacht erteilt wird. Die Vollständigkeit der Legitimationsdaten (u.a. Ausweisart, Ausstellungsort des Ausweises, Ausweisnummer, Gültigkeitsdatum des Ausweises, vollständige Adresse) werden überprüft. Hier ist noch entscheidend, wann der Kunde sein letztes Konto errichtet hat bzw. wann er Neukunde der Bank geworden ist. Ausgewertet werden die relevanten Daten zum einen nach Vorgaben, die aus der Abgabenordnung abgeleitet werden können, zum anderen nach Vorgaben aus dem Geldwäschegesetz. . Die Vollständigkeit der Daten wird regelmäßig von den Aufsichtsbehörden z.B. dem BAFIN (Bundesaufsichtsamt für das Finanzwesen), der internen – und der externen Revision geprüft. Unvollständige Daten können eine teure Nachprüfung zur Folge haben. Hier wird auch überprüft, ob ein Kunde eine gültige Hausadresse angegeben hat oder nur ein Postfach, was unzulässig ist.
2.6.1.5 Messung inaktiver Kunden Inaktive Kunden können nicht nur strategische Auswertungen des Kundenstamms beeinflussen, sie verursachen auch Kosten. Die Anzahl der Kunden ist eine der Schlüsselgrößen, nach denen der externe Dienstleister, der das Kernbanksystem betreibt, abrechnet. Sind bestimmte Merkmale gesetzt, z.B. das Kondormerkmal (vgl. D2.5.1.1), wird dieser Kunde auch in einem Reorganisationslauf nicht gelöscht und verbleibt für alle Zeiten im Kundensystem. Es gibt nicht für alle Merkmale Automatismen, dass sie gelöscht werden, falls sie nicht mehr zutreffen. Bei diesen Messungen werden die unterschiedlichen Merkmale, die eine Löschung des Kundenstamms verhindern, gemessen und ausgewertet.
2.6.1.6 Messung vollständiger Hinterlegung von Telefonnummern Man stelle sich vor, die Bank entscheidet sich für eine Telefonmarketingaktion, um ein neues Produkt einem bestimmten Kundenkreis anzubieten. Um sicherzustellen, dass diese Aktion erfolgreich verlaufen kann, muss mindestens eine gültige Telefonnummer (Privatanschluss, Handy oder Firmentelefonnummer) im System hinterlegt sein. Datenführendes System für Telefonnummern ist das CRM-System und nicht KIS. Im KIS sind vereinzelt Telefonnummern hinterlegt – aus Zeiten vor der Anschaffung unseres CRM-Systems. Es wurde gemessen: – Bei welchen Kunden ist keine Telefonnummer hinterlegt?
320
2 Einführung eines proaktiven DQ-Managements – Bei welchen Kunden ist ausschließlich eine Telefonnummer im KIS vorhanden? – Bei welchen Kunden ist ausschließlich eine Telefonnummer im CRM-System vorhanden? – Bei welchen Kunden sind in beiden Systemen Telefonnummern hinterlegt? – Bei welchen Interessenten (noch keine Kunden) sind keine Telefonnummern im CRM-System hinterlegt? – Bei welchen Ansprechpartnern (zu juristischen Kunden) sind keine Telefonnummern im CRM hinterlegt? Sollte entschieden werden, eine Telefonmarketingaktion durchzuführen, wird künftig noch ein Abgleich der Bestandsdaten mit einem Referenzdatenbestand (z.B. der Telekom) geprüft werden.
2.6.1.7 Ermittlung von Dubletten Fast alle Dubletten im Kundensystem (eine physikalische Person oder eine Firma mit mehreren Stammnummern) sind aus mehreren Gesichtspunkten ungewollt. Obwohl sie weder aufsichtsrechtlich noch gesetzlich verboten sind, führen Dubletten doch zu erheblichen Mehraufwendungen. Im Rahmen des Geldwäschegesetzes muss sichergestellt werden, dass zu einer Person alle Konten und Transaktionen bekannt sind. Dieses erfordert bei Dubletten eine entsprechende Verbundverschlüsselung und es muss sichergestellt werden, dass sämtliche Kundenstammdaten wie z.B. Adressen aller zugehörigen Kundenstämme identisch sind. Ein ähnliches Problem ergibt sich aus dem Meldewesen. Kredite bestimmter Größenordnung sind meldepflichtig. Überschreitet nun ein Kunde in seinem Kreditengagement die meldepflichtige Gesamtkreditgröße und wird dies nicht bemerkt, da sich der Kunde über mehrere Kundennummern verteilt und die entsprechenden Verbundeinträge nicht richtig gepflegt sind, verstößt die Bank gegen aufsichtsrechtliche Anforderungen und riskiert eine teure Nachprüfung. Auch aus Imagegründen sollten Dubletten vermieden werden, es wirkt nicht sehr professionell, wenn ein Kunde drei identische Schreiben bekommt. Auch ist eine korrekte Kundenansprache fragwürdig, wenn nicht sichergestellt ist, dass alle Kunden- und Kontodaten übersichtlich vorliegen. Bei dieser Messung ist zu berücksichtigen, dass es durchaus Muss-Dubletten gibt. Ein Beispiel hierfür sind Notaranderkonten, die aufgrund der KUSYMA identifiziert werden können. Hier müssen für jedes Notaranderkonto, das ein Notar für bestimmte Geschäftsvorfälle im Auftrag seiner Kunden führt, ein neuer Kundenstamm eingerichtet werden, der, da abhängig vom Notar, identische Daten wie Name, Adresse und Geburtsdatum enthält.
321
D Praxisbeispiele
2.6.2 Messsysteme Als Messwerkzeug für Matchingrules (Datenabgleich zweier Systeme), Contentrules (Messung fachlicher Inhalte) und Keyrules (Eindeutigkeit von Datensätzen) wird FUZZY! DIME® verwendet (siehe Abb. 3). Es erlaubt, alle Regeln in einer an SQL angelehnten Sprache zu hinterlegen, die Messung automatisch oder teilautomatisch zu verschiedenen Zeitpunkten zu wiederholen und die Daten in ein Visualisierungstool (vgl. D2.6) zu exportieren. Für die Ermittlung von Dubletten wird FUZZY! Double® genutzt. FUZZY! Double® ist spezialisiert auf Dublettensuche und liefert schon die Ermittlung typischer Dublettenmesskriterien mit (z.B. Umzugsdubletten in derselben Stadt oder im Land). Die Dublettensuche wurde mit zwei unterschiedlichen Methoden durchgeführt: – scharfe Suche, das heißt Namen und Geburtsdatum müssen identisch sein – unscharfe Suche, der Name kann geringfügig abweichen, so werden auch zwei Kundenstämme Meier und Mayer oder Lnudt und Landt als Dubletten erkannt. Neben den Umzugsdubletten wurde auch auf Namensänderungsdubletten z.B. durch Heirat geprüft (Vorname und Geburtsdatum sind gleich). Alle Dubletten gelten zunächst als Dublettenkandidaten und werden im Einzellfall recherchiert. Ein weiterer wichtiger Punkt ist, dass alle eingesetzten Messsysteme manuell oder maschinell abarbeitbare Fehlerlisten erstellen können, um die Folgebearbeitung zu erleichtern.
Abbildung 3: Das Messtool FUZZY! DIME®
322
2 Einführung eines proaktiven DQ-Managements
2.6.3 Messung bankfachlicher Datenzusammenhänge In der ersten Projektphase wurde zunächst zu jedem Messthema ein Fachkonzept gemeinsam mit der Firma tekko Informationssysteme GmbH & Co. KG (tekko) und den jeweils zuständigen Fachbereichen erstellt. Dieses hat sich als nützlich erwiesen, da die Zusammenhänge selbst einfacher Fragen (z.B. wo im CRMSystem sind überall Telefonnummern hinterlegt) sonst nicht für alle Beteiligten transparent sind. Zusätzlich wurden die Fachkonzepte genutzt, um die fachlichen Fragestellungen in ein Pseudo-SQL zu übersetzen, das dann für die Konfiguration der Messpunkte im Messsystem genutzt werden kann. Trotz Fachkonzept ist es notwendig, die Ergebnisse gemeinsam mit dem Fachbereich zu prüfen und ggf. die Messregeln zu verfeinern. Man gelangt in einen Regelkreis ähnlich dem FUZZY! DataCare® Process (vgl. B2 Datenqualitätsmanagement) In der Bremer Landesbank ist dieser Prozess wie folgt beschrieben (vgl. Abb. 4):
Abbildung 4: Der Prozess Messung von Datenqualität in der Bremer Landesbank
Zunächst wird eine priorisierte Liste der benötigten Datenfelder und Datenquellen erstellt, die für die Messung eines Sachverhalts benötigt wird. Anschließend werden Geschäftsregeln und Handlungsschwellwerte im Rahmen des Fachkonzepts festgelegt. Gerade die Definition der Handlungsschwellwerte fällt den Datenfachverantwortlichen oder dem Fachbereich sehr schwer. Die Frage, wie gut die Datenqualität sein muss, um vernünftig arbeiten zu können, reichen 70%, 95% oder müssen es 100% sein, kann meistens nicht beantwortet werden. Dem Wunsch nach 100% stehen auch entsprechende Kosten zur Datenbereinigung und im Betrieb
323
D Praxisbeispiele gegenüber. Sind diese Kosten transparent, lässt auch der verantwortliche Bereich über die geforderte Datenqualität mit sich reden (falls die Fachlichkeit dies zulässt). Nun wird die Datenversorgung des Messsystems sichergestellt. Hier wird entschieden, ob direkt online in einem Produktionssystem gemessen werden kann oder, was wir in der Bank im Regelfall vorziehen, ein Datenabzug erstellt und dieser in einer zum Messsystem gehörenden Datenbank genutzt wird. Das Arbeiten in einer online-Datenbank birgt die Gefahr, dass der Produktionsbetrieb durch komplexe Datenbankabfragen des Messsystems gestört wird, arbeitet man mit einem Datenabzug, ist sicherzustellen, dass die Daten 1:1 übernommen werden. Arbeitet man z.B. mit csv-Dateien als Transportmedium, kann ein zusätzliches Semikolon im Namensbestandteil zu erstaunlichen Ergebnissen führen, wenn das Semikolon das vereinbarte Trennzeichen der csv-Datei ist. Das Ergebnis ist dann ein zusätzliches Feld im Datensatz und eine unerwartete Verschiebung der Feldinhalte. In einem Feld Ort taucht dann z.B. plötzlich eine Postleitzahl auf. Nun wird die Messung durchgeführt, die Messergebnisse vom Fachbereich und dem DQManagement bewertet und dokumentiert. Als nächstes wird entschieden, ob eine Datenbereinigung eingeleitet wird (vgl D2.2). Abschließend wird anhand konkreter Messergebnisse und der Analyse von fehlerhaften Datensätzen bewertet, ob die Messung alle fachlichen Gesichtspunkte beinhaltet oder ob sie ggf. verfeinert werden muss. Um einen zeitlichen Verlauf der Datenqualität nachvollziehen zu können, wird das Messintervall anhand fachlicher Vorgaben, der Kritikalität der Daten und den Messergebnissen festgelegt. In der Praxis zeigt sich, dass der oben beschriebene Regelkreis bei neu definierten Messpunkten häufiger durchlaufen wird, bevor wirklich neben den Datenqualitätskennzahlen verlässlich abarbeitbare Listen zur Datenbereinigung bereitgestellt werden können. Ein Grund hierfür ist, dass immer wieder im Haus definierte fachliche Ausnahmen oder Abweichungen von der Regel nicht dokumentiert sind und erst bei Sichtung und Analyse der Fehlerdatensätze von den Fachkräften weitergegeben werden. Auch kann hier ein Kommunikationsproblem bei der unterschiedlichen Verwendung gleicher Fachbegriffe zwischen Fachbereichen und Technik zu einigen zusätzlichen Messkreisläufen führen.
2.7 Visualisierung der Messergebnisse In der Bremer Landesbank wird ein weiteres Tool zur Unterstützung des Datenqualitätsmanagementprozesses eingesetzt. Adressatenkreis hierfür sind die fachlichen Verantwortlichen und die Führungskräfte aus den Organisationseinheiten. Das browserbasierte Tool tekkoDQC® nimmt die Messwerte aus dem Messtool FUZZY! DIME® und FUZZY! Double® auf, errechnet und bewertet Datenqualitätskennzahlen und bereitet diese grafisch auf. Die einzelnen Messpunkte können zu Themen oder Kategorien zusammengefasst werden, so dass ein Gesamtdatenqualitätsstatus auf dieser aggregierten Ebene dargestellt werden kann. Von diesem ag-
324
2 Einführung eines proaktiven DQ-Managements gregierten Status ist jederzeit ein Drill-Down auf die einzelnen Messpunkte bis hin zum zeitlichen Verlauf der Datenqualität möglich. (Hinweis: Alle im Folgenden aufgeführten Beurteilungen und Messwerte basieren auf manipulierten Daten und dienen nur der Erläuterung der Funktion der Software, die Screenshots wurden dankenswerterweise durch tekko zur Verfügung gestellt).
Abbildung 5: Einstiegsseite zum Thema Kundensystem
Auf der Einstiegsseite (vgl. Abb. 5) zu jedem Thema sieht man schnell einen hochaggregierten Status der Datenqualität. Die dargestellte Ampelfunktion ermöglicht eine schnelle Beurteilung der Datenqualität. Auf dieser Ebene gilt die einfache Regel “Worst Wins”, d.h. ist in der darunterliegenden Ebene auch nur ein Messpunkt Rot, ist auch der hochaggregierte Wert der darüber liegenden Ebene rot. Durch einen Klick auf die Ampel gelangt der Benutzer in die nächste Detaillierungsebene, die entweder einzelne Messthemen und/oder konkrete Messpunkte enthalten kann. Klickt man auf “Analyse von Datenfeldern” kann ein vom Messsystem erstelltes Dataprofiling dargestellt werden (vgl. Abb. 6).
325
D Praxisbeispiele
Abbildung 6: Darstellung eines Data Profilings in tekkoDQC®
Ein Profiling gibt dem Datenfachverantwortlichen schnelle Hinweise auf mögliche Fehler. Im einfachsten Fall erkennt er als Minimum eines Muss-Feldes ein leeres Feld und kann sofort die Problemanalyse einleiten. Ein anderes Beispiel wäre die Anzahl an Ausprägungen eines Schlüsselfeldes. Ist z.B. der KUST-Schlüssel (vgl. 2.6.1.1 Abgleich KIS mit Kondor+) nur für 107 kundenbetreuende Stellen definiert, man findet aber 122 unterschiedliche Ausprägungen, ist Handlungsbedarf schnell erkennbar. Auch die Darstellung einer Patternanalyse (Analyse des Feldinhalts auf verwendete Zahlen, Zeichen oder Sonderzeichen) oder einer CompoundKeyanalyse (sind Schlüsselfelder oder kombinierte Schlüsselfelder enthalten?) ist an dieser Stelle möglich. TekkoDQC® ist in der Lage fehlerhafte Datensätzen zur
326
2 Einführung eines proaktiven DQ-Managements weiteren Bearbeitung in Tabellenform bereitzustellen. So stehen alle relevanten Informationen dem Fachbereich zur Verfügung. Ist der Anwender auf der Ebene der Messpunkte angelangt (vgl. Abb. 7), hat er einen Überblick über die Anzahl fehlerhafter Datensätze, berechneter Kennzahlen ggf. von errechneten Trends und weiteren Informationen.
Abbildung 7: Visualisierung auf Messpunktebene
In der letzten Spalte ist eine zusätzliche Funktion erkennbar, die direkt den Datenqualitätsprozess unterstützt und sehr hilfreich ist. Im Hintergrund sind sogenannte DQ-Alarme definiert. Bei Erreichen eines bestimmten Schwellwertes können automatisch bestimmte Aktionen, z.B. das Versenden einer e-Mail-Nachricht initiiert werden. Weitere grafische Aufbereitungen wie Tortendiagramme, Balkendiagramme oder die Darstellung des zeitlichen Verlaufs von DQ-Kennzahlen runden die Managementinformationen für den Datenfachverantwortlichen oder die Führungskraft ab. Durch Einsatz dieses Tools ist es möglich, bestimmte Datenqualitätsaufgaben zu dezentralisieren und das Monitoring der einzelnen Schwellwerte
327
D Praxisbeispiele aus dem zentralen DQ-Management zu verlagern. Dies ist ein gewünschter Effekt, um nicht weitere personelle Kapazitäten in einem Stabsbereich aufzubauen. Eine komplette Dezentralisierung hingegen ist nicht möglich. So ist ein gewisses Expertenwissen zur Nutzung des Messwerkzeugs FUZZY! DIME®, die Beherrschung von SQL für die Detailarbeit (z.B. bei der Bildung von Views oder der Regelerstellung) notwendig (vgl. Abb. 8).
Abbildung 8: Bildung einer View mit SQL
2.8 Messergebnisse und Fazit Aus verständlichen Gründen werden an dieser Stelle keine originalen Messwerte veröffentlicht. Aber soviel steht fest: Jede Messung hat verwertbare Ergebnisse für die Verbesserung der Datenqualität geliefert. Häufig war die Anzahl fehlerhafter
328
2 Einführung eines proaktiven DQ-Managements Datensätze größer als vom Fachbereich erwartet. Der Ansatz, von der fachlichen Fragestellung zu kommen, die festlegt, welche Felder in einem Prozess für die Bank relevant sind und wie diese Felder gefüllt sein müssen, hat sich in der Bremer Landesbank bewährt. Die aufgrund der Messungen initiierten Löschungen von Kundenstämmen inaktiver Kunden und das damit gesparte Geld haben ausgereicht, um die Lizenzkosten der Software und die externen Consultingkosten des Pilotprojekts komplett zu tragen. Als die zwei wesentlichsten Voraussetzungen für die Durchführung von Datenqualitätsfragestellungen haben sich zum einen die Unterstützung im Haus bis hin zur Vorstandsebene und zum anderen die Vorbereitung der einzelnen Messpunkte durch möglichst exakte Fachkonzepte erwiesen. Gerade das mehrmalige durchlaufen des DQ-Regelkreises ist sehr aufwendig, aber unumgänglich wenn man verwertbare Fehlerlisten erhalten möchte. Die nächsten Schritte sind die weitere Verankerung des Themas Datenqualität im Gesamthaus. Es muss sichergestellt werden, dass jeder Mitarbeiter die Ansprechpartner, Rollen und Prozesse zur Sicherstellung einer guten Datenqualität kennt. Anschließend sollen weitere Datenqualitätsthemen, auch aus anderen Bereichen der Bank, erkannt, bewertet und bearbeitet werden.
329
3 Informationsqualität für das Management mit TOPAS® Dr. Otto-Ernst Brust, Dr. Frank Möller, Werner Skrablies
3.1 Informationsmanagement für Führungskräfte Management-Entscheidungen hängen nicht zuletzt von Informationen ab, die auf sinnvollen und verlässlichen Daten beruhen und kommuniziert werden. In diesem Kontext verwenden wir die folgende Sichtweise: Daten sind die Gesamtheit der verfügbaren Texte, Zahlen und Statistiken, Graphiken, Bilder, Audio- und Videodokumente usw. – unabhängig von deren Nutzung für die jeweilige Unternehmung. Informationen sind jene Teilmenge der Daten, die für die eigene Unternehmung ausgewählt, geordnet, gespeichert und verfügbar gemacht wird.
Um auf schnelle Veränderungen in den Märkten reagieren zu können, ist ein wirksames Informationsmanagement für die Zukunftsfähigkeit des Unternehmens [Dippold et al. 2005] unerlässlich und zu einem wettbewerbsentscheidenden Faktor geworden.
Abbildung 1: Geschäftsprozesse und flexible Informationsarchitektur
330
3 Informationsqualität für das Management mit TOPAS® Unter Informationsmanagement verstehen wir konzeptionelle Maßnahmen, die eine systematische Informationsbereitstellung für die Geschäftsführung sicherstellen.
In Verbindung mit den genutzten IT-Systemen (Abb. 1) können reale Strukturen und Abläufe des Geschäftes zur besseren Planung und Steuerung abstrahiert und in einer flexiblen Informationsarchitektur (u.a. operative Systeme, Data Warehouse, etc.) [Kagermann/Österle 2006, S. 27] für die strategiekonforme Führung dargestellt werden. Damit wird eine effektive und kundenorientierte Zusammenarbeit von Abteilungen, Funktionsbereichen (z.B. Produktion) und externen Dienstleistungspartnern (Lieferanten, Kunden) ermöglicht, der ein einheitliches Prozessverständnis zugrunde liegt. Somit repräsentiert das Informationsmanagement die unabdingbare Voraussetzung, um abgesicherte strategische und operative Entscheidungen auf den verschiedenen Stufen innerhalb eines Unternehmens treffen zu können.
3.1.1 Qualitätskriterien von Informationen für das Management Der konkrete Informationsbedarf für das Management kann nur unter Berücksichtigung aller Anforderungen und Gegebenheiten des spezifischen Unternehmens bestimmt werden. Hieraus ergeben sich beispielhaft die zur Führung und Steuerung mit Priorität zu beachtenden Informationsqualitäts(IQ)-Kriterien: – – – – – –
Relevanz Aktualität Objektivität Vollständigkeit Eindeutigkeit Zuverlässigkeit
Die Erfüllung dieser IQ-Kriterien bildet eine Grundvoraussetzung für schnelle Management-Entscheidungen.
3.1.2 Absicherung der Informationsqualitätskriterien: TOPAS® -Methodik Bei Merck KGaA wird in der Sparte Performance & Life Science Chemicals die Erfüllung dieser Kriterien durch die Anwendung der TOPAS®1 -Methodik unterstützt.
1
TOPAS®, Transparentes Optimiertes Prozess Analyse System ist eine eingetragene Marke der Merck KGaA.
331
D Praxisbeispiele TOPAS®-Methodik bedeutet die Anwendung eines zweckmäßigen 4-Ebenen-Modells (auch und gerade) zur systematischen Erfassung, Verarbeitung und Darstellung von vernetzten Informationen für die Geschäftsführung.
3.2 TOPAS®: Methode und Modell 3.2.1 Geschäftsprozessmanagement (GPM) mit der TOPAS£-Methode Das Geschäftsprozess-Modell TOPAS® ist ein Führungs- und Steuerungsinstrument für das Management. Über effiziente Geschäftsprozess-Strukturen sollen die Kundenanforderungen realisiert und gleichzeitig das Unternehmen erfolgreich weiterentwickelt werden. Mitte der 90er Jahre wurde bei Merck KGaA auf der Grundlage eines Pilotprojektes im damaligen "Unternehmensbereich Labor" das TOPAS®-GeschäftsprozessModell entwickelt und erfolgreich in die operativen Bereiche implementiert. TOPAS® beschreibt Geschäftsprozesse, hilft bei der Zielerreichung, überwacht die Prozessleistungen und unterstützt Managemententscheidungen. Außerdem stellt TOPAS® die Erfüllung von Normen- und Regularienanforderungen (z.B. ISO 9001, ISO 14001) sowie die Integration von Management-Systemen sicher. Auch für die Zertifizierungsprozesse bieten die transparenten GPM 2 Strukturen auf Basis des TOPAS® -Modells den Vorteil, die Auditierungen entlang der Prozess-Strukturen eines Unternehmens durchführen zu können.
3.2.2 Regelkreis für das Geschäftsprozessmanagement Die in der Strategie (PLAN) formulierten Ziele (z.B. ROS3) können mittels der TOPAS®-Methodik in das Tagesgeschäft überführt und den operativen ProzessLeistungen zugeordnet werden. Damit ist sichergestellt, dass die operativen Leistungsflüsse der Strategie folgen und das Kaskadenprinzip der Zielvorgaben (topdown über die Hierarchiestufen) von der Strategie in die operativen Linien gewährleistet wird (DO). Eine ständige Überprüfung der Zielerreichung (CHECK) auf Grundlage der beschriebenen Prozess- und Leistungsstrukturen ermöglicht eine kontinuierliche Weiterentwicklung und Verbesserung (ACT) (Abb. 2).
2
GPM, Geschäftsprozessmanagement
3
ROS= Return on Sales
332
3 Informationsqualität für das Management mit TOPAS®
Abbildung 2: Regelkreis für das Geschäftsprozessmanagement
3.2.3 4-Ebenen-Modell (Business Excellence Kriterien) TOPAS® ist ein „4-Ebenen-Modell“ und beinhaltet Prozesse, Ziele, Leistungen sowie Beziehungen zu Dienstleistungspartnern (PZLD) (Abb. 3). Die Ebene P (Prozesse) stellt die Wertschöpfungskette dar, die aus Prozessbausteinen besteht. Prozessbausteine beinhalten die Zusammenfassung von Leistungen. Diese Ebene charakterisiert einerseits den Waren- und Informationsfluss vom Lieferanten zum Unternehmen sowie andererseits auch die Abläufe innerhalb des Unternehmens zum Kunden. Der Zusammenhang von Prozessbausteinen und Steuerparametern wird in der Ebene Z (Ziele und Kennzahlen) dargestellt. Kennzahlen charakterisieren die operativen Ziele wie Umsatz, Ertrag, Rendite, Preise, Kosten sowie die QualitätsKenngrößen, z.B. Lieferzeit, Identität und Vollständigkeit. In dieser Ebene erfolgen somit die qualitativen und quantitativen Bewertungen der Prozesse, Leistungen und Verfahren (siehe Ebene L). Die Ebene L (Leistungen) charakterisiert die zu den Prozessbausteinen gehörenden Leistungen im Zusammenhang mit den Verfahrensanweisungen. Die Verfahrensanweisungen beschreiben die Leistungserbringung durch die Organisationsbereiche. Somit sind die Prozess- und Verfahrensebene logisch miteinander verknüpft. Die organisatorischen Schnittstellen werden durch die Ebene D (Dienstleistungspartner) abgeglichen (z.B. Marketing als Nachbarbereich zum Vertrieb).
333
D Praxisbeispiele
Abbildung 3: TOPAS® – Konzeption, 4-Ebenen-Modell, dargestellt durch die Ecken eines Tetraeders
Die TOPAS®-Methodik wurde um weitere wichtige Funktionen (Abb. 4) ergänzt:
Balanced Scorecard (BSC): Mit der Integration der Balanced Scorecard in die TOPAS® - Methodik ist es möglich, die Kennzahlen den Prozessen, Leistungen und Verfahren zuzuordnen. Hierdurch können die Wirkbeziehungen zwischen den Prozessen analysiert, bewertet und - auf der Grundlage des Kontinuierlichen Verbesserungsprozesses - optimiert werden. Um eine "Balance" zwischen den BSC-Feldern zu gewährleisten, müssen die Kennzahlenstrukturen systematisch erfasst und zwischen den zugrunde liegenden Prozessen abgeglichen werden. Diese Modell-Konzeption – Verbund von BSC mit Prozess-/ Leistungsstrukturen – ermöglicht die Erkennung und Analyse von Pro-
334
3 Informationsqualität für das Management mit TOPAS® zess- und Leistungsdefiziten auf direktem Weg: Grundlage für Planung und Umsetzung der Kontinuierlichen Verbesserungsprozesse (KVP).
Abbildung 4: Zusatzfunktionalitäten des TOPAS® -Modells
Prozess-Kosten-Analyse (PKA): Bereichsübergreifende Prozess-Kosten-Analysen ermöglichen die Bewertung von Geschäftsprozessen und tragen zur gezielten Optimierung von Abläufen mit dem Ziel der Effizienzsteigerung bei. Aus den PKA-Resultaten können weiterhin direkt die Möglichkeiten und Grenzen einer wirksamen Prozessoptimierung unter Wirtschaftlichkeitsaspekten abgeleitet werden.
Risiko-Management: Zur Absicherung der Strategie und der operativen Planung sowie der ProzessAbläufe können Risikobewertungen vorgenommen und den Prozess-Leistungen Prozess-Risiken zugeordnet werden. Ein dynamisches Monitoring der hinterlegten Kennzahlen ermöglicht die Festlegung und Umsetzung von Präventiv- und Korrekturmaßnahmen. Das Geschäftsprozess-Modell TOPAS® gewährleistet - gemeinsam mit den zusätzlichen Funktionalitäten - die Analyse und Bewertung der klassischen Zusammenhänge zwischen den drei Faktoren Qualität, Kosten (auch Investitionen) und Zeit (z.B. Bearbeitungs-, Antwortzeiten) als Grundlage zur Erkennung und Nutzung von Verbesserungspotentialen (Abb. 5).
335
D Praxisbeispiele
Abbildung 5: Von Prozessleistungen zum ROS mit der TOPAS®-Methodik auf direktem Weg
Mit dem TOPAS®-Modell können Strategien mit den operativen Maßnahmen zur Geschäftssteuerung verbunden werden. Durch transparente Geschäftsprozesse sowie eine systematische Analyse und Bewertung bereichsübergreifender Prozessleistungen ist es möglich, direkt Einfluss auf das Geschäftsergebnis, z.B. die ROSVerbesserung, zu nehmen (Abb. 5). Die wirksame Anwendung dieser Systemlogik - in Verbindung mit literaturbeschriebenen Methodiken - erfordert die Definition standardisierter Prozess-, Leistungs- und Kennzahlenstrukturen (kritische Erfolgsfaktoren). Diese werden regelmäßig durch Prozess-Reviews im Hinblick auf kontinuierliche Verbesserungspotentiale untersucht. Identifizierte Verbesserungspotentiale werden u.a. mittels Prozesskostenanalyse und Prozess-Simulationen unter Kostenaspekten bewertet und priorisiert. Aus den KVP- Zielvereinbarungen und der hieraus abgeleiteten Maßnahmenplanung zur ROS-Optimierung ergibt sich der Ressourcenbedarf für unterschiedliche KVP-Projekte. Dieses Vorgehen in Verbindung mit den IT-Systemen sowie der flexiblen Informationsarchitektur (Abb. 1) gewährleistet, dass die kritischen Erfolgsfaktoren der Geschäftsprozesse den Erfordernissen zur Informationsqualität (siehe 3.1.) entsprechen. Damit können die Unternehmensleistungen (Produkt- und Servicequalität durch Prozess-Stabilität“, Abb. 5 links oben) gezielt weiterentwickelt werden.
336
3 Informationsqualität für das Management mit TOPAS®
3.3 Anwendung: Management von Informationen und Daten 3.3.1 Informationen über Strukturen und Abläufe Die aktuelle Prozesslandschaft der Sparte Performance & Life Science Chemicals bei Merck KGaA gliedert sich in vier Prozess-Kategorien (Abb. 6):
Abbildung 6: Prozesslandschaft der Sparte Performance & Life Science Chemicals
Der Führungsprozess beschreibt übergreifende Querschnittsleistungen, mit denen das operative Geschäft ermöglicht, gesteuert und bewertet wird. Leistungen, die im Führungsprozess erbracht werden, sind nicht wertschöpfend. Die Support-Prozesse sind indirekt wertschöpfende Leistungen, die dem Kunden nicht unmittelbar zugänglich, aber zur Unterstützung und Vorbereitung der internen Kernprozesse unerlässlich sind. Die Kern-Prozesse beschreiben die direkt am Kunden wertschöpfenden Leistungen, die für das Geschäft der Sparte erfolgskritisch sind. Die Review-Prozesse enthalten zentrale Leistungen des Prozessmanagements und bilden die Grundlage für die kontinuierliche Verbesserung und Messbarkeit des Geschäftserfolgs aller übrigen Teilprozesse. Eine Prozess-Kategorie setzt sich aus Prozess-Bausteinen zusammen. In einem Prozess-Baustein (z.B. Pre-Sales-Management) (Ebene P) sind alle strukturell vergleichbaren Leistungen (z.B. Anfragenbearbeitung, Preisgestaltung, Angebotserstellung ) (Ebene L) zusammengefasst.
337
D Praxisbeispiele Dieser kundenorientierte Ansatz bietet ein Gerüst, um mit Kunden, Vertriebsgesellschaften und Lieferanten die gemeinsame Entwicklung und Optimierung der Prozesse unter Effizienzgesichtspunkten zu betreiben. Dies fördert extern die Festigung der Kunden-Lieferanten-Beziehung (Ebene D) und stellt intern ein ständiges Regulativ bereit, um eigene Sichtweisen auf Prozess-Strukturen im Sinne einer permanenten Inventur zu überprüfen. Auf Basis definierter und beschriebener Nahtstellen gelingt es, gemeinsame Kennzahlensysteme (Ebene Z) zu entwickeln und die Abläufe zwischen den Organisationen und Prozessen auf Effektivität und Effizienz zu untersuchen [Möller/Hiltmann 2005]. Hierfür empfiehlt sich u.a. die Durchführung von Problemanalysen zur methodischen Absicherung von Kennzahlenstrukturen (kritische Erfolgsfaktoren).
3.3.2 Informationen und Daten für die strategische und operative Planung Vereinfachend kann auch das erforderliche Informationsmanagement mit der TOPAS®-Methodik als Kernbestandteil der gesamten Prozess-Architektur eines Unternehmens strukturiert veranschaulicht werden (Abb. 7). Dazu werden den Prozessbausteinen (Ebene P) „Informationserfassung“, „Informationsverarbeitung“ und „Informationsdarstellung“ gemäß TOPAS® Leistungen (Ebene L) zugeordnet. Die Verbindung zu den Führungsleistungen (kursiv) der Organisation sowie den Review- bzw. Controlling-Leistungen, die sich auf einen Umgang mit Kennzahlen (Ebene Z) und konkreten Daten beziehen, werden durch diese Prozessbaustein-Strukturen hergestellt und als „Informationsprozess“ für das Management transparent gemacht. Führung ist zum einen die Leitung des laufenden Geschäftes, zum anderen aber auch die Entwicklung des Unternehmens im Sinne des Geschäfts(prozess)-Modells als Aufgabe und Verantwortung von Managern. Die IT-Systeme liefern ihnen hierfür unterstützend zusätzliche Instrumente. Die Führungsprozesse der Organisation (rechtsgerichteter Blockpfeil) legen über ihre Leistungsstruktur die Ziele fest, bestimmen die Kennzahlen, überwachen die Zielerreichung und setzen die Maßnahmen um. Durch eine Standardisierung der Methoden und Metriken sowie der Führungsprozess-Strukturen wird eine organisatorische Verankerung und Kommunikation der Strategie unterstützt. Das Kaskadierungsprinzip (Abb. 8) zerlegt die strategischen Ziele der Sparte (topdown) in separate Module, die die Strategieanteile und daraus abgeleiteten operativen Ziele der unter- und nachgeordneten Organisationseinheiten enthalten. Diese werden dann gemäß der getroffenen Vereinbarungen auf die Funktionsbereiche, Abteilungen und Mitarbeiter überführt. Mit ihren Führungsprozessen (links gerichteter Blockpfeil) stehen das Finanz- /Rechnungswesen und das Controlling vor der Herausforderung, die in diesen Modulen generierten Ergebnisse stufengerecht (bottom-up) zu konsistenten Berichten (Reports) zusammenzuführen.
338
3 Informationsqualität für das Management mit TOPAS®
Abbildung 7: Geschäftsprozess und Informationsprozess für die strategische und operative Planung
Abbildung 8: Kaskadierte Zielvereinbarungen und Reporting als angewandter Informationsprozess: Kombination zwischen „top-down“ und „bottom-up“-Ansatz
339
D Praxisbeispiele
3.4 Informationserfassung Welche Informationen und Daten zu erfassen sind, bestimmt deren Verwendungszweck. Informationen und Daten müssen zielgerichtet zum aktuellen Wissensstand beitragen. Auf dieser Grundlage können erst ManagementEntscheidungen, z.B. zu Investitionsprojekten, getroffen werden. Im Marketing und Vertrieb erzeugen die informationstechnischen CRM 4 -Tools alleine lediglich einen sekundären Unternehmensnutzen. Primär kommt es jedoch auf die gelebten Geschäftsprozesse (Abb. 9) in Verbindung mit der Markt- und Kundenentwicklung an, um Informationen über die Kunden (z.B. Standorte, Stellung im Markt, etc.), über gesetzliche Auflagen, Vorgaben der Geschäftsleitung, etc. zu sammeln und die Daten (z.B. Umsatz der Vertriebsgesellschaft mit dem Kunden, dessen relativer Marktanteil, etc.) in IT-Systemen, z.B. für eine Geschäftszielplanung (Plan) zu erfassen.
Abbildung 9: Von der Informationserfassung zu Geschäftsprozessen
4
CRM= Customer Relationship Management
340
3 Informationsqualität für das Management mit TOPAS® Das Modell TOPAS® stellt dabei die Konsistenz der Leistungsstrukturen sicher, so dass hierdurch entscheidend zur Informationssicherheit als einem Aspekt der Informationsqualität (siehe 3.1.2.) beigetragen und die unternehmensinterne und -externe Kommunikation nachhaltig unterstützt wird.
3.4.1 Quellen zur Informationserfassung Zur Informationserfassung sind in Abb. 9 die Informationsquellen dargestellt und diese mit den Prozessbausteinen „Informationsverarbeitung“ und „Informationsdarstellung“ im Abgleich mit den Führungs 5 - und Review-Prozessbausteinen 6 verbunden. Die Leistungen dieses Informationsprozesses sind unabdingbare Voraussetzung für die strategisch/operative Anwendung des Regelkreises (Plan – Do – Check – Act) und somit für die erfolgreiche Realisierung der Führungs-, Reviewund KVP-Prozesse in einem Unternehmen.
3.4.2 Anforderungen zur Sicherung der Informations- und Datenqualität Die Leistungs- und Kennzahlenstrukturen eines Geschäftsprozesses müssen – zur Gewährleistung der Nachhaltigkeit – den Kriterien aus 1.1.1 und Anforderungen aus Abb. 7 entsprechen, um eine zuverlässige und dauerhafte Wertschöpfung für Kunden und Unternehmen zu generieren. Eine Problemanalyse ist erst dann im Hinblick auf die Strategieentwicklung und operative Planung sinnvoll möglich, wenn methodisch abgesicherte Informationsund Kommunikationsstrukturen – basierend auf dem Informationsprozess – zugrunde gelegt und konsequent beachtet werden.
3.5 Informationsverarbeitung Mögliche Probleme, die aus dem operativen Geschäft resultieren, rechtzeitig zu erkennen, bevor sie virulent werden, ist eine wichtige Managementaufgabe. Manager lassen sich nicht von vagen Gefühlen sondern von Fakten leiten. Jedoch können Probleme unterschiedlich wahrgenommen werden. Deshalb werden strategische und operative Entscheidungen mit in der Literatur beschriebenen Problemanalysen (u.a. SWOT-Analyse, Pareto-Analyse, Due-Dilligence) abgesichert. Die Problemanalyse führt - direkt im Sinne einer Faktenbewertung (z.B. zur Analyse und Bewertung des Marktpotentials) - zum Risikomanagement - einem für das Management unerlässlichen „Frühwarnsystem“. Denn bei inkonsequenten Entscheidungsprozessen auf der Grundlage von unzureichenden Informationen kön5
Geschäftsziele/Strategien, Analyse/Bewertung des Marktpotentials, Festlegung der Produkte und Dienstleistungen
6
Erfolgskontrolle via Kennzahlen, Analyse/Bewertung von Planabweichungen, Korrekturmaßnahmen bei Abweichungen
341
D Praxisbeispiele nen aus Chancen schnell Risiken (z.B. bei der Festlegung der Produkte und Dienstleistungen) entstehen. Das Risikomanagement (auch im Hinblick auf Kunden und Markt) ist deshalb ein integraler Bestandteil von strategisch und operativ angewendeten Managementsystemen und erfordert somit optimale Datenqualität, die durch systematische und konsequente Anwendung des Informationsprozesses - verbunden mit den ITSystemen - erreicht werden kann.
3.5.1 Operative Planung, Ziele Wesentlicher Inhalt des Prozessbausteins „Informationsverarbeitung“ ist die Strukturierung und Standardisierung der Daten als Grundlage für die Validierung (Abb. 9). Hierbei handelt es sich um ein kontinuierliches Vorgehen zur Sicherstellung der Aktualität und Zuverlässigkeit aller Daten- und Informationsbestände. Ziele definieren konkret die künftig gewünschten Ergebnisse eines Unternehmens. Jedoch können die Primärziele (dargestellt in den BSC-Perspektiven: Finanzen & Kunden) nicht direkt, sondern nur über die Sekundärziele (erfasst in den BSCPerspektiven: Prozesse & Mitarbeiter) erreicht werden. Mit der operativen Planung werden die anteiligen, funktionsspezifischen Ziele festgelegt, Ressourcen zugeordnet und Meilensteine zur Zielerreichung vereinbart.
3.5.2 Festlegung von Kennzahlenstrukturen (KPI7) in der Balanced Scorecard Die TOPAS®-Konzeption stellt einen Standard bereit, um Prozess- Leistungs- und Kennzahlenstrukturen aufzubauen, die Kennzahlen je nach Prozess aufzuschlüsseln, ggf. zu gewichten, zu aggregieren [Haack/Sturm 2002] und den Zusammenhang zwischen den Perspektiven der BSC und den Geschäftsprozessen transparent zu machen. Durch diese Vorgehensweise wird dem Grundsatz „You can´t manage what you can´t measure“ [DeMarco 1998] entsprochen: Denn damit werden die Daten (festgelegte Kennzahlen) mit Managementaufgaben – dargestellt in den Führungsprozessen – korreliert (Abb. 10). Den Prozessbausteinen des Führungsprozesses (Ebene P) sind Leistungen (Ebene L) hinterlegt, die mit definierten Kennzahlen (Ebene Z) analysiert und bewertet werden können (Abb. 10). Der Grad der Zielerreichung wird durch Intervalle der Ampelschaltung angezeigt. Somit werden die Komplexität der Daten reduziert und die Wirkzusammenhänge in Geschäftsprozessen besser erkennbar. Sind die für die Kennzahlen verwendeten Daten ausreichend valide, sind Trendanalysen möglich und Prognosen für die weitere Geschäftsführung vertretbar. Durch die Festlegung der Steuerungsgrößen
7
KPI= Key Performance Indicators
342
3 Informationsqualität für das Management mit TOPAS® (Abb. 10) und die Beschränkung auf wenige Kennzahlen kann somit das Management klare Entscheidungen treffen.
Abbildung 10: Quantifizierung von Prozessleistungen
3.5.3 Sicherung der Informations- und Datenqualität: Kennzahlensteckbrief Zu jeder Kennzahl wird ein sogenannter „Kennzahlensteckbrief“ erstellt (Abb. 11). Er dient dem Management zur zusammenfassenden Dokumentation, Sicherstellung und Nachverfolgbarkeit der Datenqualitätskriterien für die zu verarbeitenden Kennzahlen. Für die Datenqualität und Zuverlässigkeit der Informationen hat der Kennzahlensteckbrief zentrale Bedeutung und bildet somit die Basis für die Erstellung einer Balanced Scorecard. Die Ziele (Ebene Z) und Kennzahlen zur Zielerreichung sind mit den Prozessleistungen (Ebene P und L) verknüpft, so dass bei Plan-/Ist-Abweichungen verursachergerechte Korrekturmaßnahmen möglich sind. Die verschiedenartigen Kennzahlen innerhalb des Gesamtsystems „Balanced Scorecard“ müssen in einem ausgewogenen Verhältnis zueinander stehen. Wesentlich für die Aussagekraft der Kennzahlen sind „valide“ Datenquellen (gewährleistet durch die genannten IT-Systeme), d.h. die erfassten Daten müssen widerspruchsfrei und eindeutig sein. Um die fehlerfreie Verarbeitung solcher Daten und Informationen zu ermöglichen, ist sicherzustellen, dass die zugrunde liegenden Kriterien (Abb. 11: Bezeichnung, Beschreibung, Strategiebezug usw.) eindeutig formuliert sind und überall gleich verstanden werden.
343
D Praxisbeispiele
Abbildung 11: Beispiel eines Kennzahlensteckbriefs aus dem Marketing
3.5.4 Erfolgskontrolle via KPIs: Reviews und Audits Die Erfolgskontrolle wird auf Basis der aus der Strategie abgeleiteten und den (werttreibenden) Prozessleistungen zugeordneten Kennzahlen (Abb. 11) unter Nutzung des Balanced Scorecard-Konzeptes durchgeführt. Reviews und Audits brauchen ein einheitliches, in sich geschlossenes, der Datenund Informationsqualität Rechnung tragendes Berichts-Konzept (Reporting): Für die operative Wirksamkeit ist für die Management-Ebene die Informationsqualität der vernetzten, integrierten Gesamtergebnisse eines Reviews entscheidend. Dem Review-Bericht liegt deshalb zur Sicherung der Informationsqualität (Relevanz, Vollständigkeit) eine Matrix-Struktur zugrunde. Diese enthält als Zeilen die funktionsrelevanten Rubriken der Balanced Scorecard (z.B. Finanzen, Prozesse, Kunden, Innovation, Mitarbeiter) und als Spalten die Regularienanforderungen (z.B. Zielplanung, Chancen/Risiken, Kommunikation, Plan/Ist-Vergleich, Wirksamkeit). Dadurch ist gesichert, dass die Review-Ergebnisse operativ wirksam in der Linie umgesetzt werden.
344
3 Informationsqualität für das Management mit TOPAS®
3.6 Informationsdarstellung 3.6.1 Standard-Reporting mit dem TOPAS®-Prozessmodell
Abbildung 12: Management-Review, Kontinuierlicher Verbesserungsprozess (KVP)
Die in dieser Matrix verarbeiteten Informationen und Daten werden gemäß Abb. 12 im Verbund mit den Prozess-Strukturen im Kaskadenprinzip (vgl. Abb. 8) in das Reporting einbezogen. Durch die Anwendung der Review-Kriterien (Abb. 12 Mitte) sowie die Nutzung der Review-Ergebnisse – dargestellt durch den Kennzahlenverlauf (Abb. 12 rechts) – kann das Management steuernd auf die Geschäftsentwicklung des Unternehmens einwirken.
3.6.2 IT-Portal für das Management: Business Cockpit Ein personalisiertes Portal (Abb. 13, Business Cockpit) ermöglicht den Führungskräften die effiziente Bedienung des Führungs- und Steuerungssystems, indem es technische Barrieren wie z.B. das mehrfache Anmelden bei unterschiedlichen ITSystemen vermeidet. Es selektiert die Werkzeuge und Informationsquellen und fasst diese so zum individuellen „Schreibtisch“ der Führungskräfte zusammen, verdeckt die dahinterliegenden Systeme und vereinheitlicht sowohl die Informationsdarstellung als auch die Bedienung. Das Business Cockpit enthält somit in angemessener Dimension die zur Führung und Steuerung eines Unternehmens notwendigen Daten und Informationen. Die
345
D Praxisbeispiele dahinterliegenden IT-Systeme wurden gemäß der Datenqualitätsanforderungen (insbesondere der Aktualität und Zuverlässigkeit) konfiguriert.
Abbildung 13: Business Cockpit als IT-Portal für das Management
3.6.3 Effizienzsicherung der Prozess-Architektur Über den Review-Prozess werden die Kundenforderungen kontinuierlich in die BSC einbezogen (Abb. 12). Dieses Vorgehen stellt sicher, dass Geschäftsprozessmanagement in der Rückkoppelung mit dem Kunden erfolgt und zum festen Bestandteil der regelmäßig stattfindenden Business Review Meetings (BRM) bzw. des Quarterly Review Meetings (QRM) (Abb. 13 rechts, Shareholders) auf Geschäftsführungsebene wird.
3.6.4 Identifizierung von Korrekturmaßnahmen und Kontinuierlicher Verbesserungsprozess (KVP) Auf der Grundlage von Projektmanagement- und Prozessmanagement-Strukturen werden die (Informations-)Darstellung und Analyse von Abläufen im Unternehmen vorgenommen. Hieraus kann eine wertvolle Hilfe zur Erkennung und Verknüpfung von Schnittstellen zu internen und externen Kunden sowie zur resultierenden Identifikation von Verbesserungspotentialen bereitgestellt werden. Diese werden mit statistischen, wissenschaftlich abgesicherten Methoden (z.B. Scoring
346
3 Informationsqualität für das Management mit TOPAS® Modell) priorisiert und münden in eine Aktionsplanung für KVP-Projekte [Möller et al. 2007] ein. Fachabteilungsübergreifende KVP-Themen werden in Projektteams bearbeitet, in denen der Projektleiter die Aufgaben und Verantwortungen eines Prozesseigners einnimmt. Beispiel hierfür ist ein bereichsübergreifendes Projektteam (Global Business Coordination Committee), das Entscheidungsvorlagen für das Management erarbeitet. Der KVP-Prozess kann nur dann nachhaltig zur Sicherung bestehender Geschäfte sowie zur Unternehmensweiterentwicklung beitragen, wenn dieser von der Geschäftsführung als kontinuierliches Führungs- und Steuerungsinstrument verstanden und konsequent angewandt wird.
3.7 Wirkungsspektrum von TOPAS® TOPAS® - als Führungs- und Steuerungsmodell von Unternehmensprozessen verfügt über folgendes Wirkungsspektrum: – Führung und Steuerung des Unternehmens auf der Grundlage verbindlicher und logischer aufeinander abgestimmter Prozess-, Leistungs- und Kennzahlenstrukturen. – Vernetzung der Prozess- und Leistungsstrukturen mit dem Informationsprozess als Standard zur Gewährleistung abgesicherter Daten und Informationen sowie stabiler Kommunikationsstrukturen (Abb. 14). – Festlegung kritischer Erfolgsfaktoren und gesicherter Steuerungsdaten für das Geschäft, bereitgestellt über das Business Cockpit als IT-Portal, das insbesondere dem Management sicheren Zugang und tagesaktuellen Zugriff ermöglicht. – Datenqualitätssicherung – auch unter dem Aspekt der Normen- und Regularienanforderungen – durch Reviews mit TOPAS® als ganzheitlichem Auditierungskonzept. Die aus den Reviews ermittelten Effizienzsteigerungspotentiale (Abb. 14, schraffierte Fläche) werden genutzt, um die Grenzwerte für eine wirtschaftliche Optimierung der Geschäftsprozesse zu erkennen. Hierfür wird der Informationsprozess (Abb. 9) systematisch durchlaufen. Die Nachhaltigkeit der Anwendung des TOPAS®-Modells ist die Voraussetzung zur Verifizierung (Verwirklichung) der Business Excellence Kriterien (Abb. 15) und damit zur wirksamen Sicherung des Unternehmenserfolgs.
347
D Praxisbeispiele
Abbildung 14: Daten- und Informationsprozess als Grundlage der GeschäftsprozessOptimierung
Abbildung 15: Konsequente Vernetzung von IT- und Geschäftsprozessen
348
3 Informationsqualität für das Management mit TOPAS®
Literaturverzeichnis [Dippold et al. 2005] Dippold/Meier/Schneider/Schwinn: Unternehmensweites Datenmanagement, Wiesbaden 2005. [Kagermann/Österle 2006, S. 27] Kagermann/Österle: Geschäftsmodelle 2010, FAZInstitut für Management, Markt- und Medieninformationen, Frankfurt/M, 2006. [Möller/Hiltmann, 2005] Möller, Frank/Hiltmann, Holger: Geschäftsprozessmanagement bei Merck KGaA, Sparte Life Science & Analytics, In: Ellringmann, Horst und Schmelzer, Hermann J.(Hrsg): Geschäftsprozessmanagement Inside, Hanser Verlag München, 2005. [Haack/Sturm 2002] Daniel Haack/Heiko Sturm: Prozessorientierte Balanced Scorecard in der Managementmethode TOPAS®, Symposion Verlag, Düsseldorf, 2002. [DeMarco 1998] DeMarco, Tom: Controlling Software Projects: Management, Measurement, and Estimation, Englewood Cliffs, NJ: Yourdon Press, 1998. [Möller et al. 2007] Möller/Brust/Becker: Integrierte ProjektmanagementStrukturen als Grundlage für die Identifizierung von Verbesserungspotentialen im operativen Vertriebsprozess. In: Projektmanagement Aktuell, 1/2007, S. 25-31.
349
4 Datenqualitäts-Modell der Volkswagen Financial Services AG Helena Moser
4.1 Einleitung Im Rahmen der Vertriebsaktivitäten und der umfangreichen rechtlichen und regulatorischen Anforderungen u. a. Basel II hat die Volkswagen Financial Services AG (nachfolgend VW FS AG) beschlossen, dem Thema Datenqualität und Datenqualitätsmanagement, insbesondere unter dem Blickwinkel der Konzern Leitlinien Kundennähe, Schaffung von Werten und Höchstleistung, eine hohe Priorität einzuräumen. Die VW FS AG möchte sich dem Thema Drittmarkt/Drittmarktfähigkeit öffnen. Einzelne Dienstleistungen bzw. Prozesse bis hin zu komplexen Geschäftsbereichen sollen drittmarktfähig gemacht werden, um die VW FS AG in die Lage zu versetzen, als Serviceprovider für diese Prozesse am Markt aufzutreten. Deshalb hat die Datenqualität neben der rechtlichen und regulatorischen Komponente eine herausgehobene Stellung. Die Volkswagen Financial Services AG Die VW FS AG ist verantwortlich für die Koordination der weltweiten Finanzdienstleistungsaktivitäten des Volkswagen Konzerns. Über Beteiligungen und Dienstleistungsverträge ist die VW FS AG weltweit mit Gesellschaften in 36 Ländern verbunden. Ziel ist die Ausschöpfung aller Finanzdienstleistungs-Potenziale entlang der automobilen Wertschöpfungskette im Volkswagen Konzern. In der nachfolgenden Auflistung soll ein grober Überblick über die derzeitigen Leistungen der VW FS AG geben werden (Stand März 2007). Finanzdienstleistungen: Kredit/Leasing • Europas führender automobiler Finanzdienstleister in einem skalengetriebenen Geschäftsmodell (29 Länder weltweit, 18 in Europa) • 4,5 Millionen Verträge (inkl. Versicherung) • ‚State-of-the-Art‘-Produktportfolio Versicherungsgeschäft • Europas größter automobiler Versicherungsmakler • Skalengetriebenes Geschäftsmodell
350
4 Datenqualitäts-Modell der Volkswagen Financial Services AG • Weltweit 1,8 Millionen Verträge im Bestand • Innovationsführer bei den Kfz-Versicherungs- und Paketprodukten Paketlösungen • Verbindung von Kredit/Leasing mit Versicherung/Service zu einer festen Rate • ‚Cost of Ownership‘ im Verkauf immer wichtiger Finanzdienstleistungen: Händlerfinanzierung • Finanzierung von Beständen bei Konzernhändlern in Höhe von 7 Mrd. € • Unternehmensfinanzierung für Händler • Entscheidender Erfolgsfaktor für ein funktionierendes Franchise-Netz Flottenmanagement • Volkswagen Leasing ist Europas größtes ‚captive‘ FlottenmanagementUnternehmen • LeasePlan ist Europas größtes/weltweit zweitgrößtes Mehr-Marken-FlottenManagement-Unternehmen (in 28 Ländern vertreten) • 1,6 Millionen Fahrzeuge werden verwaltet (‚Captive‘- und Mehr-MarkenGeschäft) ‚Captive‘-Geschäft: Volkswagen Leasing ‚Non-Captive‘-Geschäft: LeasePlanCorporation (LPC) Direktbank-Geschäft • Die VW Bank als eine der größten deutschen Direktbanken ermöglicht der VW FS AG kostengünstige Refinanzierungskonditionen durch Kundeneinlagen • Eine breite Produktpalette fördert die Kundenloyalität und -bindung • Die VW Bank hat 641.000 Kunden mit Einlagen in Höhe von 8,8 Mrd. € Dieser Beitrag informiert, wie die VW FS AG das Thema Datenqualität positioniert hat und mit praktikablen Ansätzen die Datenqualität halten und verbessern will. Zum Thema Datenqualität wurde ein unternehmensweites Projekt initiiert. Die Projektphase und Ergebnisse werden in diesem Betrag vorgestellt.
351
D Praxisbeispiele
4.2 Das Projekt „Datenqualität Strukturen/Standards und Drittmarktfähigkeit“ 4.2.1 Warum ist Datenqualität nötig? Die Geschäftspartnerstammdaten (wie Name, Anschrift, Geburtsdatum, etc = Bestandsdaten) werden für die VW FS AG und deren Tochtergesellschaften in einem zentralen Geschäftspartnersystem (nachfolgend ZGP) angelegt und gespeichert. Die so genannten „Bewegungsdaten“ (Vertragsdaten) werden in den Vertragsführenden Systemen geführt. Wird ein Geschäftspartner im ZGP nicht korrekt erfasst oder die Prüfung, ob der Geschäftspartner bereits angelegt ist, unterlassen, entsteht eine Dublette. Das heißt, ein Kunde ist im Unternehmen mehrfach vorhanden, vielleicht mit abweichenden Namen, Geburtsdatum oder Adresse. Im Rahmen von Cross Sell Maßnahmen wird er so eventuell mit einem Produkt beworben, das er bereits besitzt. Die Folgen sind unnötige Portokosten, erhöhter Arbeitsaufwand und fehlerhafte Auswertungen. Die Auswirkungen schlechter Datenqualität sind weitreichend. Eine unzureichende Datenqualität erhöht das Risiko von Fehlentscheidungen (Analyse und ReportErgebnisse), vermindert die Schlagkraft in Marketing und Vertrieb, verhindert eine korrekte Berichterstattung (Basel II, MAK) und führt schließlich zu verärgerten Kunden.
4.2.2 Projektauftrag Der Auftrag besteht aus zwei Themenblöcken, die nach der Zieldefinition in ein unternehmensweites Projekt unter dem Titel “Datenqualität Strukturen/Standards und Drittmarktfähigkeit” zusammengefasst wurden.
4.2.2.1 Erster Themenblock Erarbeitung der notwendigen Prozesse, Standards, Verantwortlichkeiten und ggf. Strukturen zur dauerhaften Verbesserung der Datenqualität.
4.2.2.2 Zweiter Themenblock Analyse und Bewertung der existierenden Kundendatenhaltungs-Lösung nach den Kriterien 1) der Abbildbarkeit der Anforderungen z. B.: Datenschutz, Datennutzung, Risiko Management, Basel II, Geldwäschegesetz, Marketing, Vertriebssteuerung/reporting und unterschiedlicher Geschäftsfelder (Bank, Leasing, Versicherungen) bei einer gemeinsamen Haltung der Kundendaten in einem System. 2) der Zweckmäßigkeit vor dem Hintergrund der gesellschaftsrechtlichen Struktur des FS-Teilkonzerns im Vergleich zu anderen Lösungen.
352
4 Datenqualitäts-Modell der Volkswagen Financial Services AG 3) einer möglichen Nutzung der zentralen Kundendatenhaltung für die Kunden Dritter im Zusammenhang mit der Durchführung von Dienstleistungen für diese Unternehmen durch uns.
4.2.3 Projektziel Schaffung von Zuständigkeiten über ein zentrales Datenqualitätsmanagement und dezentralen Daten Owner eines Geschäftsbereiches zur Entwicklung und Optimierung qualitätssichernder Standards für Kunden- und Produktdaten zur Verbesserung der Datenqualität in der VW FS AG Deutschland. Die User werden in der Datenanwendung (Anlage, Änderung und Historisierung) unterstützt.
4.2.4 Ist-Analyse 4.2.4.1 Drittmarkt Um den aktuellen Status in Bezug auf Drittmarkt/Drittmarktfähigkeit und Datenqualität/Datenqualitätsmanagement zu analysieren und aktuelle Entwicklungen aufzunehmen, wurden Interviews mit für dieses Thema relevanten Ansprechpartnern, i. d. R. Führungskräften, durchgeführt. Zusätzlich wurde das im Rahmen von Datenqualität wichtige Thema Drittmarkt/Drittmarktfähigkeit untersucht. Die Interviews ergaben zu diesem Thema, dass die unterschiedlichen Gesprächspartner auch unterschiedliche Auffassungen über die Definition Drittmarkt sowie die Erwartungen und Anforderungen an eine Drittmarktfähigkeit hatten. Im Wesentlichen lassen sich hierbei folgende Auffassungen unterscheiden: ¾
Drittmarkt als Aktivität außerhalb der FS AG
¾
Drittmarkt als Aktivität außerhalb der eigenen Gesellschaft (Bank)
¾
Drittmarkt als Aktivität mit Dritten (analog heutiger Kooperationsmodelle
Allianz, ADAC) Innerhalb des Projektes wurde eine, den Anforderungen der VW FS AG entsprechende Definition erarbeitet.
4.2.4.2 Datenqualitätsanspruch Hinsichtlich eines Datenqualitätsanspruchs können aus den Interviews folgende, wesentliche Ansprüche an die Datenqualität abgeleitet werden: ¾
Übergreifende Beschreibung von Datenfeldern, einheitliches Mapping der Felder
¾
Definition einer Dateneigentümerschaft der vorgehaltenen Daten
353
D Praxisbeispiele ¾
Festlegung von Hierarchien innerhalb der vorgehaltenen Daten
¾
Schutz von Daten über eingeschränkte Datensichten geregelt durch ein
Benutzerberechtigungskonzept Um einen einheitlichen Qualitätsanspruch an die Datenerfassung, sowie an die Datenhaltung zu gewährleisten, muss ein einheitlicher Terminus innerhalb der Systemlandschaft erzielt werden, um versehentliche Missverständnisse innerhalb der Kommunikation zwischen verschiedenen Projektteams auszuschließen. Festgestellt werden konnte, dass der Datenqualitätsanspruch in den Fachbereichen oft an zweiter Stelle steht und die Verarbeitung von Daten nicht unter Qualitätsaspekten sondern unter Kostenaspekten gesehen wird. Anstatt Datenfelder richtig zu füllen werden z. B. 0-Werte eingetragen, um Prozesse schnell und kostengünstig zu gestalten. Die Auswirkungen des „Missbrauchs“ der Datenfelder werden von den bearbeitenden Abteilungen nicht berücksichtigt/verfolgt und sind oftmals nicht bewusst (Datenschutzrechtlich kritisch, Auswirkungen z. B. im Basel II, Reports, Marketing).
4.2.4.3 Verantwortlichkeiten Es besteht keine definierte Verantwortlichkeit für neu erfasste Daten. Speziell im Bereich der Fehlerbehebung ist keine klar definierte Zuständigkeit erkennbar. Datenqualitätsprobleme werden bedingt von denjenigen bereinigt, die das Qualitätsdefizit entdecken. Auskunftsgemäß sind jedoch einige dieser Defizite speziell im Bereich der Datenauswertungen nicht zu klären, da keine fachliche Verantwortung für die Daten vorliegt. Verantwortlichkeiten liegen nur im Rollen- und Berechtigungskonzept des ZGP Systems.
4.2.4.4 Kunden Im Wesentlich kann die Definition Kunde unabhängig von den einzelnen Produkten und Geschäftsprozessen organisatorisch wie folgt abgegrenzt werden: ¾
Konzernexterne (Externe)
¾
Konzerninterne (Gesellschaften und Mitarbeiter der VW AG)
¾
Unternehmensinterne (Mitarbeiter der FS AG)
Je nach Art und Geschäftszweck der Fachabteilung ergeben sich hierbei unterschiedliche Adressaten und Kundenkreise.
4.2.5 Prozessanalyse Im Rahmen des Projektes wurden die Inputkanäle, deren Kern-Geschäftsprozesse und die Überführung der Daten in das Zentrale Geschäftspartner System für die Geschäftsfelder der
354
4 Datenqualitäts-Modell der Volkswagen Financial Services AG ¾
VW Bank GmbH
¾
VW Leasing GmbH
¾
Volkswagen Versicherungsdienst GmbH (VVD)
betrachtet. In Bezug auf das Stammdatenmanagement können drei Kernprozesse unterschieden werden: ¾
Neuanlage eines Kunden
¾
Änderung eines Kunden
¾
Historisierung eines Kunden
Dabei ergeben sich basierend auf dem vom Kunden nachgefragten Dienstleistungs-Spektrum (Bank, Leasing, Versicherung) individuelle Anforderungen an das Stammdatenmodell bzw. das daraus resultierende Datenqualitätsmanagement. Grundsätzlich kann festgehalten werden, dass aufgrund hoher rechtlicher sowie aufsichtsrechtlicher Anforderungen, die durch die Bank zu haltenden Stammdaten die höchste Komplexität bzw. den höchsten Detaillierungsgrad besitzen, gefolgt von Leasing und Versicherung. Weiterhin wurden die möglichen Wege der Stammdatenanlage, -änderung und -löschung untersucht und mit den Arbeitsanweisungen im Organisationshandbuch verglichen.
4.2.6 Sollkonzept Es wurde ein Datenqualitäts-Modell erarbeitet, dass ein zentrales Datenqualitätsmanagement (DQM) und dezentrale Verantwortlichkeiten (Data Owner) für Datenqualitätsstandards (DQS), die für unterschiedliche Geschäftsbereiche spezifisch sein können, ermöglicht. Der Data Owner bildet die Brücke zwischen den Qualitätsansprüchen/-erfordernissen der Geschäftsbereiche, den Datennutzer und den Prozess-Usern. Der User erhält eine technische Unterstützung, die kundenspezifisch die Datenqualitätsansprüche vom Data Owner anzeigt. Grundlage ist ein Ranking und Regelwerk. Transparente Datenqualitätsstandards und ein Ranking ermöglichen kostengünstige Prozesse. Im Sollkonzept wurden Datenqualitätsziele beschrieben und eine Infrastruktur mit Verantwortlichkeitsbereichen und Kompetenzen für bestimmte Daten vorgeschlagen.
4.2.6.1 Ausrichtung Datenqualität Durch die Etablierung der Strukturen und Standards soll die Datenqualität der Kundenstammdaten gesteigert werden. Darüber hinaus wird damit der Kundenservice verbessert bzw. rechtliche und regulatorische Rahmenbedingungen eingehalten. Das entwickelte Datenqualitäts-Modell (nachfolgend DQ-Modell) be-
355
D Praxisbeispiele rücksichtigt die Dateneigentümerschaften, Datenhaltungs- und Datennutzungsrechte und bildet so die Grundlage für drittmarktfähige Prozesse. Das DQ-Modell dient der ¾
Reduzierung der Abbrüche von maschinellen Neuanlageprozessen (z.B. hoher Dublettenaufbau durch Fehlerfassung, Sondergruppen)
¾
Einhaltung der Datenschutzbestimmungen
¾
Einhaltung der Kooperationsverträge, z. B bezüglich Werbeaktionen
¾
Sicherstellung der internen Steuerungsfähigkeit (Entscheidungen basieren auf aus Datensicht korrekten Reports)
¾
Erfüllung der aufsichtsrechtlichen und legislativen Anforderungen, unter anderem:
¾
o
KWG § 25a, Abs. 1
o
KWG § 24c
o
MaRisk
o
Basel II
o
Geldwäschegesetz §14
o
GoB
Verbesserung der Kundenzufriedenheit (Mehrfachansprachen und fehlerhafte Ansprachen werden vermieden)
¾
Verbesserung der Vertriebsleistung/Stärkung der Vertriebsfähigkeit der VW FS AG
¾
Begrenzung von Betriebsrisiken (z.B. Betrugsfälle, Imageschäden)
¾
Reduzierung der Prozesskosten (z.B. Insolvenzrecherche, Dubletten)
¾
Reduzierung von Korrekturmaßnahmen (Bestandsbereinigung)
4.2.6.2 Ausrichtung Drittmarktfähigkeit Um Drittmarktfähigkeit zu erreichen, müssen unterschiedliche Voraussetzungen erfüllt werden, die nachfolgend beschrieben werden: Strategische Ebene ¾
356
Klarer Fokus was wir wollen/was wir können
4 Datenqualitäts-Modell der Volkswagen Financial Services AG ¾
Konzentration auf Kernkompetenz
¾
Vorgabe klarer Rahmenbedingungen für den Outsourcer
Operative Ebene ¾
Prozesse schlank und standardisiert
¾
Einfach gestaltete Prozesse
¾
End-to-End Sicht auf Prozesse
¾
Schaffung klarer Zuständigkeiten und Verantwortlichkeiten
¾
Klar definierte Schnittstellen (In-/Outsourcer)
Technische Ebene ¾
Zukunftsfähige Plattform
¾
Offenes System (Schnittstellen müssen leicht programmierbar sein)
¾
Mehrmandantenfähigkeit
¾
Nutzerfreundliche selbsterklärende Menüführung
¾
Leistungsstarke Reportingengine
Steuerung ¾
Klare Definition Service-Level Agreements. Vereinbarung nachvollziehbarer, messbarer Key-Performance-Indikatoren
¾
Implementierung entsprechender Reporting- und Controlling Instrumente
Rechtliche/Regulatorische Ebene ¾
Einhaltung aller notwendigen rechtlichen Anforderungen insbesondere KWG, Datenschutz, GWG, Compliance
¾
Einhalten aller aufsichtsrechtlichen Anforderungen insbesondere aus MaRisk, Basel II, SolvV
4.2.6.3 Aufbau-/ Ablauforganisation Ein Qualitätsmanagementmodell umfasst in der Aufbau- und Ablauforganisation, die Zuständigkeiten, Prozesse und Mittel für die Qualitätssicherung. Es stellt sicher, dass in allen Bereichen geeignete Prozesse, Richtlinien, Pläne sowie Test- und Prüfverfahren etabliert sind, die die geforderte Datenqualität gewährleisten. Hier-
357
D Praxisbeispiele zu ist eine ständige Überprüfung, Analyse und Verbesserung der gewählten Maßnahmen und durchzuführenden Prozesse erforderlich. Die zur Erreichung von Datenqualität notwendigen Aktivitäten wurden hier auf der operativen Ebene beschrieben.
4.2.7 Das Datenqualitäts-Modell und deren Zuständigkeiten
Zentrales DQM
Übergreifende
Vo rga be n
rd s ta n da
ul.
gS
reg
mu n
e,
358
tim
Vo r St gab an en da D rd Q-s
Ab s
ben rga . Vo
Abbildung 1: Das Datenqualitäts-Modell
s ard
Kommunikation
l egu e, r
Wie soll die Qualitätssicherung erfolgen?
lich
Processing
fil en pro ab s rg ng Vo tigu ch re Be
Dezentrale Data Owner
d tan g S
Client Service
n mu stim Ab
Re ch tlic h
Rechtliche, regul. Vorgaben
ht Rec
Sicherung/Verbesserung, Rechtliche, regulat. Vorgaben
Dezentrale Client Ownership
Wer darf mit Kundendaten arbeiten?
4 Datenqualitäts-Modell der Volkswagen Financial Services AG
4.2.7.1 Datenqualitätsmanagement (zentrales DQM) Aufbauorganisatorisch sollten die Aufgaben des Datenqualitätsmanagement in der Zuständigkeit einer zentralen Einheit bestehen. Das DQM koordiniert die Wünsche von verschiedenen Interessensvertretern, z. B. Externe Kunden: ¾
„Endkunden“
¾
Kooperationen (Partner, Kunden)
¾
Drittmarkt (Kunden, Kunden der Kunden)
Interne Kunden: ¾
Client Service
¾
Projekte
¾
Produktmanagement
¾
Management
¾
Marketing/CRM
¾
Interne Revision
¾
Finanzen/Meldewesen
Tabelle 1: Kernaufgaben zentrales DQM Aufgabe Rechte Qualitätsplanung
Pflichten ¾
Rechtliche und regulatori-
¾
Ganzheitliche Sicht zur Berücksichtigung und
sche Vorgaben aufnehmen
Einhaltung der rechtli¾
Anforderung an die Stamm-
chen und aufsichtsrecht-
datenqualität festlegen
lichen Anforderungen ¾
Abstimmung mit den betroffenen Einheiten, Bedürfnisse und Erwartungen erfassen,
359
D Praxisbeispiele ¾
Vorgaben transformieren, Qualitätsmerkmale auswählen, klassifizieren und gewichten,
¾
Kommunikation - Weitergabe von Informationen, die die Kundendaten betreffen
Qualitätslenkung
¾
Maßnahmen zur Erreichung ¾ der Prozesskonformität er-
¾
¾
DQ-Maßnahmen zur Risi-
Messen der Stammdatenund Prozessqualität
greifen Qualitätssicherung
Prozesskenntnis
¾
kominimierung ergreifen
Strukturelle Unterstützung der Qualitätsplanung und -lenkung,
¾
Risikoanalyse
¾
Fehleranalyse
¾
Überwachung und Weiterentwicklung des DQModells.
Qualitätsverbes¾ serung ¾
Vorgabe Qualitätsverbesse-
¾
DQ-Controlling
rung
¾
Prüfen von Anfra-
Initiierungsbefugnis zur Um-
gen/Vorschläge von Data
setzung centerübergreifender
Owner und Client Owner
DQ-Maßnahmen Organisation
¾
Regelungsgeber
¾
Erkennen und Nutzen von Synergien zwischen den verschiedenen DO (Framework)
360
4 Datenqualitäts-Modell der Volkswagen Financial Services AG
4.2.7.2 Data Owner (dezentral) Unter dem Data Owner wird die umfassende Verantwortung eines Fachbereichs für Datenqualitätsstandards und Dateninhalte verstanden. Der Data Owner hat die fachliche Kompetenz, Dateninhalte auf Produktebene zu definieren. Die Dateneigentümerschaft hat verpflichtenden Charakter. Den Dateneigentümern entstehen Rechte und Pflichten. Tabelle 2: Kernaufgaben Data Owner
Aufgabe
Rechte
Konkrete Umsetzung ¾ DQM Konzept
Pflichten
Entwicklung/Optimierung Da- ¾
Umsetzung der
tenqualitätsstandards unter Be-
Vorgaben des
rücksichtigung der fachlichen
zentralen DQM
Bedürfnisse in Abstimmung mit ¾
Kommunikation
dem DQM und Client Services
Qualitätslenkung
¾
Arbeitsanweisungen entwickeln
¾
Qualitäts-Prozesse mitgestalten ¾
Qualitätsprüfun-
¾
Definition von Feldinhalten
gen: Überwachung der Einhaltung der Qualitätsstandards auf Client Service Ebene für eigene Daten Ownerschaft
Qualitätssicherung
¾
Qualitätssicherungsmaßnahmen ¾
Kenntnis der Pro-
vorgeben, um Risiken zu be-
dukte, um Risiken
kämpfen
zu erkennen ¾
Überwachung und Weiterentwicklung des DQ-Modells.
361
D Praxisbeispiele Qualitätsverbesserung
¾
Verbesserungsprojekte umsetzen lassen (z.B. Bestandsbereinigung vornehmen lassen)
Organisation
¾
Vorgaben gegenüber Client
¾
Kommunikation
Service bzgl. Datenqualitäts-
und Teilnahme im
standards, Dateninhalte
DQ Zirkel ¾
Einbeziehen des DQM und Mitteilungspflicht
4.2.7.3 Client Owner (dezentral) Unter dem Client Owner (CO) wird die rechtliche Eigentümerschaft für bestimmte Kunden oder Kundenkreise verstanden. Der CO kann die Nutzungshoheit über diese Kunden oder Kundenkreise bestimmen. Durch Einbeziehung der Client Owner in unternehmensweite Standards entstehen Rechte und Pflichten. Tabelle 3: Kernaufgaben Client Owner Aufgabe
Rechte
Pflichten
Umsetzung DQM Konzept
¾ Bestimmung Vorgaben und ¾
Überwachung der Ein-
Überwachung von Nut-
haltung der Rollenkon-
zungsrechten
zepte auf Client Service Ebene ¾
Informationspflicht bei Änderung/Anpassung von Nutzungsrechten
Qualitätsverbesserung
¾ Verbesserungsprojekte umsetzen lassen (z. B. Bestandsbereinigung „seiner“ Kunden vornehmen lassen)
362
4 Datenqualitäts-Modell der Volkswagen Financial Services AG Organisation
¾ Vorgaben bzgl. Berechtigungsgruppen/Nutzer
4.2.7.4 Client Service (Benutzergruppen) Benutzergruppen sind Gruppen, die über ein Rollen- und Berechtigungskonzept nach Vorgabe der Client Owner die Nutzungsrechte an einem Kunden haben. Tabelle 4: Aufgaben Client Service Aufgabe
Rechte
Umsetzung DQM Konzept
¾ Kann Anforderungen stellen ¾ Umsetzung Vorgaben bzgl. benötigten Standards, etc. ¾ Data Input, Neuanla-
Pflichten
zentrales DQM und DO ¾ Information an DO und zentrales DQM bei
ge/Änderungen von Kun-
Inplausibilitäten, fehlen-
dendaten
den Feldern/Standards, etc.
4.2.7.5. Freigabe- und Eskalationsprozesse Der Eskalationsprozess beschreibt die Kommunikationswege sowie den Eskalationszeitrahmen und die Ansprechpartner beim Auftreten eines DQ-Problems. Der Eskalationsprozess tritt vor allem dann ein, wenn zur Klärung eines DQ-Problems keine Lösung (z. B. zwischen zwei Daten Ownerschaften) gefunden werden kann. Jede Eskalationsebene hat die Aufgabe, schnellstmöglich die Ursache zu beseitigen. Sollte dies nicht möglich sein, so ist das Thema unverzüglich in die nächste Ebene zu eskalieren. Der Eskalationsprozess basiert auf drei definierten Eskalationsstufen: 1.
Adressierung & Klärung (über vorgeschriebene. Kommunikationswege),
2.
Ersteskalation und
3.
Krise (Vorstandsbeschluss)
363
D Praxisbeispiele Weiterhin ist in den Freigabe- und Eskalationsprozessen die Budgetverantwortung definiert. Diese Prozesse ermöglichen dem DQM, den Daten Owner und den Operativen Bereiche eine effiziente Klärung und Bereinigung von DQ-Problemen.
4.2.8 Das Datenqualitäts-Modell und sein Regelwerk Das Regelwerk beschreibt, wie jedem Kunden der gültige Datenqualitäts-Standard zuordnet und anzeigt wird. Der dezentrale Data Owner (fachliche Zuständigkeit) definiert die Qualitätsstandards. Jeder Kunde wird einer Data Ownerschaft und somit bestimmten Qualitätsstandards zugeordnet. Diese Zuordnung ermittelt sich aus den Produkten, die der Kunde in Anspruch nimmt bzw. in Beziehung steht (z. B. Kontoinhaber, Vollmachtnehmer, gesetzlicher Vertreter). Unter Beziehungen werden im Projekt Kunden im „weiteren Sinne“ verstanden, z. B. gesetzl. Vertreter, Vollmachtnehmer, Kontoinhaber, Bürge, Fahrzeughalter, abweichender Kontoinhaber, Ehegatte, Bankbevollmächtigte. Ein Kunde kann Produktkombinationen unterschiedlicher Gesellschaften (z. B. Finanzierung/Leasing und Versicherung) haben. Es besteht ein Zusammenhang (1:1 Beziehung Kunde und Data Ownerschaft) zw. Produkt einer Gesellschaft sowie Produkt eines Kunden. Für die Eindeutigkeit der Daten Ownerschaft ist das generelle Ranking (Gesellschaften Bank, Leasing, VVD) und die Produkte und Beziehungen einer Gesellschaft ausschlaggebend. Aus der Produktklassifizierung/schlüssel und dem zuständigen Geschäftsbereich ergibt sich die eindeutige Data Ownerschaft und somit die für den Kunden geltenden Qualitätsstandards. Diese Qualitätsstandards werden, wo erforderlich, auf Feldebene beschrieben und im System abgebildet. Sofern bei einem Bestandskunden ein Produkt und/oder eine Beziehung hinzu kommt bzw. sich verändert, wird der Qualitätsstandard geprüft und ggf. angepasst. Dieser Prozess erfolgt maschinell und wird als Wanderung bezeichnet. Welche Veränderungen zur maschinellen Anpassung der Anzeige einer Data Ownerschaft und deren Qualitätsstandards führen, wurden in Produkt- und Beziehungstabellen definiert (neue Vertragsabschlüsse, bestehender Vertrag wird z. B. inaktiv). Eine Anzeige des Standards erfolgte in der ersten Projektphase bei den Prozessen: Geschäftspartner -Suche, -Anlegen, -Änderung und -Historisierung der Daten. 1.
Gesellschaft
Kundengruppe
Bank
1a) 1b) 1c)
2.
Leasing
2a) 2b)
364
4 Datenqualitäts-Modell der Volkswagen Financial Services AG 3.
VVD
3)
4.
Drittmarkt/Kooperationspartner
4)
Abbildung 2: Zuordnung der Qualitätsstandards über ein Regelwerk
4.2.9 Monitoring/Reports Es muss sorgfältig entschieden werden, mit welcher Methode man die Daten qualitativ verbessern möchte. Man unterscheidet dabei zwischen Korrekturmaßnahmen (Fehlererkennung und -korrektur) und Präventivmaßnahmen (Prozesskontrolle und Verbesserung, Prozess Design). Das nachträgliche Bereinigen von Daten im Rahmen eines Data-Cleansing-Prozesses ist zwar eine weit verbreitete Methode, die aber sehr kostenintensiv ist und gänzlich versagt, wenn Daten nicht vorhanden sind, widersprüchlich oder falsch sind. Deshalb und gemäß den Anforderungen aus der Interviewphase wird in diesem Sollkonzept zur Datenqualität auf die Präventivmaßnahmen eingegangen, also auf Verfahrenskontrolle und Verbesserung. Die Präventivmaßnahmen folgen der Aufbau- und Ablauforganisation. Die Datenqualitätsmessung besteht aus folgenden vier Grundelementen:
Datenanalyse
Regelformulierung
Messung
Ursachenanalyse
Abbildung 3: Grundelemente der Datenqualitätsmessung Durch das Reporting und die Visualisierung über Dashboards wird für das zentrale DQM und die Daten Owner deutlich, wo Standards nicht erreicht werden, wo Ausnahmen/ Besonderheiten vorliegen und wo Handlungsbedarf und Problemlösungen gefragt sind. Die neuen Zuständigkeiten formulieren und adressieren auf dieser Basis die notwendigen Maßnahmen. Dies erfolgt im Rahmen ihrer definierten Aufgaben und wird unterstützt durch den festgelegten Eskalationsprozess (siehe Kapitel 2.7). Die Datenqualitätsmessung erfolgt einerseits aufgrund von automatisierten regelmäßigen Qualitätskontrollen, bzw. andererseits aufgrund von Ad-hoc Anfragen, die sowohl von Seiten des zentralen DQM als auch auf Anforderung von anderen Geschäftsbereichen, respektive Daten Owner erfolgen kann. In regelmäßigen, kurzen Abständen wird die Qualität relevanter Datenfelder (Pflichtfelder und weitere vom zentralen DQM festgelegte relevante Felder) ge-
365
D Praxisbeispiele messen. Hier soll eine Messung erfolgen, deren Ergebnis eine Aussage darüber treffen lässt, mit welcher Qualität und bis zu welchem Grad Felder gefüllt sind und gefüllt werden. Eine weitere wichtige Messung ist die permanente Auswertung der Dubletten. Hier wird unterschieden, welche Dubletten zu der Dublettenmenge „gewollte Dubletten“ gehört und welche Dubletten „echte“ Dubletten sind, die aus Datenqualitätssicht unbedingt bereinigt werden müssen. Bei der Messung der Dubletten spielen das Entstehungsdatum und vor allem auch der Entstehungsort eine große Rolle, um die Ursachen und die verursachenden Bereiche herauszufinden. Ad-hoc Messungen ergeben sich meist aus aktuellen Anlässen, die sich entweder aus dem Tagesgeschäft, aus Projekten oder sonstigen Ereignissen ergeben, die es nötig machen Qualitätsaussagen bezügliche bestimmter Daten zu machen.
4.2.10 Realisierungs- und Einführungsphase Der Aufbau des Regelwerkes erfolgt im DataWarehouse. Hier erfolgt die Zuordnung des Kunden zu einer Daten Ownerschaft. Die generierte Information wird in den ZGP transportiert und den Anwendern angezeigt. Neben der IT-Realsierung werden in dieser Phase u. a die Tests, die Kommunikation, Schulung erarbeitet und durchgeführt, die Arbeitsanweisungen eingeführt, die Reports und Kennzahlen für das Monitoring aufgebaut, der Change Prozess verstärkt und der Support ausgeplant. Go live der ersten Phase erfolgte im Herbst 2007, bis Ende des Jahres fanden der Support und Change Requests (stetige Optimierung) statt. In der ersten Projektphase wurden ausschließlich für bestimmte Kundenstammdaten Qualitätsstandards definiert und sowohl in der Bestandbearbeitung als auch in der Inputdatenbearbeitung (Neuanlage eines Kunden) angezeigt. Der Fokus liegt hier auf den kritischen Datenfeldern, so dass bereits früh mit einer verbesserten Datenqualität zu rechnen ist. In den Folgephasen werden weitere Kundengruppen, weitere Datenfelder auch aus den operativen Systemen (Vertragssysteme) untersucht.
4.3 Fazit Das Projekt startet bewusst mit der Schaffung von Zuständigkeiten, da so Verantwortlichkeiten, Standards, Prozesse und ein Bewusstsein für Datenqualität aufgebaut werden, die präventiv wirken. Datenqualitätsprobleme sind adressierbar und werden im Vorfeld verhindert bzw. Fragestellungen geklärt. Maßnahmen, die der Bereinigung schlechter Datenqualität dienen, laufen zum Teil parallel, zum Beispiel getrieben aus den Anforderungen Basel II oder der allgemeinen Dublettenproblematik.
366
4 Datenqualitäts-Modell der Volkswagen Financial Services AG Mit den Projektphasen wurde weiterhin ein pragmatischer und ressourcengetriebener Ansatz gewählt, um den neu benannten Data Owner und der zentralen Zuständigkeit DQM die Möglichkeit zu geben, in die Thematik und ihre Aufgaben rein zuwachsen und auch die einzelnen Entwicklungsstufen (Projektphasen) mit den Anwender zu erproben. Auch diese Vorgehensweise unterstützt den Prozess des Datenqualitätsbewusstseins. Datenqualität ist eine Daueraufgabe. Im Rahmen einer unternehmensweiten Studie wurden weitere Betätigungsfelder zur Optimierung der Datenqualität formuliert, die sukzessiv über die aufgebauten Zuständigkeiten aufgegriffen werden und neben den neuen Daueraufgaben über Teilprojekte in die Realisierung gehen. Eine notwendige Maßnahme zur Unterstützung des Datenqualitätsmanagements ist die Sensibilisierung aller Mitarbeiter, insbesondere der Datenerzeuger bzw. der Fachbereiche für dieses komplexe Thema. Ein Datenqualitätsbewusstsein wird verstärkt durch konkrete Maßnahmen bspw. die Einführung von Incentives für hohe Datenqualität oder die Aufnahmen von Datenqualitätszielen in die Balance Scorecard. Auch durch eine Offenlegung von tatsächlichen Qualitätsproblemen und deren Auswirkungen kann ein stärkeres Bewusstsein für die Problematik geschaffen werden. Allen, die sich der Thematik stellen, wünsche ich viel Erfolg! (Helena Moser, Projektleiterin)
367
5 Verknüpfung von DQ-Indikatoren mit KPIs und Auswirkungen auf das Return on Investment 5 Verknüpfung von DQ-Indikatoren mit KPIs und Auswirkungen auf das RoI
Frank Block Häufig ist nicht klar, welche Beziehungen zwischen Datenqualitätsindikatoren (DQI, Definition folgt weiter unten) und Key Performance Indicators (KPI, s. Abschnitt 1.3 für weitere Details) eines Unternehmens oder einer Organisation bestehen. Dies ist insbesondere deshalb von Bedeutung, da die Kenntnis dieser Beziehungen maßgeblich die Ausprägung eines Datenqualitätsprojekts beeinflusst. Sie ist als Entscheidungsgrundlage unabdingbar und gibt Antworten auf folgende Fragen: – Was kostet unserem Unternehmen/unserer Organisation1 schlechte Datenqualität? Können wir uns das leisten? – Was bringt die Verbesserung der Datenqualität um 30% in einem gegebenen Informationsgebiet? – Was kostet die Verbesserung der Datenqualität? Stimmt der Business-Case für das Datenqualitätsprojekt? – Wie müssen die verschiedenen DQ-Projekte priorisiert werden? – Wie sieht die DQ-Roadmap für unser Unternehmen aus, d.h. wann muss was in Sachen DQ geschehen, damit es optimal für die Erreichung der Unternehmensziele ist? Erst wenn bekannt ist, wie die verschiedenen DQI mit den Unternehmens-KPI zusammenhängen, ist es möglich zu verstehen, welche DQI verbessert werden müssen, um einen gewünschten Effekt auf die Unternehmensperformanz zu erreichen. Es kann z.B. aus technischer Sicht sinnvoll erscheinen, sämtliche Datendefekte in einem bestimmten Informationsgebiet zu eliminieren, d.h. eine perfekte Datenqualität zu erzielen. Aus einer unternehmerischen Perspektive hingegen mag dies völlig irrelevant, bzw. sogar kontraproduktiv sein, da eventuell die benötigten Ressourcen nicht im Einklang mit den zu erwartenden Verbesserungen stehen, d.h. der resultierende Business Case negativ ausfällt. Um zu vermeiden, dass eine technische Sichtweise auf Datenqualität dominiert und bestimmt, welche DQ-Projekte mit welcher Priorität durchgeführt werden, wird im Folgenden eine Vorgehensweise erläutert, die es erlaubt mit Fokus auf den Unternehmenserfolg bei der Erstellung der DQ-Roadmap vorzugehen. 1
Im Folgenden wird der Begriff Unternehmen stellvertretend für Organisationen genereller Art verwendet (Firmen, Ämter, etc.), die durch und für ihre Tätigkeiten Daten produzieren bzw. benötigen.
368
5 Verknüpfung von DQ-Indikatoren mit KPIs und Auswirkungen auf das RoI Zunächst wird anhand einiger Beispiele erläutert, wie sich DQ-Probleme auf Unternehmen auswirken und inwiefern Performanzfaktoren beeinträchtigt werden. Im Hauptteil dieses Kapitels wird ein Prozess beschrieben, der ein KPI-orientiertes DQ-Management ermöglicht. Datenqualitätsindikatoren (DQI) Datenqualität wird als ein mehrdimensionales, hierarchisches Konzept verstanden. Um DQ messbar zu machen, wird jeder Dimension eine Masszahl bzw. ein DQ-Indikator (DQI) zugeordnet. Ein DQI kann wiederum mehrere Unterdimensionen enthalten. Durch Aggregationsregeln ist es möglich von DQ-Unterdimensionen auf DQ-Hauptdimensionen zu schließen. Das im Verlaufe dieses Kapitels genannte DQI-Modell beruht auf dem «Product and Service Performance Model for Information Quality » Ansatz [Wang 2002] in dem ein Haupt-DQI wie Brauchbarkeit eingeführt wird, das wiederum aus den Unter-DQI Glaubwürdigkeit, Manipulierbarkeit und Reputation der Daten oder Datenquellen sowie Einfachheit des Datenzugriffs besteht.
5.1 Beispiele zur Illustration von DQ-Problemen Im täglichen Geschäftsleben ist man sehr häufig mit verschiedenen Aspekten der Datenqualität konfrontiert. Je nach eigener Rolle im Unternehmen verändert sich die Wahrnehmung von Qualität. Generell jedoch gilt: Der Begriff Datenqualität erhält erst durch die Anwendung von Daten einen Sinn. Daten, die nie verwendet werden, sind aus der Qualitätsperspektive irrelevant. Also verleihen in erster Linie die Datennutzer dem Begriff Qualität einen Inhalt. Typische Aussagen von Mitarbeitern, die sich bei der Begegnung mit Qualitätsproblemen ergeben, sind z.B. – Die Daten in meinem Bericht sind nicht realistisch, vielleicht fehlen noch Validierungsregeln. Außerdem stimmen sie nicht mit den Werten aus dem Controlling überein. – Es gab ein Missverständnis bei den Datentransformationsregeln. – Ich wollte die aktuellen Finanzzahlen. Dies hier aber sind die Forecasts. – Das Dashboard Layout entspricht nicht meinen Bedürfnissen. Dies kann sehr schnell zu Frustsituationen bei den Mitarbeitern führen: – – – – –
Meine Daten sind falsch… Ich verstehe diese Daten nicht, ich kann sie nicht interpretieren. Diese Applikation funktioniert nicht richtig. Mir fehlen noch Informationen für die Erfüllung meiner Aufgaben…. Unser Data Warehouse taugt nichts!
Je nach Rolle des Mitarbeiters kann die Auswirkung schlechter DQ mehr oder weniger gravierend sein. Im DQ-Kontext werden verschiedene Rollen unterschieden:
369
D Praxisbeispiele – Senior Manager: hat leitende Aufgaben, beaufsichtigt ein Team von Mitarbeitern, das sich normalerweise eines Portfolios von Datenquellen und Applikationen bedient. – Daten-/Applikationsnutzer: nutzen Daten – meistens durch Anwendung von Applikationen – für ihre tägliche Arbeit. Häufig produzieren Personen in dieser Rolle auch wiederum neue Daten (Dateneingabe) oder transformieren bestehende Daten (Datenaggregation). – Daten-/Applikationsverantwortlicher: „verwaltet“ Datenbestände, Datenbanken und Applikationen; meistens eher technisch orientiert und nicht Endnutzer der Daten. Allen Rollen gemein ist, dass sie Probleme mit der Datenqualität haben können, die sich negativ auf den Unternehmenserfolg in folgenden Aspekten auswirken: – Prozesse: Fehleranfälligkeit nimmt zu, Prozessdauer steigt, Anzahl benötigter Personen und Menge an technischen Ressourcen nimmt zu, Kosten steigen aufgrund suboptimaler Ressourcennutzung an, Qualität der Prozessergebnisse nimmt ab. – Mitarbeiter: Zufriedenheit nimmt ab, da zunehmend Zeit mit sinnlosen und manuellen Tätigkeiten verschwendet wird; Arbeitsergebnisse mit schwankender Qualität; Produktivität nimmt ab, da zum einen das Frustrationspotenzial steigt und zum anderen Mitarbeiter für Tätigkeiten eingesetzt werden, die nicht ihren Fähigkeiten entsprechen. – Kundenbeziehungen: Kundenrentabilität nimmt ab, Kundenzufriedenheit nimmt ab, Kundenabgänge nehmen zu, Akquirieren neuer Kunden wird schwieriger. – Umgebung: Compliance und rechtliche Auflagen werden nicht eingehalten, interne Direktiven kommen nicht korrekt zur Anwendung, Business Regeln werden ignoriert oder vergessen.
5.2 Wie wirken sich DQ-Probleme auf Unternehmen aus – Der Zusammenhang zwischen Daten- und Prozessqualität Prozesse sind das Kernelement für viele Unternehmen. Sie können ihnen einen Konkurrenzvorteil verschaffen, wenn sie optimal ablaufen, bzw. einen Konkurrenznachteil, falls sie fehlerhaft, langsam und kostspielig ablaufen. Daher ist es von Bedeutung, den Einfluss der Datenqualität auf Prozesse und insbesondere deren Qualität zu beleuchten. Verschiedene Beispiele sollen dabei helfen, den Sachverhalt darzulegen.
5.2.1 Beispiel – Call Center Call Center (CC) Agenten sind in großem Masse von der Qualität der auf ihren Bildschirmen angezeigten Kundeninformationen abhängig. Das Call Center stellt
370
5 Verknüpfung von DQ-Indikatoren mit KPIs und Auswirkungen auf das RoI in zunehmendem Maß eine wichtige Schnittstelle zu den Kunden dar und ist häufig ihre erste und einzige Anlaufstelle. Sollten Kundendaten fehlerhaft, nicht rasch verfügbar oder von mangelnder Aktualität sein, sind die CC-Agenten nicht in der Lage, ihren Kunden individuell abgestimmten, d.h. guten Service zu liefern. Häufig tritt der Fall ein, dass DQ-Probleme sich manifestieren wenn z.B. ein kürzlich in Betrieb genommenes CRM-System dem Call Center als neue Datenquelle dienen soll. Nachdem die Agenten einige Male auf DQ-Probleme gestoßen sind, die von negativen Kundenreaktionen begleitet wurden, da diese nicht begreifen konnten, wieso das Unternehmen so wenig bzw. so viel Falsches über sie weiß. Sehr rasch resignieren die CC-Agenten und sind demotiviert. Ihr Misstrauen in die Qualität der Daten drängt sie dazu, wieder auf ihre alten, oft manuellen Lösungen zurückzugreifen bzw. ihre eigenen „Insellösungen“ zu entwickeln. Als Konsequenz ergibt sich folgendes Szenario: – Die Produktivität des Call Centers (z.B. Anzahl beantworteter Anrufe, Anzahl richtig behandelter Anrufe) nimmt ab. – Bedeutende Investitionen in neue CRM-Systeme und Datenintegrationsprojekte riskieren zum Fiasko zu werden, da die Userakzeptanz sehr niedrig ist. – Es entstehen weitere Kosten dadurch, dass Insellösungen (wieder) florieren, die mangelhaft in die IT-Landschaft des Unternehmens integriert sind. – Selbst wenn die Qualität des CRM-Systems verbessert wird, dauert es sehr viel länger, das Vertrauen der User zurückzugewinnen, als es zu verlieren.
5.2.2 Beispiel – Kundenbeziehungsmanagement (CRM) Hauptziel des CRM ist es, neue Kunden zu akquirieren, bestehende Beziehungen weiterzuentwickeln und langfristig zu halten, so dass sowohl der Kunde als auch das Unternehmen ihre Vorteile maximieren. Hierzu ist es notwendig, Detailkenntnisse über die Kundenbeziehungen, die das Unternehmen pflegt, zu haben. Dies ist insbesondere dann eine Herausforderung, wenn es sich um Tausende oder Millionen von Kunden handelt, die massive Datenmengen hinterlassen haben: jeder Kunde hat seine eigene Geschichte, sein eigenes Produktportfolio usw. Im Rahmen des CRM wird versucht, aus diesen Daten ein klares Bild von vergangenen, aktuellen und zukünftigen Kundenbedürfnissen abzuleiten, um eine individuelle Behandlung zu gestatten. Die Anwesenheit schlechter Daten bewirkt folgendes: – Die Berechnung des aktuellen und geschätzten (zukünftigen) Kundenwerts (Potenzial) ist unmöglich bzw. sehr ungenau. – Kundenbedürfnisse können kaum oder nur sehr unpräzise vorhergesagt werden.
371
D Praxisbeispiele Folglich können die in einzelne Kundenbeziehungen investierten Ressourcen (Marketing, Vertrieb, Kundenservice) nicht in Abhängigkeit von individuellen Kundenpotenzialen und Bedürfnissen optimiert werden. Dies führt zu konkreten Problemen bei der Pflege der Kundenbeziehungen: – Verpasste Geschäftsopportunitäten: Der Vertrieb erkennt gute Cross-Sell2 Opportunitäten nicht oder dort, wo es de facto keine oder sehr schlechte gibt. – Churn Management: Abgangsgefährdete Kunden werden nicht rechtzeitig erkannt und notwendige Retentionsmaßnahmen nicht ergriffen, wodurch die Kundenabgangshäufigkeit zunimmt. – Kundenpotenzial: Gute Kunden werden behandelt wie schlechte und umgekehrt. Dadurch werden Mittel aus Marketing, Vertrieb und Service dort eingesetzt, wo es sich nicht lohnt. – Risikomanagement: Kunden mit hohem Risiko- bzw. Betrugspotenzial werden nicht erkannt und Geschäfte mit ihnen nicht rechtzeitig unterbunden. Dadurch können hohe Verluste für das Unternehmen entstehen. Insgesamt verschlechtert sich also die Qualität der Kundenbeziehungen als Folge schlechter Datenqualität.
5.2.3 Beispiel – Data Mining Prozess im Marketingumfeld Ein Unternehmen hatte ihre Abteilung für Kundenanalysen beauftragt, mittels Data Mining Methoden ein Vorhersagemodell zu entwickeln, das angeben sollte, welcher Kunde sich für ein bestimmtes Produkt interessieren könnte. Eine Zielgruppenselektion aller Kunden mit einer hohen vorhergesagten Produktaffinität sollte dann die Basis für eine Kampagne darstellen, die gute Verkaufraten erzielen sollte. Also entwickelten die Data Miner die gewünschten Modelle und die Kampagne wurde lanciert. Es bestätigten sich sogar die Erwartungen und gute Verkaufsraten wurden erzielt. Leider stellte sich nach Abschluss der Kampagne heraus, dass das angebotene Produkt inhärent unprofitabel war. D.h. jedes Mal, wenn es ein Kunde kaufte, verlor das Unternehmen dabei Geld. Es war ein Verlustgeschäft. Kurz darauf wurde das Produkt aus dem Sortiment des Unternehmens gestrichen. Ein zunächst als erfolgreich abgeschlossen eingestufter Arbeitsprozess musste beim genauen Hinschauen als einer mit denkbar ungünstigem Ergebnis bewertet werden. Dies zeigt den Einfluss einiger DQ-Indikatoren auf diesen Prozess:
2
Cross-Selling bedeutet, dass einem bestehenden Kunden ein weiteres Produkt oder eine weitere Dienstleistung verkauft wird
372
5 Verknüpfung von DQ-Indikatoren mit KPIs und Auswirkungen auf das RoI – Vollständigkeit: im geschilderten Fall fehlte den Data Minern die Information über den Deckungsbeitrag oder zumindest den Kostenbeitrag des betrachteten Produkts. – Relevanz: die Daten müssen für die zu beantwortende Fragestellung relevant sein. Im obigen Beispiel waren die Daten nicht hinreichend relevant, um die Aufgabe Frage aus Sicht des Unternehmens korrekt zu beantworten. Sonst wäre das Produkt erst gar nicht auf den Markt gebracht worden.
5.2.4 Beispiel – Direktmailprozess Eine Bank hatte ihre allgemeinen Geschäftsbedingungen verändert und musste dies nun seinen Kunden mitteilen. Die für Kundenselektionen und Mailings verantwortliche Abteilung sollte dies erledigen. Auftraggeber war die Rechtsabteilung, die die Zielgruppe für das Mailing etwa so beschrieb: „Es müssen alle Kunden angeschrieben werden. Absolut ALLE! Wenn wir auch nur einen vergessen, könnten wir Probleme bekommen!“ Dies stellte leider eine ungenaue Zielgruppenbeschreibung dar, da nicht klar war, was alle Kunden bedeuten sollte. Aufgrund mangelnder Definition von Businessregeln war weder klar was alle noch Kunden bedeutete und somit war es nicht einfach, dies in eine technische Selektion der Zielgruppe umzusetzen. Folglich fasste der Auftragnehmer die Zielgruppe so weit wie möglich, um niemand aus der Zielgruppe auszuschließen, und eine entsprechende Kundenselektion lieferte die Basis für das Mailing. Wenige Tage nach Versand der Briefe begannen die Probleme: – Unerwartet große Mengen an Briefen konnten nicht an den Adressaten ausgeliefert werden und wurden zurückgeschickt. – Ehemalige Kunden schickten Reklamationsschreiben oder riefen im Call Center an, um sich über den Erhalt eines an Kunden gerichteten Schreibens zu beschweren. – Manche Kunden kannten den CEO der Bank persönlich und wendeten sich direkt an ihn, was eine große Welle interner Aktivitäten auslöste zur Untersuchung der Gründe für das Geschehene. Die Ursachen für diese Ereignisse und deren Folgen waren mannigfaltig (ganz nach dem Motto „ein Problem kommt selten allein“).
373
D Praxisbeispiele Tabelle 1: DQ-Probleme im Direktmailprozess
Problembeschreibung Adressqualität: Teilbestände des Kundenstamms wiesen eine mangelhafte Adressqualität auf. Die Daten waren nicht aktuell, viele Kunden waren bereits umgezogen.
Folgen Briefe wurden von der Post an die Bank zurückgeschickt, wodurch Zusatzkosten entstanden. Das Back-Office war personell nicht auf die Bearbeitung einer derart großen Menge an retournierten Briefen vorbereitet.
Interpretierbarkeit der Daten: Die Interpretation der Kundendaten für die Zielgruppenselektion war sehr schwierig, da von bestimmten Abteilungen verwendete Businessregeln der Mailingabteilung nicht bekannt waren. Daher wurden fälschlicherweise Kundenrecords selektiert, die ehemalige und nicht aktuelle Kunden darstellten. Eine Kombination verschiedener Kundenattributswerte (z.B. das einzige Produkt, das der Kunde noch besaß ist eine Hypothek ist und der Saldo Null ist) bedeutete, dass der Kunde die Bank bereits verlassen hat.
Es wurden Personen angeschrieben, die ehemals Kunden waren, was zu Beschwerden führte.
Prozessqualität: Aufgrund von Maschinenproblemen beim Druck der Briefe, wurde eine manuelle Prozedur ausgelöst. Diese wiederum „vergaß“, das Kundenattribut „Sprache“ zu berücksichtigen in dem kodiert war, in welcher Sprache der jeweilige Kunde angesprochen werden sollte.
Etliche Kunden wurden nicht in der von ihnen gewünschten Sprache angeschrieben, was zu Unzufriedenheit bei den betroffenen Kunden führte.
Die detaillierte Analyse der Fehlerursachen war sehr zeit- und kostenaufwendig (mehrere Personen waren hiermit während mehrerer Wochen beschäftigt)
Die Ursachen und Folgen in solch komplexen Prozessen sind vielfältig und teilweise überraschend. Umso wichtiger ist deren genaue Kenntnis.
374
5 Verknüpfung von DQ-Indikatoren mit KPIs und Auswirkungen auf das RoI Die soeben beschriebenen Beispiele geben Hinweise auf die Auswirkungen schlechter Datenqualität. Folgende Aspekte sind aus einer Unternehmenssicht besonders stark von Datenqualitätsproblemen betroffen: – Kosten: schlechte Daten kosten Unternehmen viel Geld u.a. weil durch die Folgen Schäden entstehen können, die Fehlerursache und Beseitigung sehr teuer zu stehen kommt, die Produktivität durch Leerlaufzeiten reduziert wird. – Umsatz: je geringer die Datenqualität, umso mehr Umsatzeinbußen sind zu erwarten, da Opportunitäten nicht erkannt werden oder ganz einfach die Verbindung zum Kunden abreißt und erbrachte Leistungen nicht korrekt verrechnet werden. – Risiko: mit abnehmender Datenqualität nimmt die Bedeutung von Risikofaktoren zu, die sowohl intern (Kumulierung schlechter Schuldner) als auch extern (z.B. Verhängung von Strafen durch Aufsichtsbehörden wegen Verstöße gegen gesetzliche Vorgaben) wirken können. – Vertrauen (intern) und Reputation (extern): sowohl intern als auch intern schwindet das Vertrauen der Mitarbeiter bzw. Kunden oder Partner in die Fähigkeit des Unternehmens, seine Prozesse und Daten in den Griff zu bekommen, wenn sich Datenqualitätsprobleme vermehrt manifestieren.
5.3 Wie viel kosten schlechte Daten den Unternehmer? Es gibt mittlerweile Schätzungen der Kosten, die durch schlechte Daten verursacht werden. The Data Warehouse Institute hat vor einigen Jahren die mittlerweile berühmte Studie [TDWI 2002] veröffentlicht, in der für US-Firmen die durch den Einfluss schlechter Datenqualität entstandenen Zusatzkosten für Porto, Druck und Gehälter auf 600 Milliarden Dollar geschätzt werden. Im Zusammenhang mit der Adressqualität hat sich die 1-10-100 Regel bestätigt. Sie besagt, dass die korrekte Eingabe einer Adresse ca. 1 Euro, nachgelagerte Korrekturen durch Spezialsoftware ca. 10 Euro und ca. 100 Euro kostet, falls überhaupt keine Datenqualitätsmaßnahmen getroffen werden. Markanalysten wie die Gartner Group geben in ihren Studien an, dass zwischen 50% und 70% aller CRM und Data Warehouse Projekte fehlschlagen, weil das Thema Datenqualität von Anfang an unterschätzt wird [Gartner 2004]. Solche Projekte verursachen Kosten, die ohne weiteres in die Millionenhöhe hochschnellen. Nicht rechtzeitig erkannte Datenqualitätsprobleme erhöhen diese Aufwände zusätzlich und führen zu kläglicher Nutzerakzeptanz dieser Systeme und der darin enthaltenen Daten, was wiederum den Return on Investment solcher Projekte reduziert.
375
D Praxisbeispiele KPI zur Messung der Unternehmensperformanz Unternehmen benötigen Maßzahlen, die ihnen helfen, ihre Ziele festzulegen und zu überwachen, ob diese innerhalb der gewünschten Fristen erreicht werden. Die spezifische Auswahl der sogenannten Key Performance Indicators (KPI) kann von Unternehmen zu Unternehmen stark variieren. Die KPI sollten jedoch folgende Eigenschaften aufweisen: (i) sie reflektieren tatsächlich Ziele des Unternehmens, (ii) sie sind Schlüsselelemente für den Erfolg des Unternehmens, (iii) sie sind messbar, (iv) die gesteckten Ziele sind tatsächlich erreichbar und (v) sie beziehen sich auf einen vorgegebenen Zeithorizont. Häufig lehnen sich KPI an den Balanced Score Card Ansatz [Kaplan 1992] und lassen sich dann in vier Perspektiven einteilen: Finanzperspektive: Indikatoren, die finanzielle Zielsetzungen der Unternehmensstrategie reflektieren wie z.B. der Umsatz pro Verkäufer oder die Produktionskosten pro Stück. Kunden-/Marktperspektive: Kennzahlen zum Erreichen der Kunden- und Marktziele wie z.B. die Entwicklung der Kundenzufriedenheit, Zeit zwischen Kundenanfrage und Antwort, Qualität des Kundenservices, Anzahl neu akquirierter Kunden, Anzahl der Kundenabgänge und Rentabilität von Kundensegmenten. Interne bzw. Prozessperspektive: Maßzahlen, die das Erreichen der internen Prozess- und Produktionsziele beschreiben. Hierzu gehören z.B. die Prozessqualität und Prozessdurchlaufzeiten, die laufend gemessen werden sollten. Lern-/Entwicklungsperspektive: umfasst Kennzahlen, die das Erreichen der (langfristigen) Überlebensziele der Organisation beschreiben. Typische Beispiele sind z.B. die Anzahl neuer Produkte, die sich in der Entwicklung befinden und solcher, die im bereits Markt lanciert wurden, der interne abteilungsübergreifende Austausch von Mitarbeitern, usw.
5.4 Der Einfluss von DQ-Indikatoren auf KP-Indikatoren – wie beeinflusst Datenqualität den Unternehmenserfolg? Erst wenn ein kausaler Zusammenhang zwischen den DQI und KPI hergestellt werden kann, wird auf Managementebene ersichtlich, wie sich einzelne DQDimensionen auf den Unternehmenserfolg auswirken. Folglich können dann Priorisierungen vorgenommen werden, da der DQ-Business Case durch diese Verbindung klar wird. Ein auf die Erreichung der Unternehmensziele ausgerichtetes DQManagement wird so möglich. Der in diesem Abschnitt dargestellte Ansatz beruht auf dem Grundgedanken, über zwei Matrizen – eine Gewichts- und eine Messmatrix – die Zusammenhänge zwischen DQI und KPI zu beschreiben und zu messen. Tabelle 2 definiert die Matrizeninhalte und bezieht sich in der rechten Spalte auf folgendes Beispiel: die Anwesenheit von Kundendubletten beeinflusst die Kosten und die Effizienz von Direktmailkampagnen.
376
5 Verknüpfung von DQ-Indikatoren mit KPIs und Auswirkungen auf das RoI Tabelle 2: Matrizen zur Beschreibung des Einflusses der DQI auf die KPI
Beschreibung
Beispiel
Gewichtsmatrix: Gewichtung des Einflusses von DQI auf KPI – gibt an, wie bedeutsam der Einfluss eines DQI auf einen KPI ist
Mit der Anzahl der Dubletten steigen proportional die Kosten, und sinkt die Effizienz der Kampagne. Das Gewicht ist also sehr groß.
Messmatrix: Messung des Einflusses von DQI auf KPI – stellt den Messwert des aktuellen Zustands dar, d.h. ob der gegebenen DQI sich aktuell tatsächlich auf den KPI auswirkt
Die Anzahl der tatsächlich vorhandenen Dubletten (z.B. 7% Dubletten) bestimmt die Größe des Effekts.
Die Gewichtsmatrix wird so erstellt, dass die Zeilen einen DQI und die Spalten einen KPI darstellen. Die Zellen enthalten die Gewichtung des Einflusses des entsprechenden DQI auf den KPI. So hat z.B. DQI 3 (Abb. 1) großen Einfluss auf KPI 2, DQI 2 mittleren Einfluss auf KPI n-1 und DQI k geringen Einfluss auf KPI n.
Abbildung 1: Gewichtung des Einflusses von DQI auf KPI (H=high, M=medium, L=low)
Neben ihrer Funktion zur Bewertung der einzelnen Einflüsse, hilft die Gewichtsmatrix auch, die Messmatrixbefüllung zu fokussieren. Da in vielen Fällen mehr als 20 DQI verwendeten werden und die Anzahl der KPI in ähnlicher Größenordnung liegen, müssten Hunderte von Werten in die Messmatrix eingetragen werden. Es wäre ein zu aufwendiges Unterfangen durch Mitarbeiterbefragungen, sämtliche Werte abzufragen. Daher wird vorgeschlagen, in der Gewichtsmatrix Zellen mit besonders hoher Gewichtung zu identifizieren und nur für diese Messwerte per Mitarbeiterbefragung zu erfassen. Im folgenden Beispiel (Abb. 2) wurde eine vereinfachte Befüllung der Gewichtsmatrix mit 0 oder 1 vorgenommen (0=kein Einfluss; 1=großer Einfluss). Die Zeilengewichte werden in der Spalte Impakt durch DQI und die Spaltengewichte in der Zeile Impaktierte KPI aufsummiert. Die stärksten Impakte sind farblich hervorge-
377
D Praxisbeispiele hoben. Für die Befüllung der Messmatrix wird der Fokus auf die an den Schnittstellen der besonders hohen Impakte liegenden Matrixzellen.
regl. Int.
business rules
Mitarbeiterzufriedenheit
Produktivität
Kundenrentabilität
Kundenztufriedenheit
Kundentreue
Kundenakquisition
Entwicklung der Beziehung
Impakt durch DQI
1
1
1
1
1
1
1
1
1
1
1
1
1
1
15
1
1
0
1
0
0
0
0
1
1
0
0
0
0
0
5
0
0
0
0
1
1
1
0
1
1
0
1
1
1
1
9
Konsistente Repräsentation Nützliche Informationen Geeignete Mengen
1
1
1
1
1
1
1
0
1
1
1
1
0
0
0
11
1
1
1
1
1
0
0
0
1
1
1
1
0
1
0
10
Relevanz
0
0
0
1
1
0
0
0
1
1
1
1
0
0
0
6
Verständlichkeit
0
0
1
1
1
1
1
0
1
1
0
1
0
1
1
10
Interpretierbarkeit
0
0
0
1
0
0
0
0
1
1
0
1
1
1
1
Gesunde Informationen Fehlerfreiheit
Vertrauenswürdige Informationen Entwicklung und Produktion Sicherheit und Vertraulichkeit Zeitliche Gültigkeit
Technische Ressourcen
1
Kompakte Darstellung Vollständigkeit
Bedarf an personellen Ressourcen für Prozessablauf
cadre légal
Kunden
accomplir tâche/proc.
Mitarbeiter
Prozesskosten
Umgebung Prozesslaufzeit
Prozesse
0
7 0
1
1
1
1
1
0
1
1
1
1
1
0
0
0
0
10
1
0
1
0
1
1
1
0
1
1
0
1
1
0
0
9
1
0
1
0
0
0
0
0
1
0
1
1
0
1
0
6 0
Brauchbare Informationen Glaubwürdigkeit Reputation Bedienbarkeit Zugang
1 0 0 0
0 0 0 0
0 0 0 0
0 0 1 1
0 0 1 1
1 0 0 0
1 0 0 0
0 0 0 0
1 1 1 1
0 0 1 1
0 0 0 0
1 1 1 1
1 1 1 1
0 1 0 0
0 1 0 0
Impakt auf KPI
8
5
7
10
10
6
7
2
15
12
6
13
8
7
5
6 5 6 6
Abbildung 2: Beispiel einer Gewichtsmatrix zur Selektion der Einflussbereiche von größter Bedeutung für die Messmatrix (grau markierte Zellen im inneren Bereich der Matrix)
Durch diese Vorgehensweise wurde z.B. in diesem Falle (Abb. 2) eine Reduktion der zu befüllenden Zellen in der Messmatrix von 225 auf lediglich 32 Zellen erreicht. Die Befüllung der Matrizen geschieht wie folgt: – Gewichtsmatrix: entweder (i) durch einige wenige Schlüsselpersonen, die sowohl genügend datenspezifische Kenntnisse als auch die meisten KPI gut kennen und die aus ihrer Sicht geeigneten Werte eintragen oder (ii) durch Befragung einer repräsentativen Anzahl Mitarbeiter in verschiedenen Rollen (Datenproduzent, Konsument, Verwalter, etc.) hinsichtlich ihrer Bewertung der einzelnen Gewichte der Matrix und anschließende statistische Auswertung zur Findung einer im Mittel gültigen Matrix
378
5 Verknüpfung von DQ-Indikatoren mit KPIs und Auswirkungen auf das RoI – Messmatrix: durch Befragung einer repräsentativen Anzahl Mitarbeiter in verschiedenen Rollen (Datenproduzent, Konsument, Verwalter, etc.) hinsichtlich ihrer Bewertung der Messwerte der einzelnen Matrixelemente und anschließende Berechnung der Mittelwerte, mit denen die Matrix befüllt wird. Diese Matrix hat die gleichen Zeilen und Spalten wie die Gewichtsmatrix, jedoch enthalten ihre Zellen Einträge, die beschreiben, wie gross der tatsächliche Effekt ist. Nachdem beide Matrizen befüllt wurden, ergibt sich der gewichtete Einfluss eines DQI auf einen KPI durch die Multiplikation des entsprechenden Gewichts mit der dazugehörigen Messung. Es kann also durchaus vorkommen, dass ein als gross bewertetes Gewicht unbedeutend ist, da der entsprechende Messwert ergibt, dass das Problem de facto kaum oder nie auftaucht.
5.5 Beschreibung eines KPI orientierten DQManagementprozesses
DQ-Management
Back-office
Front-office
Der hier vorgestellte Prozess zur Quantifizierung der DQ und der aus Unternehmenssicht am sinnvollsten erscheinenden Vorgehensweise zur Behandlung der DQ-Probleme stellt sich der Herausforderung, jene Komponenten (Applikationen und Datenbanken) in einem IT-Portfolio, die am stärksten zur schlechten DQ beitragen, zu entdecken, DQ-Projekte zu definieren und sie in Abhängigkeit von ihrem Einfluss auf die KPI zu priorisieren. Als Ergebnis erhält man eine Gesamtsicht über die DQ im Unternehmen, d.h. eine Art DQ-Landkarte wie in Abb. 3 dargestellt.
Abbildung 3: Beitrag des DQ-Managementprozesses zur Entstehung einer DQ-Landkarte
Der DQ-Managementprozess transformiert eine hinsichtlich ihrer DQ zunächst unbekannte IT-Landschaft (links in obiger Abbildung) in eine detaillierte mit bekannten DQ-Niveaus (symbolisiert durch die verschiedenen Grauwerte rechts in Abb. 3). Dies steuert DQ-Verbesserungsaktivitäten und hilft ein laufendes DQMonitoring aufzubauen. Der DQ-Managementprozess hat folgende Eigenschaften: – Er verbindet DQ-Probleme und KPI mit Hilfe der oben beschriebenen DQIKPI Matrizen.
379
D Praxisbeispiele – Er ist Top-Down orientiert und beginnt mit Mitarbeiterbefragungen, die einen ersten Eindruck über aktuelle DQ-Probleme geben. – Er identifiziert und analysiert problematische Komponenten im Detail durch standardisierte Interviews und Workshops (DQ-Assessment). – Er unterstützt die Definition von Korrekturmaßnahmen (DQ-Projekte). – Er ermöglicht, die Aufwände und Erträge (d.h. den RoI) der einzelnen Korrekturmaßnahmen zu ermitteln. Der Ablauf des Prozesses ist in Abb. 4 dargestellt: BusinessPrioritäten anwenden
Selektiere zu untersuchende Komponenten
Priorisiertes Vorgehen zur Verbesserung der DQ
5
Gestion client
Services
Support
Transactions
Back-office
Canaux D’échange
Quantifizieren und Validieren
Administration
2 Gestion interne
Gestion de prestations (produits/services)
4 Überprüfung und Quantifizierung der DQ-Symptome und Ursachen
Front-office
Canaux de distribution
Trading
DQ-Projekte, Korrekturmassnahmen
1 Mitarbeiterbefragung Erste Hinweise auf DQ-Problemfelder
3 DQ-Assessment Detaillierte Analyse der Fehlerursachen und des Einflusses auf die KPI
Abbildung 4: Der fünfstufige DQ-Managementprozess im Überblick
Die einzelnen Schritte des DQ-Managementprozesses werden nun beschrieben.
5.5.1 Phase 1 – Selektiere zu untersuchende Komponenten Als erster Schritt muss festgelegt werden, welche Komponenten im weiteren Verlauf des Prozesses analysiert werden sollen. Hierzu wird basierend auf dem aktuellen Stand der DQ-Kenntnisse über die einzelnen Komponenten eine a priori Abschätzung deren Qualität vorgenommen und beurteilt, welche Komponenten auf jeden Fall und welche nicht in die nächste Prozessstufe 2 eingebracht werden sollen. Hierbei können auch Betrachtungen wie z.B. die Kritikalität (d.h. wie wichtig ist die Komponente für das reibungslose Funktionieren des Unternehmens) und Le-
380
5 Verknüpfung von DQ-Indikatoren mit KPIs und Auswirkungen auf das RoI bensphase (d.h. wurden die Komponenten erst kürzlich in die Produktion überführt oder werden sie bald aus der Produktion genommen bzw. ersetzt) der einzelnen Komponenten eine Rolle spielen.
5.5.2 Phase 2 – Mitarbeiterbefragung Komponenten für die nicht genügend Information betreffend ihrer Qualität vorliegen, bzw. für die a priori bekannt ist, dass Probleme vorliegen, werden mittels einer Mitarbeiterbefragung untersucht. Ziel ist es, basierend auf den Erfahrungen der Mitarbeiter herauszufinden, welche DQ-Aspekte der Komponenten besonders stark betroffen sind. Zu jeder Applikation oder Datenbank (Komponente) werden Personen in verschiedenen Rollen (z.B. Datenbank- bzw. Applikationsverantwortlicher, Nutzer, Manager, usw.) befragt. Dadurch wird ein guter Grad an Objektivität erreicht. Der Fragebogen wird so strukturiert, dass über spezielle Fragenblöcke Informationen zu verschiedenen DQ relevanten Bereichen von den Befragten gesammelt werden: – Umgebungsinformationen: dies hilft, sowohl die Komponente und dessen Einbettung in das Unternehmen als auch die Komplexität der durch sie unterstützten Prozesse besser einzuordnen. – DQ-Gewichtungsinformationen: für jeden Befragten wird ermittelt, wie er die Bedeutung der einzelnen DQ-Dimensionen einschätzt – DQ-Messung: jeder Befragte gibt über die Beantwortung speziell dafür entwickelter Fragen an, wie der aktuelle Stand der DQ in den einzelnen DQDimensionen ist Es wird vorgeschlagen, den Fragebogen mit maximal 50 Fragen zu bestücken, da der Aufwand für die Beantwortung aus Sicht der Befragten sonst zu groß wird. Man darf dabei auch nicht vernachlässigen, dass üblicherweise Mitarbeiter es nicht gewohnt sind, über die Qualität von Daten zu reden und Qualität als ein mehrdimensionales Konzept zu begreifen und zu bewerten. Daher muss bei der Formulierung der Fragen darauf geachtet werden, dass die Definitionen der DQ-Konzepte klar sind und falls notwendig mit Beispielen untermalt werden. Die Ausbreitung des Fragebogens ist am einfachsten per Intranet-Applikation bei der die Befragten direkt über ein web Frontend ihre Antworten eingeben können. Neben reinen Multiple Choice Antworten sollte auch darauf geachtet werden, dass Freitextfelder die Eingabe weitergehender Information gestatten (z.B. die Beschreibung eines besonders gravierenden DQ-Problems). Diese können wichtige zusätzliche Informationen für die Beschreibung des Problemfelds liefern. Es muss vor Ausbreitung des Fragebogens ein Casting durchgeführt werden, in dem definiert wird, wer in welchen Rollen und zu welchen Applikationen oder Datenbanken befragt werden soll. Die Selektion sollte von der Größe her so gewählt sein, dass sie statistisch repräsentative Auswertungen gestattet.
381
D Praxisbeispiele Als Ergebnis erhält man nach Auswertung der Befragungsdaten für jede betrachtete Komponente eine Qualitätsscorecard, die angibt, wie die einzelnen Qualitätsdimensionen bewertet wurden. Außerdem erhält man eine Rangliste der besten und schlechtesten Komponenten betreffend ihrer Datenqualität. Indem man dem gesamten Qualitätsscore einen Minimalwert auferlegt, erhält man als Ergebnis jene Komponenten, die in der nächsten Phase des DQ-Managementprozesses näher betrachtet werden sollen. Abb. 5 veranschaulicht dies. Gemessener DQ-Level
Quantification de la QdD
60
Durch DQ-Assessment untersuchen (Phase 3)
50 40
Seuil de criticité de Mindestla QdD anforderung DQ
30 20 10 0 App1
App2
App3
App4
App5
App6
App7
App8
App9
App10
App11
Nom de l'application Applikations-ID
Abbildung 5: Rangliste der durch die Befragung gemessenen Qualitätsscores (y-Achse) verschiedener Applikationen (x-Achse)
Alle Applikationen, die einen DQ-Score unterhalb der Mindestanforderung (horizontale Linie bei ca. 20) haben (d.h. die Applikationen App6-App11), werden in Phase 3 detailliert behandelt. Die Scorecard enthält je Komponente reichhaltige Informationen über die DQMessungen in den verschiedenen DQ-Dimensionen. Abb. 6 zeigt ein Beispiel hierzu. DQ-Dimension: Gültigkeit Verwendbarkeit 70%
58%
60%
Fehlerfreiheit
50%
60%
40%
50%
30%
40%
43%
30%
20%
Vertrauenswürdigkeit
20%
10%
44%
0%
35%
Gültigkeit
DrillDown
Konsistente Darstellung
10 %
13%
0%
58%
Vollständige Darstellung
25%
DataWare house Applikation 1
60%
Moyenne des applications
Mittlere DQ
Kompakte Darstellung
Brauchbarkeit
Abbildung 6: Darstellung einer DQ-Scorecard für die untersuchte Applikation Applikation 1 – die DQ-Hauptdimensionen (links) und ein Drill-Down (d.h. Detaildarstellung) der Dimension Gültigkeit der Daten.
382
5 Verknüpfung von DQ-Indikatoren mit KPIs und Auswirkungen auf das RoI Die DQ-Dimension „Gültigkeit“ wurde hier mit einem Qualitätsscore von nur 35% bewertet. Eine Detailanalyse (Drill-Down) zeigt die vier Unter-DQI und lässt erkennen, dass im Wesentlichen die inkonsistente Darstellung der Daten und mangelnde Kompaktheit die Haupttreiber für den schwachen Score sind.
5.5.3 Phase 3 – DQ-Assessment Die in der Mitarbeiterbefragung (Phase 2) als problematisch erkannten Komponenten werden nun im Detail untersucht. Zusätzlich können weitere Komponenten, a priori als problematisch bewertet wurden direkt in diese Prozessstufe eingeschleust werden (ohne, dass für sie die Notwendigkeit bestünde, sie durch die Mitarbeiterbefragung zu bewerten). Die Ziele des DQ-Assessments sind – Genaue Analyse und Verständnis der DQ-Probleme – Suche nach Fehlern und deren Ursachen – Messung des Einflusses der DQ auf die Unternehmens-KPI Die entsprechenden Informationen werden durch strukturierte Interviews und Workshops gesammelt. Hierzu wird ein ausführlicher Fragebogen erstellt, der verschiedene Fragenblöcke enthält und sich von dem für die obige Mitarbeiterbefragung (Phase 2) Verwendeten in folgenden Punkten unterscheidet: – Höherer Detaillierungsgrad: der Fragenkatalog liegt mit 200-300 Fragen bei weitem über den ca. 50 Fragen in Phase 2. Wurden in Phase 2 DQ-Themen lediglich eher oberflächlich angesprochen, so werden sie hier im Detail besprochen. – DQI-KPI Messung: der Fragebogen enthält gezielte Fragen, die in Erfahrung bringen sollen, wie stark der Einfluss einzelner DQ-Indikatoren auf die KPI ist. Dies erlaubt später, den Business Case für die DQ-Projekte zu erstellen. An dieser Stelle greift die DQI-KPI Gewichtsmatrix, indem sie bei der Reduktion der zu messenden Einflüsse hilft. Im Gegensatz zu Phase 2 wird hier von automatisierter Ausbreitung und selbständigem Beantworten durch die Befragten abgeraten. Es sollten geeignete Personen die Interviews durchführen, die jeweils zwischen zwei und vier Stunden dauern können. Unstrukturierte Antworten und die Fähigkeit, auf unerwartete Aussagen mit weiteren Fragen einzugehen sind Voraussetzung für eine erfolgreiche und umfassende Befragung. Die Zielgruppe ist für das DQ-Assessment ähnlich wie die in Phase 2 gewählte. Im Sinne eines ökonomischen Umgangs mit der für Phase 3 benötigten Mitarbeiterzeit ist es empfehlenswert, Personen, die der gleichen Rolle angehören, während eines Workshops zu interviewen. Dieser Fall wird insbesondere für die Rolle Komponentennutzer eintreten, da diese oft sehr zahlreich sein können. Es wird jedoch davon abgeraten, mehr als 5 Personen gleichzeitig zu interviewen.
383
D Praxisbeispiele Als Ergebnis erhält man nach Auswertung der Interviews ein detailliertes Bild der Ursachen und Auswirkungen verschiedener DQ-Probleme im Umfeld der untersuchten Komponenten. Man erhält ein gutes Verständnis der vorliegenden Probleme, deren Ursache und Wirkung in Bezug auf die Unternehmens-KPI. Zudem kann bereits in groben Zügen definiert werden, welche Maßnahmen zur Verbesserung der DQ-Probleme getroffen werden müssen. Es entstehen also Projektbeschreibungen, die noch im Rahmen von Phase 4 weiter verfeinert werden müssen.
5.5.4 Phase 4 – Validieren und Quantifizieren Nachdem bekannt ist von welchen Problemen die verschiedenen Komponenten betroffen sind, muss dies nun in Phase 4 validiert und die Größe des Effekts gemessen werden. Es kann z.B. vorkommen, dass bestimmte Probleme den Befragten durchaus wichtig erscheinen, bzw. in deren Erinnerung sich eingeprägt haben, der Fall jedoch vielleicht überhaupt nur einmal oder sehr selten eingetroffen ist. Manifestiert sich hingegen ein relativ harmlos erscheinender Fehler sehr häufig, so kann dies einen großen negativen Einfluss auf die Unternehmens-KPI haben. Phase 4 hilft also, die „Größe des Eisbergs zu schätzen“. Bislang konnte man nur dessen aus dem Wasser herausragende Spitze und seine groben Umrisse unter Wasser sehen, ohne jedoch sein Gesamtvolumen zu kennen. Dies wird im Falle der DQ erreicht indem die Daten im Detail auf ihre Fehlerhaftigkeit hin untersucht werden. Zunächst erfolgt die Validierung der geschilderten Probleme: kann man in den Datenbanken oder Applikationen die genannten Probleme finden bzw. nachvollziehen? Dann wird ermittelt, wie häufig die Probleme auftauchen. Im Falle der Kundendubletten wird z.B. ermittelt wie viele sich tatsächlich im System befinden. Es kann durchaus sein, dass man für die Abschätzung der Problemgröße auf statistische Hochrechnungen zurückgreifen muss, da die detaillierte Analyse der Fehler nur auf kleineren Teilmengen der gesamten Daten überhaupt möglich ist. Dabei werden Analyseverfahren eingesetzt, die von einfacher deskriptiver Statistik bis hin zu komplexen Data Mining Verfahren gehen können. Einige einfache Beispiele spiegelt Abb. 7 wider.
384
Anzahl Kunden
Anzahl Kunden
5 Verknüpfung von DQ-Indikatoren mit KPIs und Auswirkungen auf das RoI
Zeitpunkt der Eröffnung der Kundenbeziehung
Geburtsjahr der Kunden
Abbildung 7: Histogramme mit den Verteilungen des Datums der Eröffnung der Kundenbeziehungen (links) und Geburtsdatum der Kunden (rechts).
Im linken Beispiel wird klar, wie groß der Effekt der falschen Daten betreffend der Eröffnung der Kundenbeziehung (d.h. seit wann ist er Kunde des Unternehmens) tatsächlich ist. Die Spitzen im Histogramm geben an, zu welchem Eröffnungsdatum falsche Informationen vorliegen und wie häufig. Die Spitze ganz links z.B. bezieht sich auf den 1.1.1900, was also als durchweg falsche Information einzustufen ist. Die beiden Spitzen rechts im Histogramm sind in Verbindung mit der Produktionsaufnahme der ersten IT-Plattform des Unternehmens und der Übernahme eines anderen Unternehmens zu bringen. Ebenso im rechten Beispiel: die Spitze in der Verteilung des Geburtsdatums zeigt, dass die Information, dass ein Kunde 1970 geboren ist, in etwa zwei Drittel aller Fälle falsch ist. Somit ist es möglich abzuschätzen, welcher Aufwand mit der Korrektur der einzelnen Probleme verbunden ist und wie groß der Einfluss auf die UnternehmensKPI ist.
5.5.5 Phase 5 – DQ-Projekte definieren, Korrekturmaßnahmen durchführen Auf der Grundlage der Ergebnisse der vorherigen Analysestufen des DQManagementprozesses können in der letzten Phase die Aktivitäten/Projekte, die die DQ verbessern, im Detail beschrieben werden. Diese DQ-Projekte sind auf bestimmte Datenbanken, Applikationen und Prozesse ausgerichtet. Für jede DQAktivität werden eigene Business Cases und Projektpläne erstellt, die u.a. folgende Informationen enthalten: – Die erwarteten Kosten. – Schätzung der Einsparungen und/oder Mehreinnahmen. – Vereinbarung quantitativer Messgrößen für die Erfolgsmessung. Tabelle 3 gibt weiter Hinweise zur Beschreibung der Korrekturmaßnahmen.
385
D Praxisbeispiele Tabelle 3: Beschreibung von DQ-Korrekturmaßnahmen
Thema
Beschreibung
Betroffener Bereich
Applikation oder Datenquelle? Welche Komponente ist von der Maßnahme betroffen? Handelt es sich um eine Applikation, Datenbank oder um eine Prozessveränderung? Verantwortliche Person: Wer wird für die Durchführung der Maßnahme verantwortlich sein? Businesskomponente: Einordnung der zu korrigierenden Komponente in den Businesskontext: welche Funktionen und Prozesse sind betroffen?
Identifikation des Problems
Problembeschreibung: Detaillierte Beschreibung des Problems, dessen Ursachen und Auswirkungen. Wichtigkeit: Hat die Behebung des Problems eine hohe, mittlere oder geringe Wichtigkeit? Dringlichkeit: Wie dringend ist die Korrektur des Problems? Welche Businessziele oder KPI sind betroffen? Komplexität der Korrektur: Wie komplex ist die vorgeschlagene Korrekturmaßnahme?
Ziele der Korrektur
Was genau soll mit der Korrektur bewirkt werden?
Deliverables
Welche Lieferungen hat die Maßnahme zu erbringen?
Erfolgskriterien
Beschreibung: Definition und Beschreibung der Erfolgskriterien für die DQ-Maßnahme Wie werden die Erfolgskriterien gemessen? Anfangszustand der Kriterien: Was ist der aktuelle Stand der Erfolgskriterien, d.h. vor Durchführung der Korrekturmaßnahmen? Zielzustand der Kriterien: Welcher Zustand der Erfolgskriterien soll nach der Durchführung der Korrekturmaßnahmen erreicht werden?
Ressourcen
386
Benötigte personelle Ressourcen für die Korrektur: Anzahl benötigter Personen zur Durchführung der Korrekturen
5 Verknüpfung von DQ-Indikatoren mit KPIs und Auswirkungen auf das RoI Verfügbarkeit von Ressourcen: Sind die benötigten Personen im geplanten Zeitraum der Durchführung der Korrektur verfügbar? Muss ihre Planung eventuell umgestellt werden? Benötigte Kompetenzen: Sind Spezialkenntnisse für die Korrekturen notwendig? Liegen diese Kompetenzen intern vor oder müssen sie extern beschafft werden? Benötigte materielle/technische Ressourcen: Welche Ressourcen wie z.B. Computer, Speichermedien, Netzwerke werden benötigt? Nach Durchführung der Korrekturmaßnahmen können die behandelten Komponenten wieder in den DQ-Prozess eingestreut werden, damit so eine laufende Kontrolle des Erfolgs und der stetigen Verbesserung der DQ möglich ist.
5.6 Fallstudie – Banque Cantonale Vaudoise (BCV) Die BCV ist eine Kantonalbank, die in der Rangliste der größten schweizerischen Banken auf Platz vier rangiert. Sie ist regional auf den Kanton Vaud (dt. Waadtland) fokussiert und bietet ihren Kunden eine breite Palette an Produkten, Services und Kontaktkanälen an, die sich an den verschiedenen Hauptaktivitäten ausrichten: Retailbanking, Firmenkunden, Private Banking und Wertschriftenhandel. Entsprechend komplex sind BCV’s Ansprüche und Bedürfnisse in Bezug auf ihre Informationstechnologie (IT). Die Bank verfügt über ein hoch komplexes Portfolio an Applikationen und Datenbanken3, die eine Vielzahl von spezialisierten Prozessen und Abläufen unterstützen. Dieses IT-Portfolio ist Kernstück im Bankenalltag ohne das die Kunden nicht effizient mit Produkten und Services versorgt werden könnten. Die BCV hat die Bedeutung des DQ-Managements im Rahmen ihrer IT erkannt und pflegt ein konsequentes DQ-Monitoring zur stetigen Erhöhung ihrer Leistungsfähigkeit. In diesem Zusammenhang kommt eine Variante des in diesem Beitrag beschriebenen DQ-Managementprozesses zum Einsatz (s. Abb. 8).
3
Hier auch als « Komponente » bezeichnet.
387
D Praxisbeispiele
Niveau 1: Inventar der zu betrachtenden Komponenten
Niveau 2: Komponenten deren Qualität durch Mitarbeiterbefragungen überwacht wird
Niveau 3: Komponenten, die im Rahmen von DQ-Assessments betrachtet werden. Niveau 4: Komponenten, die durch Korrekturmaßnahmen verbessert werden
Abbildung 8: DQ-Managementprozess der BCV
Jede Komponente des IT-Portfolios befindet sich in einem von vier Niveaus und wird entsprechend behandelt. Basierend auf der IT-Strategie und der BusinessArchitektur werden die Ziele des DQ-Managementprozesses für die einzelnen funktionalen Blöcke (=Bausteine in der Business-Architektur) festgelegt. Hierzu gehören: – – – – –
Definition der Menge der zu untersuchenden Applikationen. Festlegen der Untersuchungstiefe für jede Applikation (Niveau 1 bis 4). Beschreibung der aktuellen Situation. Definition der organisationalen oder technischen Verbesserungsmaßnahmen. Bereitstellung der benötigten Ressourcen zur Durchführung der Verbesserungsmaßnahmen.
Komponenten werden vom zu untersuchenden Inventar ausgeschlossen, falls für sie Folgendes zutrifft: – Es ist a priori bekannt, dass keinerlei Verbesserungspotenzial vorliegt – Es handelt sich um Applikationen deren Daten außerhalb der BCV verwaltet werden, Applikationen, die vor weniger als 3 Monaten in Betrieb genommen wurden (da diese unter besonderer Beobachtung stehen) bzw. in weniger als sechs Monaten ersetzt werden. Das verbleibende Inventar wird auf die Niveaus 2 bis 4 verteilt: – Niveau 2: wenn die Komponente neu in den DQ-Prozess eingeführt werden soll – Niveau 3: falls für die Komponente bereits bekannt ist, dass Verbesserungspotenzial besteht und das DQ-Assessment zeigen soll, wo genau es liegt.
388
5 Verknüpfung von DQ-Indikatoren mit KPIs und Auswirkungen auf das RoI – Niveau 4: falls bereits Korrekturmassnahmen für die Komponente existieren, kann sie den Prozess bereits an dieser Stelle starten. Dann werden die in Niveau 2 eingestuften Komponenten mittels Befragung zuvor entsprechend selektierter Mitarbeiter untersucht. Die Ziele der Befragung sind
Back-office
Front-office
– Identifikation von Komponenten, für die Bedarf nach einem DQ-Assessment (Niveau 3) besteht. – Gewichtung und Priorisierung der Komponenten entsprechend ihrer Kritikalität für die BCV. – Erzeugen einer auf die funktionalen Blöcke der Business-Architektur aggregierten DQ-Gesamtsicht wie in Abb. 9 dargestellt.
Abbildung 9: Aggregierte Sicht (Business-Architektur) auf die DQ des IT-Portfolios (dargestellt durch Graustufen)
Letztendlich wird im Niveau 3 (DQ-Assessment) mittels ausführlicher Workshops analysiert, welche Probleme vorliegen und welchen Impakt sie auf die Organisation haben könnten, sowie eine Reihe von Projekten zu deren Behebung generiert. Damit stellt die BCV ein dauerhaftes und kontinuierliches Management der Datenqualität ihres IT-Portfolios sicher, das eine nachhaltige positive Wirkung auf die Effizienz und Güte der Kundenbeziehungen des Unternehmens hat.
389
D Praxisbeispiele
Literaturverzeichnis [Wang 2002] Wang, R. Y.: Information Quality Benchmarks : Product and Service Performance. In: MIT in Communications of the ACM, April 2002/Vol. 45, No. 4ve. [TDWI 2002] The Data Warehouse Institute: Data Quality and the Bottom Line: Achieving Business Success through a Commitment to High Quality Data. In: http://www.tdwi.org. [Gartner 2004] z.B. Gartner: Poor Data Quality Dooms Many IT Projects. In: http://www.crn.com/it-channel/18841781. [Kaplan 1992] Kaplan, R. and Norton, D.: The Balanced Scorecard: Measures that drive performance. In: Harvard Business Review, pp77–80, 1992.
390
Über die Autorinnen und Autoren
Baškarada, Saša Saša Baškarada has more than ten years of experience in ICT and is currently employed as a researcher at the Strategic Information Management Laboratory (http://sim.unisa.edu.au), University of South Australia. He is also providing advice to several large Australian Defence organisations in the areas of Information Quality Management and Strategic Information Management. Saša has published numerous book chapters as well as peer reviewed journal and conference papers.
Dipl.-Inform. Bleiholder, Jens Jens Bleiholder studierte in Karlsruhe und Amherst und schloss 2003 sein Informatikstudium an der Universität Karlsruhe ab. Danach arbeitete er als wissenschaftlicher Mitarbeiter am Lehrstuhl für Informationsintegration der HumboldtUniversität zu Berlin, seit September 2006 im Fachgebiet Informationssysteme des Hasso-Plattner-Instituts in Potsdam. Er beschäftigt sich mit Themen aus den Bereichen Datenqualität und Datenintegration und im Rahmen seiner Promotion speziell mit der Fusionierung mehrerer Datenquellen. Die dabei auftretenden Datenkonflikte können auf verschiedene Arten behandelt, im besten Falle sogar aufgelöst werden, so dass der anfragende Nutzer ein konsistentes Ergebnis erhält. Darüber hinaus stellt sich nicht nur die Frage wie eine solche Fusionsanfrage gestellt, sondern auch wie sie optimiert werden kann. Kontakt: Jens Bleiholder | Hasso-Plattner-Institut, Fachgebiet Informationssysteme | Prof.-Dr.Helmert-Str. 2-3 | 14482 Potsdam Telefon: 0331.5509282 Fax: 0331.5509287 EMail:
[email protected] URL: http://www.hpi-web.de/
391
Über die Autorinnen und Autoren
Dr. rer. nat. Block, Frank Dr. Frank Block ist Gründer und Geschäftsführer der FinScore AG, einem unabhängigen Software- und Beratungsunternehmen mit Sitz in Lausanne/Schweiz. Durch seine Erfahrungen mit analytischem CRM und Analyse von Kundenverhalten im Bankenumfeld ist er rasch auf das Thema Datenqualität als einer der Eckpfeiler für den Erfolg von durch grosse Datenmengen getriebenen Geschäftsfeldern gestossen. Seit über 10 Jahren entwickelt er auf Unternehmenserfolg ausgerichtete Verfahren zur Messung und Verbesserung der Informationsqualität, die erfolgreich in Unternehmen eingesetzt werden. Während des Studiums der Physik (Schwerpunkt Hochenergie- und Teilchenphysik) hat Frank Block Methoden der künstlichen Intelligenz kennengelernt und bei seinem vierjährigen Aufenthalt am europäischen Forschungszentrum CERN in Genf auf praktische Probleme anwenden können. Nach Abschluss der Promotion an der Universität Wuppertal, begann er seine Tätigkeit im Bankenumfeld und entwickelte für den Schweizerischen Bankverein in Basel analytische Methoden zur Kundenanalyse im Marketing (häufig auch mit Data Mining oder Database Marketing bezeichnet). Nach der Fusion mit der UBS war Frank Block Gründer der Predict AG und beriet verschiedene grosse Unternehmen in den Themen Data Warehousing, Data Mining, Kampagnenmanagment und Informationsqualitätsmanagement. Frank Block trug ein Kapitel zum Buch “Databased Marketing: Managing Profitable Relationships” (Wiley, April 2005) von Prof. Dr. Reinartz (INSEAD, Paris) bei. Ausserdem hat er verschiedene Artikel geschrieben über Themen wie Informationsqualität, Neuronale Netze, Expertensysteme und Wissensmanagement. Er ist regelmässig Gast bei internationalen Business-Konferenzen. Kontakt: Frank Block | FinScore AG | Chemin de la Rueyre 116-118 | CH-1020 Renens Telefon: +41.216477713 EMail:
[email protected] URL: www.finscore.com
Dr. Brust, Otto-Ernst Dr. Otto-Ernst Brust trat 1973 in das Unternehmen Merck KGaA ein und hatte mehrere Positionen im internationalen Produkt- und Marketing-Management sowie als wissenschaftlicher Koordinator und Leiter von Projekten inne. Seit 1995 hat
392
Über die Autorinnen und Autoren er maßgeblich die Entwicklung und Implementierung von Management-Systemen für die effiziente Geschäftsprozess-Steuerung im Bereich Chemie verantwortet.
Dipl.-Kfm. Engelmann, Florian F. Engelmann arbeitet als wissenschaftlicher Angestellter am Institut für Controlling und Unternehmensrechnung in der Fakultät für Wirtschafts- und Sozialwissenschaften an der Helmut-Schmidt-Universität, Universität der Bundeswehr Hamburg. Außerdem berät er freiberuflich Unternehmen, insbesondere bei der Optimierung von Management-Informationssystemen (MIS) bzw. Führungsinformationssystemen (FIS) aus betriebswirtschaftlicher Perspektive. F. Engelmann studierte Betriebswirtschaftslehre mit dem Schwerpunkt Wirtschaftsinformatik an der Universität der Bundeswehr Hamburg. Bis Ende seines Dienstes als Zeitsoldat war er unter anderem in der Gruppe Weiterentwicklung des Generals der Heeresflieger in den Bereichen Organisation und Planung tätig. Seit 2001 hat er in unterschiedlichen Projekten Führungskräfte des Mittelstandes und Manager in Großunternehmen unterstützt. Zur Zeit ist er Lehrbeauftragter für „Strategisches Management“ und veranstaltet Seminare zum Thema „Informations- und Wissensmanagement für Führungskräfte“. Kontakt: Florian Engelmann | Helmut-Schmidt-Universität | Holstenhofweg 85 | 22043 Hamburg Telefon: 040.65413523 EMail:
[email protected] URL: http://www.engelmann.eu
[email protected] Dr. Gebauer, Marcus Dr. Marcus Gebauer studierte Physik an der Universität Dortmund und der Humboldt-Universität zu Berlin und promovierte im Gebiet der Elementarteilchenphysik im Jahre 1997. Von 1997 bis 2001 war er in der WestLB Systems GmbH verantwortlich für Software-Produkte und -Projekte im Wertpapierumfeld. Seit 2001 leitet er als Datenqualitätsbeauftragter den Bereich Datenqualitätsmanagement der WestLB AG. Sein Verantwortungsbereich umfasst den gesamten Konzern der WestLB, die auf allen Kontinenten mit Handelsaktivitäten vertreten ist. Schwerpunkt seiner Tätigkeit ist die Implementierung eines stetigen Prozesses zur Verbesserung der Datenqualität. Außerdem ist er Gründungsmitglied und Vorstands-
393
Über die Autorinnen und Autoren vorsitzender der Deutschen Gesellschaft für Informations- und Datenqualität (DGIQ e.V.). Dr. Gebauer berät internationale Unternehmen und Organisationen in denen Themen Daten- und Informationsqualität, Business Intelligence und allen sachverwandten Gebieten. Er ist Mitglied des Advisory Boards der FinScore AG (Lausanne/Schweiz), Advisor der ‚School of Computer & Information Science’ der University of South Australia (Adelaide/Australien) und Mitbegründer des EIDIQ ‚European Institute for Data and Information Quality’. Kontakt: Marcus Gebauer | WestLB AG, Department: 001-28009 | Herzogstraße 15 | 40217 Düsseldorf Telefon: 0211.8263827 Fax: 0211.8269554 Mobil: 0176.22062773 EMail:
[email protected] [email protected] Dr. rer. pol. Gräfe, Gernot Dr. Gernot Gräfe hat an der FernUniversität Hagen und der Universität Paderborn Wirtschaftswissenschaften studiert. Seit 2001 arbeitet er im Cooperative Computing and Communication Laboratory (C-LAB). Das C-LAB ist eine Kooperation der Universität Paderborn mit dem Bereich Siemens IT Solutions and Services der Siemens AG. Das C-LAB positioniert sich an der Schnittstelle zwischen Wissenschaft und Industrie und transferiert innovative Informations- und Kommunikationstechnologien aus der Forschung in die Praxis. Im Rahmen seiner Tätigkeit als wissenschaftlicher Mitarbeiter der Universität Paderborn hat Gernot Gräfe im Bereich des strategischen Marketings promoviert. Inzwischen leitet er als Mitarbeiter der Siemens AG die Arbeitsgruppen Business Development und Interactive Dialog Systems des C-LAB. Bereits zu Anfang seiner Tätigkeit hat sich Gernot Gräfe im C-LAB mit dem Thema Informationsqualität beschäftigt. Im Zentrum seiner Arbeiten steht seitdem die Frage nach der Informationsqualität in Entscheidungsprozessen. Dies umfasst private (Kauf-) Entscheidungen und auch unternehmerische (Investitions-) Entscheidungen. Besondere Berücksichtigung findet dabei der elektronische Informationsaustausch im Internet. Bis heute fokussieren Forschungsarbeiten zur Informationsqualität im Internet technische Aspekte. Die Bedeutung, die seiner umfassenden und somit über die Technologie hinausgehenden Betrachtung der Informationsqualität beigemessen wird, hat sich stetig erhöht. Dies zeigt sich auch in aktuellen Forschungsprojekten. Gernot Gräfe arbeitet beispielsweise im Projekt Theseus an Methoden zur umfassenden Erhöhung der Informationsqualität einer Web 2.0
394
Über die Autorinnen und Autoren Informationsplattform im Internet (http://theseus-programm.de/; http://www.clab.de/de/forschungsprojekte/theseus/index.html). Kontakt: Gernot Gräfe | Siemens AG | Siemens IT Solutions and Services, C-LAB | Fuerstenallee 11 | 33102 Paderborn Telefon: 05251.606038 EMail:
[email protected] URL: www.c-lab.de
cand. oec. Großmann, Christoph Christoph Großmann studiert an der Helmut-Schmidt-Universität, Universität der Bundeswehr Hamburg, seit dem Herbsttrimester 2004 Betriebswirtschaftslehre. Er arbeitet am Institut für Controlling und Unternehmensrechnung als studentische Hilfskraft. Zur Zeit schreibt er seine Diplomarbeit im Fach Controlling mit dem Thema „Information als Produktionsfaktor“ und wird voraussichtlich im Frühjahr 2008 sein Studium erfolgreich abschließen. Er hat das Kapitel 6 des Beitrages „Was wissen wir über Information?!“ verfasst.
PD Dr. Heinrich, Bernd PD Dr. Bernd Heinrich studierte Wirtschaftsinformatik an der Universität Regensburg mit den Schwerpunkten Information Engineering, Bankinformatik und Operations Research und promovierte danach von 1999 bis 2002 an der Universität St. Gallen/Schweiz im Bereich Kundenbeziehungsmanagement. Während der Promotionszeit war er unter anderem im Kompetenzzentrum „Bankenarchitekturen im Informationszeitalter“ tätig, wo er sich zusammen mit Unternehmen, wie beispielsweise der Credit Suisse oder der Dresdner Bank, mit der fachkonzeptionellen und prozessualen Gestaltung des Multichannel-Vertriebs von Banken beschäftigte. Von 2002 bis 2007 habilitierte er am Lehrstuhl für Betriebswirtschaftslehre, Wirtschaftsinformatik & Financial Engineering von Prof. Dr. H. U. Buhl an der Universität Augsburg. Hier leitet er die Forscherteams „Kundenzentrische Informationssysteme“ und „Semantik-basierte Planung von Prozessmodellen“ (SEMPRO). Letztgenanntes Forscherteam leitet und koordiniert er seit 2006. Daneben befasst er sich schwerpunktmäßig mit den Themen Informationssystemarchitekturen, Datenqualitäts- und Kundenbeziehungsmanagement sowie der Einführung von Kommunikationsstandards. Im Rahmen seiner Forschungstätig-
395
Über die Autorinnen und Autoren keit arbeitet er eng mit Unternehmen wie beispielsweise HypoVereinsbank, Allianz oder Siemens zusammen. Kontakt: Bernd Heinrich | Universität Augsburg, Lehrstuhl WI-IF | 86135 Augsburg Telefon: 0821.2592314 EMail:
[email protected] URL: www.wi-if.de
Prof. Dr. rer. pol. Hildebrand, Knut Prof. Dr. Knut Hildebrand ist ein Verfechter der ganzheitlichen betriebswirtschaftlichen IT-Beratung. Seinem Studium der Volkswirtschaftslehre und Angewandten Informatik folgte die Promotion zum Dr. rer. pol. in Betriebswirtschaftslehre an der Universität Mannheim. 1996 nahm er den Ruf auf die Professur für BWL, insbesondere Wirtschaftsinformatik, an die Hochschule für Wirtschaft in Ludwigshafen/Rhein an. Seit 2001 lehrt er Betriebliche Informationsverarbeitung im Fachbereich Wirtschaft im Schwerpunkt Internationale BWL, im Studiengang Energiewirtschaft und im Master-Studiengang BWL an der Hochschule Darmstadt (University of Applied Sciences). Prof. Hildebrand ist seit über 25 Jahren in der betrieblichen IT tätig, u.a. als zertifizierter Berater für SAP-Software, Schwerpunkt SD und MM, und Supply Chain Management (SCM). Er implementierte in vielen Projekten erfolgreich SAP® R/3® und ist Autor/Herausgeber von mehr als 20 Büchern zu IT-Themen, ManagementTrainer und Berater. Wissenschaftlich ist er u.a. tätig in der Gesellschaft für Informatik (GI), der Deutschen Gesellschaft für Informations- und Datenqualität (DGIQ) und Mitbegründer des European Institute for Data and Information Quality (EIDIQ). Kontakt: Knut Hildebrand | University of Applied Sciences Darmstadt, Fachbereich Wirtschaft | Schöfferstr. 10 | 64295 Darmstadt Telefon: 06151.168395 EMail:
[email protected] URL: www.hildebrand.info
Prof. Dr.-Ing. Hinrichs, Holger Dr. Hinrichs ist Professor für Informationssysteme und IT-Sicherheit an der Fachhochschule Lübeck. Darüber hinaus leitet er den Bereich Forschung & Entwicklung der TIQ Solutions GmbH. Nach seinem Informatik-Studium an der Universität
396
Über die Autorinnen und Autoren Oldenburg war er von 1996 bis 2002 als Softwareentwickler am Informatik-Institut OFFIS tätig. Im Rahmen dieser Beschäftigung promovierte er zum Thema „Datenqualitätsmanagement in Data Warehouse-Systemen“. Nach einer zweijährigen Vertretungsprofessur für Wirtschaftsinformatik an der Hochschule Harz wurde er 2004 an die FH Lübeck berufen. Im selben Jahr gründete er die TIQ Solutions GmbH, die sich als Dienstleister im Bereich des nachhaltigen Datenqualitätsmanagements versteht. Kontakt: Holger Hinrichs | TIQ Solutions GmbH | Industriestr. 85-95 | 04229 Leipzig Telefon: 0341.35590300 EMail:
[email protected] Diplom Verwaltungswirt Kasten, Gerhard Gerhard Kasten ist seit 25 Jahren bei der Deutschen Post tätig. Er war in verschiedenen Funktionen auf lokaler und regionaler Ebene für die Qualität und Wirtschaftlichkeit der Brief- und Paketsortierung und der Briefzustellung verantwortlich. Dabei arbeitete er bei der Einführung eines Total Quality Management Konzeptes und verschiedener Qualitätsmeßsysteme mit, sowie bei Qualitätsprüfungen von Briefsortierzentren und Zustellstützpunkten. Seit Anfang 2000 wirkt er als „Gruppenleiter Datenqualitätsmanagement“ mit seinem Team an der Sicherstellung der Datenqualität von IT-Systemen des Briefdienstes mit. Seit Januar 2006 ist er Mitglied der Deutschen Gesellschaft für Informations- und Datenqualität DGIQ e. V. Kontakt: Gerhard Kasten | Deutsche Post | Postfach 10 30 43 | 40021 Düsseldorf Telefon: 0211.1631766 EMail:
[email protected] Dipl.-Math. oec. Klier, Mathias Dipl.-Math. oec. Mathias Klier studierte bis 2005 Wirtschaftsmathematik an der Universität Augsburg und vertiefte sich in den Fächern Optimierung und Operations Research. Parallel zu seinem Studium sammelte er praktische Erfahrungen in der Finanzdienstleistungsbranche und wirkte als wissenschaftliche Hilfskraft am Lehrstuhl von Prof. Dr. H. U. Buhl an der Universität Augsburg mit. In seiner Diplomarbeit beschäftigte sich Herr Klier mit dem Thema "Messung von Datenqualität
397
Über die Autorinnen und Autoren und ökonomische Bewertung von Datenqualitätsmaßnahmen – ein dynamisches Optimierungsmodell am Beispiel eines Mobilfunkanbieters". Im Jahr 2007 erhielt er hierfür den Förderpreis der Vodafone-Stiftung für Forschung im Bereich Markt/Kundenorientierung. Seit Juni 2005 ist Herr Klier als wissenschaftlicher Mitarbeiter am Lehrstuhl von Prof. Dr. H. U. Buhl in Augsburg tätig. Im Rahmen seiner Forschungsaktivitäten beschäftigt er sich schwerpunktmäßig mit dem Finanzdienstleistungs- und Mobilfunkbereich und interessiert sich vor allem für die Themengebiete Kundenbeziehungsmanagement, Datenqualität und Einführung von Kommunikationsstandards. Kontakt: Mathias Klier| Universität Augsburg, Lehrstuhl WI-IF | 86135 Augsburg Telefon: 0821.5984137 EMail:
[email protected] URL: www.wi-if.de
Landt, Volker Volker Landt ist als Dipl. Chem. Seiteneinsteiger im IT-Bereich der Bremer Landesbank und dort seit 1996 zunächst mit den Aufgabenschwerpunkten Netzwerkbetriebssysteme und Netzwerkarchitektur tätig. Später verlagerte sich sein Aufgabenfeld hin zu Datenbanken und Anwendungsentwicklung, wo er von 1999 bis 2005 Leiter war. Seit 2005 ist er Teamleiter der neu gebildeten Einheit Datenmanagement. Hier vereinigen sich die Themen Datenqualitätsmanagement, Datawarehousing, Datenhaushaltsstrategie und Bebauungsplan. Kontakt: Volker Landt | Bremer Landesbank | Domshof 26 | 28195 Bremen Telefon: 0421.3322078 EMail:
[email protected] M.A., Prof. Dr. rer. nat. Lüssem, Jens Prof. Dr. Jens Lüssem studierte Mathematik, Physik und Informatik an der Ecole Polytechnique in Paris und der Universität Bonn, an der in angewandter Informatik promovierte. Nach einer Tätigkeit bei dem Bundesaufsichtsamt für das Kreditwesen mit den Tätigkeitsschwerpunkten Prüfung interner Modelle und Basel II, wechselte er zur HSH Nordbank AG, bei der er zunächst als Risikomanager, später als Prozessverantwortlicher für die Einführung neuer Finanzprodukte und derzeit
398
Über die Autorinnen und Autoren als Datenqualitätsmanager tätig ist. 2005 nahm der den Ruf auf die Professur für intelligente Informationssysteme und Wissensmanagement an der Fachhochschule Braunschweig/Wolfenbüttel an. Dort lehrt er im Schwerpunkt Data Mining, Projektmanagement und Software-Qualität. Prof. Dr. Lüssem engagiert sich in der Gesellschaft für Informatik (GI) und der Deutschen Gesellschaft für Informations- und Datenqualität (DGIQ). Ferner ist er Mitbegründer und Präsident des European Institute for Data and Information Quality (EIDIQ) Kontakt: Jens Lüssem | University of Applied Sciences Braunschweig/Wolfenbüttel, Fachbereich Informatik | Salzdahlumer Str. 46/48 | 38302 Wolfenbüttel Telefon: 05331.9396411 EMail:
[email protected] URL: www.fh-wolfenbuettel.de
Dr. Maaß, Christian Dr. Christian Maaß leitet den Forschungsbereich bei der Lycos Europe GmbH. In dieser Position ist er in diversen nationalen und europäischen IT-Projekten involviert. Zuvor arbeitete er als wissenschaftlicher Mitarbeiter an den Universitäten in Chicago und Hagen und sammelte Berufserfahrung in der IT-/Medienbranche in Nordamerika und Europa. Christian Maaß ist weiterhin Autor mehrerer Fach- und Lehrbücher. Seine Forschungsschwerpunkte liegen im Schnittbereich von Unternehmensführung und Informatik. Kontakt: EMail:
[email protected] [email protected] URL: www.christian-maass.com
Dipl.-Math. Malzahn, Dirk Dirk Malzahn studierte an der Ruhr-Universität Bochum Mathematik, Elektrotechnik und Informatik. Nach seinem Abschluss als Diplom-Mathematiker war er 10 Jahre lang für die Elektrobandsparte der ThyssenKrupp AG tätig, zuletzt als Leiter IT / Organisation. Seit Juli 2001 berät er Unternehmen unterschiedlicher Größenordnung und Branchen in den Bereichen Qualitätsmanagement und Prozessoptimierung.
399
Über die Autorinnen und Autoren Dirk Malzahn leitet die Bereiche Qualitätsmanagement und Forschung bei der OrgaTech GmbH, Lünen und ist Geschäftsführer des Tochterunternehmens ACCEL GmbH. Er ist seit vielen Jahren Dozent an der Technischen Akademie Esslingen zum Thema Softwarequalität und hat einen Lehrauftrag an der Fakultät für Informatik der Fachhochschule Dortmund. Mit seinem Schwerpunktthema Qualität ist Dirk Malzahn auf den maßgeblichen nationalen und internationalen Tagungen präsent, und arbeitet aktuell an mehreren Fachbuchprojekten in Deutschland, Australien und den USA mit. Dirk Malzahn lebt mit seiner Frau und seinen beiden Töchtern in Bochum. Kontakt: Dirk Malzahn | ACCEL GmbH | Zum Pier 73 – 75 | 44536 Lünen Telefon: 0231.399950 EMail:
[email protected] Dipl. Kaufmann Mielke, Michael Michael Mielke studierte Wirtschafts- und Organisationswissenschaften an der Helmut Schmidt Universität in Hamburg (1989) sowie Accounting und Finance an der University of Texas in Houston (1994). Seine Schwerpunkte liegen in den quantitativen Methoden der BWL, im Operations Research und in der Managementberatung. Als international tätiger Berater hat er sich bis Ende 2002 vor allem auf komplexe IT Großprojekte im Bankenumfeld konzentriert. Seit 2003 ist er Teamleiter im Inhouse Consulting (TQM-Team) der Bahn AG. Er leitet zur Zeit das Competence Center Unternehmenssteuerung & Informationsmanagement und ist an zahlreichen Projekten innerhalb und außerhalb des Konzerns zur Verbesserung von Prozessen beteiligt. Das Thema Information Quality verbindet seine Interessen aus IT und Managementberatung. Er arbeitet mit dem IQ Program des Massachusetts Institute of Technology und dem Gründervater des IQM Richard Wang seit 2002 eng zusammen und hat z.B. die IQM-Bildungsangebote maßgeblich geprägt. Er ist Gründungsmitglied der Deutschen Gesellschaft für Informations- und Datenqualität (DGIQ e.V.), deren Vorstandsvorsitzender seit Gründung im Jahre 2005, Mitbegründer des EIDIQ ‚European Institute for Data and Information Quality’, Gründer der deutschen IQ Community und Wegbereiter u.a. für IQ Communities in Canada, Brasilien und Chile. Er ist Program Chair der ICIQ am MIT in Boston und Publicity Chair des MIT IQ Industrie Symposium. Er berät Unternehmen, Organisationen in Themen der Daten und Informationsqualität, ist aktiv in die
400
Über die Autorinnen und Autoren Forschung eingebunden, lehrt u.a. an der FH Wolfenbüttel als Lehrbeauftragter und nach eigenen Angaben „Wanderprediger“ in Sachen Informationsqualität. Kontakt: Michael Mielke | Deutsche Bahn AG | Solmsstrasse 18 | 60486 Frankfurt / Main Telefon: 069.26527329 Fax: 069.26520988 EMail:
[email protected] Dr. rer. nat. Möller, Frank Dr. Frank Möller studierte Mathematik und Physik an der Georg-August Universität Göttingen und an der Technischen Universität München, wo er 1996 im Gebiet der Mikroelektronik und experimentellen Halbleiterphysik promovierte. Von 1997 bis 1999 war er verantwortlich für europäische Marketing-Projekte eines amerikanischen Chip-Herstellers. Er arbeitet seit 1999 bei der Merck KGaA im Bereich Chemie. Nach verschiedenen Marketing- und Vertriebspositionen ist er heute Teamleiter für das Geschäftsprozess- und Qualitätsmanagement in der Sparte Performance & Life Science Chemicals. Kontakt: Frank Möller | Merck KGaA, Performance & Life Science Chemicals | Frankfurter Straße 250 | 64293 Darmstadt Telefon: 06151.722664 Fax: 06151.72912664 EMail:
[email protected] URL: http://www.merck.de/
Moser, Helena Ist 1965 geboren. Sie ist gelernte Bankkauffrau und absolvierte die Bankakademie. Ihre erste berufliche Tätigkeit nahm sie bei der Norddeutschen Landessbank in Braunschweig auf. Nach einer Zeit als Kundenberaterin wechselte sie in den strategischen Bereich Produktmanagement und verantwortete den Jugendmarkt. Seit 1991 ist sie bei der Volkswagen Financial Services AG in Braunschweig tätig. Sie baute den Bereich Direktmarketing in der Volkswagen Bank mit auf und übernahm für fünf Jahre bis Ende 2000 die Leitung. Schwerpunkt ihrer Tätigkeiten liegen derzeit auf den Gebieten des Customer Relationship Management (CRM). Neben der Projektleitung für Datenqualität erwarb sie detaillierte Kenntnisse und Erfahrungen aus der Leitung geschäftsfeldübergreifender Projekte wie CRM, Datenschutz, DataMiningTool, Kundenwertsteuerungs-Modell. Weiterhin engagiert sie sich für den Nachwuchs an jungen Kollegen und ist seit mittlerweile 15 Jahren
401
Über die Autorinnen und Autoren ein aktives Prüfungsmitglied im Prüfungsausschuss der IHK Braunschweig für den Beruf Bankkaufmann/frau. Nach der Oparationalisierung des Datenqualitätsmanagement übernahm sie zeitweise die zentrale Zuständigkeit. Ab Sommer 2008 verantwortet sie den Aufbau Marketing/Vertrieb/CRM in einer neuen Tochtergesellschaft der FSAG. Kontakt: Helena Moser | Volkwagen Bank GmbH | Brieffach P-BMC | Gifhorner Strasse 57 | 38112 Braunschweig
Dr. Otto, Boris Dr. Boris Otto leitet am Institut für Wirtschaftsinformatik der Universität St. Gallen das Kompetenzzentrum Corporate Data Quality (CC CDQ), das aktuelle Forschungsfragen zu Data Governance, Datenarchitekturen und Stammdatenmanagement behandelt. Seine vorherigen beruflichen Stationen umfassen Positionen bei SAP und PricewaterhouseCoopers sowie am Fraunhofer-Institut für Arbeitswirtschaft und Organisation. Boris Otto promovierte an der Universität Stuttgart und studierte Wirtschaftsingenieurwesen an der TU Hamburg-Harburg. Kontakt: Boris Otto | University of St. Gallen, Institute of Information Management | MuellerFriedberg-Str. 8 | CH-9000 St. Gallen Telefon: 0041.712243220 Fax: 041.712242777 EMail:
[email protected] URL: http://www.iwi.unisg.ch
M. A. Piro, Andrea Andrea Piro hat ihr Studium der Soziologie, mit dem Schwerpunkt Organisation, an der Heinrich-Heine-Universität Düsseldorf mit dem Thema „Warum scheitert das Business Reengineering häufig in IT-Projekten?“ im Jahr 2000 abgeschlossen. Während Ihres Studiums wirkte sie an der Einführung von SAP R/3 HR in der Personalwirtschaft der Bayer AG, Leverkusen mit. Sie ist seit 2000 Mitarbeiterin im Datenqualitätsmanagement der WestLB AG und Mitglied in der Deutschen Gesellschaft für Informations- und Datenqualität (DGIQ). Kontakt: Andrea Piro | WestLB AG | Herzogstraße 15 | 40217 Düsseldorf EMail:
[email protected] 402
Über die Autorinnen und Autoren
Dr. rer. pol. Rohweder, Jan Philipp Dr. Jan Philipp Rohweder studierte in den USA und an der Universität Mannheim Volkswirtschaftlehre und Gesundheitsökonomik. Schwerpunkte seiner Ausbildung waren angewandte Ökonometrie und Versicherungslehre. Im Jahr 1996 wurde er mit einer Arbeit über die Nachfrage nach Krankenversicherung an der Universität Mannheim promoviert. Im selben Jahr trat er in den Finanzbereich der Deutschen Shell AG, Hamburg, als Trainee ein. Nach verschiedenen Stationen im Treasury und Controlling wechselte Dr. Rohweder im Jahr 1999 in die Interne Revision von Roche. Seit 2002 leitet Dr. Rohweder das Kunden-Database-Management der Roche Diagnostics GmbH, Mannheim, und verantwortet mit einem Team von 14 Mitarbeitenden das Qualitätsmanagement der Kundenstammdaten im Vertrieb Deutschland. Interessenschwerpunkte sind die Messung der Qualität von Stammdatenbeständen sowie Controllingkonzepte für das Management von Informationsqualität. Er ist Mitglied der DGIQ und gefragter Referent auf Fachkonferenzen zum Thema Informationsqualität. Im Sinne einer ganzheitlichen, anwenderorientierten Informationsqualität ist er ein Verfechter von prozessorientierten Ansätzen zur Optimierung von Aktualisierungsroutinen und der Datenbereitstellung in CRMApplikationen. Kontakt: Jan Philipp Rohweder | Roche Diagnostics GmbH | Sandhofer Str. 116 | 68305 Mannheim Telefon: 0621.7592654 EMail:
[email protected] Dipl.-Inform. Schmid, Joachim Joachim Schmid ist Leiter der Software-Entwicklungsabteilung bei der FUZZY! Informatik AG und verantwortlich für die Entwicklung von Werkzeugen für Datenqualitätsmanagement. Er studierte Informatik an der Universität Karlsruhe. Nachdem er bei T-Systems als Berater in Data Warehouse Projekten tätig war, wechselte er 1999 zur FUZZY! Informatik AG. Hier war er zunächst für Qualitätssicherung und Standards zuständig und maßgeblich an der Weiterentwicklung des FUZZY! DataCare® Process, einem Vorgehensmodell für Datenqualitätsprojekte, beteiligt. Joachim Schmid ist einer von weltweit 10 Absolventen des IQ-2 Kurs für Information Quality Professionals am MIT in Boston und Mitglied in der Deutschen Gesellschaft für Informations- und Datenqualität e.V. (dgiq).
403
Über die Autorinnen und Autoren Kontakt: Joachim Schmid | FUZZY! Informatik AG – Data Quality Competence Center | Tübinger Str. 53 | 70178 Stuttgart Telefon: 0711.9011980 EMail:
[email protected] Dipl.-Ökonom Schwinn, Klaus Klaus Schwinn hat ca. 20 Jahre Erfahrung im Datenmanagement von großen Unternehmen. Klaus Schwinn studierte Mathematik und Wirtschaftsinformatik an der Technischen Universität in Darmstadt sowie Wirtschaftswissenschaften an der FU Hagen. Nach einigen Jahren als freier Mitarbeiter im Rechenzentrum einer deutschen Großforschungseinrichtung wechselte er von der technisch-wissenschaftlichen in die kommerzielle Datenverarbeitung. Ab 1987 war er Mitarbeiter im Datenmanagement des damaligen Schweizerischen Bankvereins in Basel (heute UBS AG) und hier in verschiedenen Positionen u.a. verantwortlich für die Evaluierung von 4GL-Sprachen und CASE-Werkzeugen. Später übernahm Klaus Schwinn die Verantwortung für die Datenarchitektur, die Datenadministration und das Datenbankmanagement der Bank. Ab 1995 war er als Business Area Manager bei einem grossen Schweizer Systemintegrator verantwortlich für den Bereich Business Intelligence, den er zu einem der führenden Kompetenzzentren in der Schweiz entwickelte. Nach einem Engagement bei einem führenden internationalen Beratungshaus war er von 2003-2007 in der Geschäftsleitung bei der UFD AG in Basel verantwortlich für den Bereich Datenmanagement mit den Arbeitsschwerpunkten Datenarchitektur, unternehmensweites Daten- und Informationsmanagement, Datenqualitätsmanagement, Data Warehousing und Business Intelligence. Seit Dezember 2007 ist er als Sektorleiter verantwortlich für das Software-Engineering Data Warehouse & MIS bei der Credit Suisse in Zürich. Klaus Schwinn war CoFounder und Chairman einer Europäischen Repository Benutzervereinigung. Zu seinen Veröffentlichungen gehört u.a. auch das Buch „Unternehmensweites Datenmanagement“, das sich im deutschsprachigen Raum als Klassiker etabliert hat und im April 2005 in der 4. Auflage erschienen ist. Er ist u.a. Mitglied bei der Deutschen Gesellschaft für Informations- und Datenqualität. Kontakt: Klaus Schwinn | Credit Suisse | Postfach | CH-8070 Zürich Email:
[email protected] 404
Über die Autorinnen und Autoren
Skrablies, Werner Werner Skrablies trat 1982 in das Unternehmen Merck KGaA ein. Nach mehreren Stationen im Unternehmen wechselte er 1987 in das Internationale Produktmanagement der heutigen Sparte Performance & Life Science Chemicals als Produktmanager. Im Jahr 2000 übernahm er dort die Position eines Prozessmanagers. Seit 2004 ist er Produktionsmanager im Bereich Technical Operations der Sparte.
PD Dr. Treiblmaier, Horst Horst Treiblmaier ist Privatdozent am Institut für Betriebswirtschaftslehre und Wirtschaftsinformatik der Wirtschaftsuniversität Wien. Seine Forschungsinteressen liegen in den Bereichen Kundenbeziehungsmanagement, Datenqualität und Analyse von Websites, wobei er sich vor allem mit den kommunikationspolitischen Auswirkungen von Informationssystemen beschäftigt. Im Rahmen seiner Habilitation untersuchte er die Einstellung von AnwenderInnen von WebInformationssystemen hinsichtlich der Weitergabe personenbezogener Daten. Horst Treiblmaier ist Autor und Koautor von mehr als 70 wissenschaftlichen Publikationen, die unter anderem in folgenden Zeitschriften veröffentlicht wurden: Wirtschaftsinformatik, Communications of the AIS, Journal of Electronic Commerce Research, International Journal of Electronic Business Management, Schmalenbach Business Review, Electronic Markets, Transactions on Advanced Research, International Journal of Technology, Policy and Management und International Journal of Mobile Communications. Kontakt: Horst Treiblmaier | Wirtschaftsuniversität Wien, Institut für BWL und Wirtschaftsinformatik | Augasse 2-6 | A-1090 Wien Telefon: +43.1313364784 Fax: +43.131336746 EMail:
[email protected] Weigel, Niels Niels Weigel ist Leiter des Business Development bei der FUZZY! Informatik AG. Seit über 13 Jahren ist er im Bereich Datenqualitätsmanagement in der Hauptsache für Geschäftspartnerstammdaten als Berater tätig. Bei der FUZZY! Informatik AG war er maßgeblich am Aufbau des FUZZY! DataCare® Process, einem Vorgehensmodell für Datenqualitätsprojekte, beteiligt.
405
Über die Autorinnen und Autoren Über das Thema Datenqualität referiert Niels Weigel auch international auf einer Vielzahl von Veranstaltungen. Zusätzlich ist Niels Weigel Mitglied des Advisory Board für den Master of Science in Information Quality (MSIQ) an der University of Arkansas in Little Rock (UALR). Er ist zudem Vorstand der Deutschen Gesellschaft für Informations- und Datenqualität e.V. (DGIQ). Kontakt: Niels Weigel | FUZZY! Informatik AG – Data Quality Competence Center | Tübinger Strasse 53 | 70178 Stuttgart Telefon: 0711.9011980 EMail:
[email protected] URL: www.fazi.de
Wende, Kristin Kristin Wende ist Wissenschaftliche Mitarbeiterin am Institut für Wirtschaftsinformatik der Universität St.Gallen. Nach ihrem Studium der Wirtschaftsinformatik an der Universität Leipzig arbeitete sie 2.5 Jahre als SAP R/3 Consultant in einem Großhandelsunternehmen. Im Kompetenzzentrum Corporate Data Quality (CC CDQ) erarbeitet sie derzeit Lösungsansätze zur Verbesserung der unternehmensweiten Datenqualität. Der Schwerpunkt liegt dabei auf der Etablierung einer Data Governance, durch die Rollen und Verantwortlichkeiten im Kontext des Datenqualitätsmanagements organisiert werden. Kontakt: Kristin Wende | Institut für Wirtschaftsinformatik | Mueller-Friedberg-Str. 8 | St. Gallen Telefon: +41.712247054 Fax: +41.712242777 EMail:
[email protected] URL: http://www.iwi.unisg.ch
Dr. Windheuser, Ulrich Dr. Ulrich Windheuser ist Gruppenleiter im Geschäftsbereich Information Technology der WestLB AG, Düsseldorf. In der Vergangenheit hat er sich als interner Unternehmensberater intensiv mit den Themen Data Mining und DatenqualitätsManagement, dort speziell mit Datenqualitäts-Messungen beschäftigt. Er hat zahlreiche Datenqualitäts- und Datenanalyse-Projekte in Kooperation mit verschiedenen Fachbereichen durchgeführt. Als Besonderheiten sind die Mitwirkung an einer Veröffentlichung eines Data Mining-Buches, die Eigenentwicklung eines Datenqualitäts-Messinstruments und die Konzeption und Durchführung von Datenqualitäts-Seminaren hervorzuheben.
406
Über die Autorinnen und Autoren Kontakt: Ulrich Windheuser | WestLB AG | Herzogstr. 15 | 40217 Düsseldorf Email:
[email protected] URL: http://www.westlb.de
Wolf, Jürg Nach beruflichen Anfängen in der Bauplanung und dem Umgang mit CADSoftware begann sich Jürg Wolf autodidaktisch in der IT auf verschiedenen Gebieten aus- und weiterzubilden. Jürg Wolf ist seit mehreren Jahren auf der praktischen Seite des Datenqualiätsmanagements tätig und hat zuletzt für die IT-Inventar-Datenbank der Schweizer Grossbank UBS ein webbasiertes Messsystem für Datenqualität erstellt. 2006 hat er berufsbegleitend die Ausbildung zum Betriebsökonom FH bei der AKAD abgeschlossen. Die Diplomarbeit zeigt 9 strategische Möglichkeiten auf, wie die Datenqualität in Datenbanken verbessert werden kann. Seit Mitte 2007 ist Jürg Wolf für alle Daten eines Schweizer Vermögensverwalters verantwortlich. Kontakt: EMail:
[email protected] Zwirner, Marcus Marcus Zwirner ist als Leiter des Consulting-Bereichs bei der FUZZY! Informatik AG u.a. verantwortlich für die erfolgreiche Abwicklung der Kundenprojekte rund um das Thema "Datenqualität" und die reibungslose Einführung der FUZZY! Softwareprodukte. Er verfügt über langjährige internationale Erfahrung in der Konzeption und Durchführung von Datenqualitätsprojekten und referiert regelmäßig auf unterschiedlichen Veranstaltungen zum Thema Datenqualitätsmanagement. Kontakt: Marcus Zwirner | FUZZY! Informatik AG – Data Quality Competence Center | Tübinger Str. 53 | 70178 Stuttgart Telefon: 0711.9011980 EMail:
[email protected] URL: www.fazi.de
407
Stichwortverzeichnis „fit for use“-Konzept 29 „if-then“-Regeln 95
Bewertung der Informationsqualität 25
Abgleich 99
Bot 302
Abhängigkeit zur Realität 237
Bremer Landesbank 313
Abstandsmaß 57
Business Data Dictionary 276
Aggregierbarkeit 51
Business Object 148
Ähnlichkeitsmaß 127, 132
Business Rules 74
Edit-Distanz 127, 132
Call Center 370
Jaro/Winkler 132
Checkliste 225
Levenshtein-Distanz 127, 132
Cloaking 162
Metaphone 132
CRM 106, 371
n-Gramm-Verfahren 132 Soundex 132 AIMQ-Methode 52
Adressmanagement 105, 106, 111, 112, 114, 116, 118, 119, 120, 122 Dublettenprüfung 116, 118, 119, 120, 122
Aktualität 28, 41, 49, 62
Data Consumer 236
Angemessener Umfang 28, 33
Data Definition Owner 236
Aufgaben 253
Data Governance 265
Ausgabedaten 148
Aufgaben 274
Ausreißer 95
Gestaltungsparameter 278
Autonomie 123
Rollen 272
Autorisierungsrolle 237
Zuständigkeiten 276
BAFIN 320
Data Mining 95
Bearbeitbarkeit 28, 37
Data Owner 236, 355, 361
Bestand
Data Profiling 76, 77, 140
führender 99
Data Provider 237
nachgelagerter 99
Data Scrubbing 139
Referenzbestand 99
Data Warehouse 157, 248
Betriebsressourcen 252
Datenanalyse 88
Bewegungsdaten 147
Datenarchitektur 257, 276
409
Stichwortverzeichnis Datenarten 143, 306, 308, 309, 311 Datenbereinigung 70, 84, 102, 103, 104, 106, 107, 108, 109, 112, 113, 115, 116, 117, 118, 119, 120, 121, 122
Datenqualitätsmessung 102, 112, 116, 120, 121 Datenqualitätsregel 112, 116, 120, 121, 122
manuell 106, 107, 108, 119
Dimensionen 49
maschinell 106, 107, 117, 118, 119
Monitoring 109, 121
Datendefinition 90
spezifikationsorientierte 49
Datendefinitionsqualität 90
Datenqualitätsarbeitskreis 315
Dateneigner 205
Datenqualitätsaudit 198
Datenerfasser 205
Datenqualitätsbericht 220
Datenerhebung 300, 302, 311
Datenqualitätsbewusstsein 367
Datenerhebungen 310
Datenqualitäts-Checkliste 199
Datenfehler 102, 103, 104, 105, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 119, 120, 121, 122
Datenqualitätskomitee 272 Datenqualitätskoordinatoren 224
Fehlerkorrektur 102, 103, 104, 106, 108, 113, 115, 116, 117, 118, 119
Datenqualitätsmanagement 68, 69, 70, 72, 73, 74, 76, 77, 80, 81, 85, 86, 266, 313, 350, 355, 359
Fehlerursache 103, 104, 110, 114
Datenqualitätsmängel 220
Datenfusion 123, 135, 141
Datenqualitätsmerkmale 89
Datenintegration 123, 141
Datenqualitätsmessung 79, 80, 81, 84, 85
Datenkonflikt Unsicherheit 135
Datenqualitätsmetriken 89
Widerspruch 135
Datenqualitätsorganisation 315
Datenkunde 205
Datenqualitätspyramide 89
Datenlandkarte 255 Datenmenge 245
Datenqualitätsregeln 74, 76, 77, 78, 79, 80, 85
Datenprodukt 25
Datenqualitätsstrategie 275
Datenproliferation 264
Datensammlung, Datenverarbeitung und Datennutzung 208
Datenqualität 88, 102, 103, 105, 107, 108, 109, 110, 111, 112, 114, 119, 121, 122
Datenschutz 43, 299, 300, 307 Datenschutzerklärung 307
Datenqualitätsanalyse 102
Daten-Stewards 273
Datenqualitätsmanagement 102, 107, 108, 109, 110, 121
Datenverarbeiter 205
410
Datenverlust 43
Stichwortverzeichnis Datenweitergabe 300, 301, 303, 305, 306, 307
Erfolgskontrolle 344
Delphi-Methode 288
Erweiterte Datenqualitätspyramide 93
Dokumentenbewertung 159
Eskalationsinstanzen 317
Doorway-Pages 162
EVA-Prinzip 229
DQ-Business Case 376
Fachliche Interpretierbarkeit 51
DQ-Dimensionen 52
Fehlerfreiheit 28, 37, 49, 57
DQI 368
Firmenkultur 245
DQ-Organisation 224
fit for use Konzept 26
DQ-Regelkreisen 225
Fitness for Use 89
Dublette 129, 130, 131, 133, 135
Folksonomies 168
Erkennung 123
Format 146
Dubletten 43, 321
Framing-Effekt 179
Dublettenerkennung 123, 129, 133, 141
Generische Ansätze 231
Sorted-Neighbourhood-Verfahren 133
Generische Lösung 246 Geschäftsprozessmanagement (GPM) 332
Dublettengruppe 129, 134
Geschäftsregel 236
Economy of Scale 263
Geschäftsregeln 88
Edit-Distanz 127
Gesetzliche Anforderungen 105
Effizienzanalysen 346
Basel II 105
Eindeutige Auslegbarkeit 28, 38
SOX 105
Eingabedaten 148
gesicherte Steuerungsdaten 347
Einheitliche Darstellung 28, 36
Glaubwürdigkeit 28, 34
Entscheidungen
Hamming-Distanz 59
Entscheidungsnutzen 173, 176
Häufigkeitsauszählung 94
Entscheidungsprozess 174
Haushaltsbildung 132
Fehlentscheidungen 172, 176, 177, 179, 180, 188
Heterogenität 123
Kaufentscheidungen 172, 173, 174, 178, 184, 185, 189
Schemaheterogenität 126 semantische 123
Entscheidungsmodell 300, 301
strukturelle 123
Erfahrungseigenschaften 174, 180, 185, 189
technische 123 Hohes Ansehen 28, 40
411
Stichwortverzeichnis Homonym 126
Interpretation 175, 182
Hörfehler 131
Neuigkeit 175, 182
Information 173, 175, 253
Wahrheit des Informationsinhalts 176, 179
Information Lifecycle Management 284 Information Product Map 260
Zeitpunkt der Bereitstellung 176, 178
Information Retrieval 159
Zeitpunkt des Zugriffs 176, 182
Informationsasymmetrie 172, 173, 179, 184
Zugriffsmöglichkeit 175, 182
Informationsbedarf 253
Informationsqualitätsmanagement 259
Informationsbegriff 3
Informationsquellen
Informationsbeschaffung 253 Informationsgruppen 98 Informationskosten 177, 183, 184, 188 Informationsmanagement 7, 331 Informationsmanagementprozess 252
Anbieter 172, 175, 176, 177, 184, 189, 190 Nachfrager 187, 188, 190, 191 unabhängige Organisationen 187, 188, 191 Informationstheorie 11 Informationswirtschaft 9
Informationsmanagement-prozess 258
Inhalt 146
Informationsmodell 14
Inhaltsdaten 147
Informationsplanung 253, 254
Integration
Inhaltliche Datenqualität 90
Informationsprodukt 260
Datenintegration 123
Informationsprozess 338, 339, 348
Integrationsprozess 124
Informationsqualität 25
materialisierte 124
Informationsqualitätskriterien 174
virtuelle 124
Aktualität 176, 178
Internet 172, 178, 181, 183, 184
Form der Bereitstellung 175, 178
Rechtsunsicherheit im Internet 186
Glaubwürdigkeit 175, 180, 188, 189
Suchmaschine 172 Intrinsisch 92
Informationsumfang 177, 180
IQ-Dimensionen 26, 28, 29
Informationswert 177, 183 inhaltliche Relevanz 176
IQ-Kategorie, darstellungsbezogene 30
Inhaltliche Relevanz 182
IQ-Kategorie, inhärente 30
412
Stichwortverzeichnis IQ-Kategorie, systemunterstützte 30
Linkfarmen 162
IQ-Kategorie, zweckabhängige 30
Managementunterstützung 245
IQ-Kategorien 29, 30
Mapping
IQ-Management 25
Schema Mapping 126
IT-Architektur 222
Masterdaten 238
Kardinalität 51 Key Performance Indicators 342, 368
Maximum Weighted Matching Verfahren 127
Kommunikation 143
Mehrdimensionalität 248
Komplexität des Systems 245
Merkmal 25
Kondor+ 318
Messung, Maßnahmen und Überwachung 209
Konfliktbehandlung CONQUER-System 136 Konflikte auflösen 137 Konflikte ignorieren 136 Konflikte vermeiden 136 Strategie 136 Survivor-Strategie 137 Konfliktlösung Fuse By 138 HumMer-System 138 Mehrheitsentscheid 137 Mittelwertbildung 137
Messverfahren 54 Metadaten 147, 164 Metriken 49, 54 Monitoring 365 Nachricht 173, 175 Niederschwellig 242 Normierung 51 Objektivität 28, 39 Ontologieentwicklung 168 Ontologien 164 Opportunismus 173, 177, 182, 184, 189, 191
Konsistenz 49, 60
Organisation 217, 246
Konsistenzprüfung 99
Plausibilitätsprüfung 112, 113, 116, 120
Konsistenzregeln 61 Kontextbezug 92 Kulturwechsel 246 Larry English 90 Lebenszyklus 240 Lernprozesse 219 Levenshtein-Distanz 127 Lifecycle 240
Referenzdaten 107, 112, 116, 117, 118, 119, 120, 121, 122 Wertebereiche 112, 113, 114, 116, 120 Preisvergleich 173, 187 Process Owner 236 Produktionsfaktor 19 Profiling 88
413
Stichwortverzeichnis Projekt 225
Review-Tätigkeit 225
Prozess 149
Richard Wang 91
Prozesse 224
Rückkopplung 239
Prozesslandkarte 249
Schema Matcher
Prozessprobleme 244 Prozessumsetzung 245
Horizontale Matcher 128 Schema Matching 123, 126, 141
Qualität der Datenpräsentation 90
CUPID Matcher 127
Qualitätsmanagement 259
DUMAS-Matcher 128
ökonomisch orientiertes 49
Instanzbasierte Verfahren 127
Qualitätsplan 260
Kombinierte Matcher 128
Qualitätsstandards 364, 366
Schemabasierte Verfahren 127
RACI 277
Vertikale Matcher 127
Realweltobjekt 129
Schnittstellenmanagement 223
Redundanzen 43
semantische Suchdienste 158
Referenzdatensysteme 140
semantisches Web 158, 163
Regelinduktion 95
Sensibilisierbarkeit 51
Regeltyp
Sicherheit 27, 43
Content Rules 96
Slavedaten 238
Key Rules 96
Sorted-Neighbourhood-Verfahren 133
Matching Rules 96 Regelwerk 364
Sortierschlüssel 134
Reifegradmodell 284
Speicherdaten 148
Chaotisch 290
Spiegeldaten 238
IQM-Reifegradmodell 289
Stabilität 147
Messend 291
Stable Marriage Verfahren 127
Optimierend 292
Stammdaten 147
Reaktiv 291
Standardisierung 139
Reifegrad-Niveau 290
Standardsoftware 246
Steuernd 292
Struktur 146
Relevanz 28, 39
Semistrukturierte Daten 146
Repräsentation 92
Strukturierte Daten 146
Resource Description Framework 167
unstrukturierten Daten 146
414
Strukturierung 139
Stichwortverzeichnis Sucheigenschaften 174, 184, 185, 189
Verantwortlichkeit 354
Suchmaschinen 157
Verarbeitung 148
Suchmaschinenroboter 161
Verarbeitungskette 232
Synonym 126
Verfügbarkeit 92
Taxonomien 164
Verständlichkeit 28, 42
TDQM-Methodologie 287
Verteilung 95, 123
Technische Anforderungen 210 Text-Mining 168
Vertrauen 302, 305, 306, 307, 308, 310, 311
Thesauren 164
Vertrauenseigenschaften 174, 185
Tippfehler 131
Visualisierung 95
TOPAS 332
Vollständigkeit 28, 34, 49, 54
Total Quality Management 285
Wertschöpfung 28, 42
Transaktion 179, 184, 185, 191
Wertschöpfungskette 227
Transparenz 234, 237
Wissen 94, 173, 175
Markttransparenz 172, 173, 184
Wissensmanagement 7
Preistransparenz siehe Preisvergleich
World Wide Web 299 WWW 299
Übersichtlichkeit 28, 35
Zugänglichkeit 28, 32
Umfang 33
Zweck 150
Unschärfe 96
Zweckeignung 89
415