Cord Spreckelsen
I Klaus Spitzer
Wissensbasen und Expertensysteme in der Medizin
Medizinische Informatik Herausgege...
71 downloads
1168 Views
16MB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
Cord Spreckelsen
I Klaus Spitzer
Wissensbasen und Expertensysteme in der Medizin
Medizinische Informatik Herausgegeben von Prof. Dr. rer. nat. Heinz Handels, Hamburg Prof. Dr. Dr. Siegfried Pappi, Lubeck
Die Studienbiicher Medizinische Informatik behandeln anschaulich, systematisch und fachlich fundiert Themen aus der Medizinischen Informatik entsprechend dem aktuellen Stand der Wissenschaft. Die Bande der Reihe wenden sich sowohl an Studierende der Informatik und Medizinischen Informatik im Haupt- und Nebenfach an Universitaten und Fachhochschulen als auch an Lehrende und Praktiker.
www.viewegteubner.de
-------'
Cord Spreckelsen
I Klaus Spitzer
Wissensbasen und Expertensysteme in der Medizin Kl-Ansatze zwischen klinischer Entscheidungsunterstutzung und medizinischem Wissensmanagement
STUDIUM
II VI EWEG+
TEUBNER
Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet uber abrufbar.
1. Auflage 2008 Aile Rechte vorbehalten © Vieweg+Teubner [ GWV Fachverlage GmbH, Wiesbaden 2008 Lektorat: Ulrich Sandten
I
Kerstin Hoffmann
Vieweg+Teubner ist Teil der Fachverlagsgruppe Springer Science+Business Media. www.viewegteubner.de Das Werk einschlieBlich aller seiner Teile ist urheberrechtlich geschiltzt. Jede Verwertung auBerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlags unzulassig und strafbar. Das gilt insbesondere fur Vervielfaltlgungen, Obersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten waren und daher von jedermann benutzt werden diirften. Umschlaggestaltung: Kunkell.opka Medienentwicklung, Heidelberg Druck und buchbinderische Verarbeitung: Strauss Offsetdruck, Miirlenbach Gedruckt auf saurefreiern und chlorfrei gebleichtem Papier. Printed in Germany ISBN 978-3-8351-0251-4
Inhaltsverzeichnis 1
I 2
Einleitung 1.1 Ausgangspunkt und Entwicklung . 1.2 Aufbau des Buches . . . . . . . .
Grundlagen Medizinische Wissensverarbeitung - Anwendungsszenarien 2. I Verftigbarkeit von Wissen. . . . . . . . 2.2 Besonderheiten medizinischen Wissens . . . . . 2.3 Klassische Systemansatze . . . . . . . . . . . . . 2.4 Anwendungsproblematik und Integrationsaspekte 2.5 Aktuelle Anwendungsfelder . . . . . . . . . . .
1 1 4
7 9 10
10 11 17 19
BegriffskIarungen 3.1 Wissen . . . . 3.2 Symbolverarbeitung. 3.3 Konnektionismus ..
27
4
Formale Grundlagen - Wissensreprasentation und Inferenz 4.1 Syntax, Semantik, Pragmatik einer Sprache 4.2 Formale Logik . . . . 4.3 FoIgerung und Kalktil . . . 4.4 Aussagenlogik....... 4.5 Aussagenlogische Kalktile 4.6 Pradikatenlogik erster Stufe . 4.7 Pradikatenlogische Kalktile . 4.8 Nichtmonotones SchlieBen 4.9 Weitere formale Logiken ..
31 31 32 35 38 41 51 57 63 65
5
Formale Grundlagen - Neuronale Netze 5.1 Basiselemente. 5.2 Netztopologien . . 5.3 Lemen 5.4 Anwendungsgebiete.
3
27 28
29
67
67 68 70 71
VI
Inhaltsverzeichnis
II Medizinische Wissensreprasentation und Inferenz
75
6
77
7
Datenbanken und Wissensreprasentation 6.1 Relationale Datenbanken . . . . 6.2 Entity-Relationship Diagramme 6.3 Datenbankabfragen... 6.4 Deduktive Datenbanken. . . . . 6.5 Data Mining. . . . . . . . . . . 6.6 Objektorientierte Datenmodelle .
84 94 98 103 109
Spezielle Reprasentationsformate und Inferenzstrategien 7.1 Entscheidungstafeln und -diagramme . 7.2 Regeln . 7.3 Semantische Netze und Frames. 7.4 Beschreibungslogiken . 7.5 Arden Syntax . . . . . . . . . . 7.6 Systemarchitektur und Strategiekompontenten .
119 120 125 131 134 143 146
III Entscheidungsunterstiitzung unter Unsicherheit
78
151
8
Verarbeitnng unsicheren medizinischen Wissens 8.1 Unsicheres Wissen in der Medizin 8.2 Certainty-Faktoren . 8.3 Dempster-Shafer Evidenztheorie 8.4 Fuzzy Logik. . . . . . . . . . . 8.5 Rough Sets . . . . . . . . . . . 8.6 Grundlagen probabilistischer Ansatze 8.7 Bayessches SchlieBen . 8.8 Bayes-Netze .
153 153 154 157 161 167 171 177 179
9
Entscheidnngsanalyse im klinischen Kontext 9.1 Erweiterte Entscheidungsbaume . 9.2 Entscheidungsanalyse . 9.3 Leitlinien und Behandlungspfade .
185 185 189 192
IV Medizinisches Knowledge Engineering
197
10 Grundbegriffe 10.1 Ubersicht . . . . . . . . . . . . . . . 10.2 Akquisitionsansatze . . . . . . . . . . 10.3 Wissensakquisition als Modellbildung 10.4 Wissensmanagement . . . . . . . . .
199 199 . 199 . 201 .202
Inhaltsverzeichnis 10.5 Wissensarten in der Medizin 10.6 Wissenserhebung . . .
VII
.204 .209
11 Akquisitionsmethodologien I 1.1 Ontologiebasierte Wissensakquisition 11.2 Ontologien in den Biowissenschaften . I 1.3 KADS und CommonKADS. . . . . . 11.4 Evolutionare Ansatze . . . . . . . . . 11.5 Werkzeuge des Knowledge Engineerings .
215 . 216 .220 . 221 .225 .226
12 Evaluation 12.1 Evaluationsmethodik 12.2 Ausgewahlte Ergebnisse
229 .229 .240
Anhang
245
A Losungen der Selbsttestaufgaben
247
Abbildungsverzeichnis
261
Literaturverzeichnis
265
Abkiirzungsverzeichnis
273
Sachverzeichnis
275
1 Einleitung 1.1 Ausgangspunkt und Entwicklung Konnten nicht Computerprogramme, die etwas von Medizin verstehen, dabei helfen, schnellere und bessere medizinische Entscheidungen zu treffen? Bereits im Jahr 1959 publizierten A. LEDLEY und B. LUSTED [LL59] die Idee, dafur medizinisches Wissen zu formalisieren und durch Algorithmen zu verarbeiten. Wenn von Wissensbasierten Systemen in der Medizin die Rede ist, geht es grundsatzlich noch immer darum. Vorausgegangen war im Jahre 1956 ein - inzwischen berlihmter - Workshop in Dartmouth. Er gilt als Geburtsstunde der Kiinstlichen lntelligenz (Kl). Seine Teilnehmer brachten die Forschung auf diesem Gebiet in den folgenden Jahren entscheidend voran. Anfang der 1970er Jahre entstanden dann Systeme, die als klassische medizinische Expertensysteme eine Pionierrolle ftir die weitere Entwicklung der KI spielten. Solche Expertensysteme sind Spezialfalle wissensbasierter Systeme. Sie versuchen die Fahigkeiten menschlicher Experten nachzubilden.
Jahr
Abbi1dung 1.1: Entwick1ung der Publikationstatigkeit in den Biowissenschaften zum Thema »Expertensysteme« seit 1985. Die Daten entstammen der bib1iographischen Datenbank Med1ine. Dargestellt ist die Zah1 der imjewei1igen Jahr veroffentlichen Fachartike1 zum MeSH-Sch1agwort »Expert Systems«.
2
1 Einleitung
Vi
'"e.e
. c
,g
'"
~
:c :::> 0..
Jahr
Abbildung 1.2: Wissenschaftliche Publikationstatigkeir im biomedizinischen Bereich zum Thema »Entscheidungsunterstiitzungssysteme« (Datengrundlage: Medline - Zahl der jahrlich neu veroffentlichten Fachartikel zum MeSH-Schlagwort »Decision Support Systems, Clinical« )
Expertensysteme sollten - so die Hoffnung - hochspezialisiertes medizinisches Fachwissen simulieren und so auch aulserhalb von Spezialkliniken oder Zentren verfugbar machen. Gerade die hohen Erwartungen an diagnostische und therapeutische Expertensysteme erfullten sich aber nicht. Tatsachlich konnten sich diese Systeme nicht dauerhaft in der klinischen Routine etabliereno Inzwischen wurden Wissensbasierte Systeme in einigen medizinischen Anwendungsfeldern Z. B. fur die intensivmedizinische Prognose, zur EKG-Interpretation oder Klassifikation von Labordaten - erfolgreich und nutzbringend eingesetzt. Erfolgreich waren wissensbasierte Ansatze, wenn sie genau definierte Teilaufgaben im Rahmen klinischer Routinen losten und sich modular in andere informationsverarbeitende Systeme einbetten Iiefsen, oder Medizinern bei der eigenen klinischen Problemli::isung assistierten. Der Blick auf die wissensschaftliche Publikationstatigkeit ist aufschlussreich: Ab dem Ende der 1980er Jahre wurden im biomedizinischen Bereich fur ein knappes Jahrzehnt deutlich mehr Publikationen zum Schlagwort »Expertensystem« veroffentlicht als seit Ende der 1990er Jahre bis 2007. Erst seit 2005 scheint sich das Feld wieder etwas zu beleben (s. Abbildung 1.1). Publikationen zum Schlagwort »Entscheidungsunterstlitzungssystem« kommen bis 1995 nicht vor, urn danach rasant anzusteigen und sich in den letzten erfassten Jahrgangen zu stabilisieren (s. Abbildung 1.2). Dem Schlagwort »Kimstliche Intelligenz« ist eine seit Mitte der 1980er Jahre kontinuierlich stark steigende (und insgesamt hohe) Zahl von Publikationen zuzuordnen (s. Abbildung 1.3). 1 I Die
Zahlenangaben wurden aus der fur den biomedizinischen Bereich mafigeblichen bibliographischen Datenbank
1.1 Ausgangspunkt und Entwicklung
3
300
~
.. c c
o
~ 200 ~
:0
::>
n,
100
Jahr
Abbildung 1.3: Wissenschaftliche Publikationstatigkeit im biomedizinischen Bereich zum Thema »Kunstliche Intelligcnz« (Datengrundlage: Medline - Zahl der jahrlich neu veroffentlichten Fachartikel zum MeSH-Schlagwort »Artificial Intelligence« )
Der grobe Blick auf die Publikationstatigkeit zeigt bereits: Die Relevanz von Expertensystemen in der Medizin mag uberschatzt worden sein. Systeme, die nicht der Simulation, sondern der Unterstlitzung arztlicher Entscheidungsfindung dienen, losten diesen ersten Systemansatz weitgehend ab. Generell ist aber das Zukunftspotential von Methoden und Techniken der KI in der Medizin und den Biowissenschaften sehr hoch. Beglinstigende Faktoren sind: • die im Vergleich zur Pionierzeit der Expertensysteme sehr viel hohere Durchdringung des Gesundheitswesens mit Informationstechnologie, • die Verftigbarkeit mobiler, vernetzter Rechner, • die immer starkere Standardisierung und Strukturierung klinischer Ablaufe, • die Etablierung der evidenzbasierten Medizin, • die wachsende klinische Relevanz datenintensiver Methoden der Biochemie und Molekularbiologie, bei denen die Interpretation der Ergebnisse oft nur durch algorithmische Klassifikation moglich ist, • das Vordringen semantischer Techniken (inhaltliches XML-Tagging, Semantic Web) zur Erschlieliung grolser lnformationsangebote. Voraussetzungen dafur, das Potential von KI-Techniken in der Medizin zutreffend einschatzen und erfolgreich nutzen zu konnen, sind die Folgenden: Medline (pubmed.org) ermittelt. Die Suche zielte auf Publikationen, die einheitlich den entsprechenden Schlagwortern aus den Medical Subject Headings (MeSH) zugeordnet sind.
4
1 Einleitung
• die Kenntnis grundlegender Methoden rechnerbasierter Wissensverarbeitung, • die Kenntnis bestehender Probleme bei ihrer medizinischen Anwendung, • die Kenntnis sinnvoller Anwendungsszenarien. Das Buch zielt darauf, diese Kenntnisse zu vermitteln. Voraussetzung zum Verstandnis sind Grundlagen der Linearen Algebra, Analysis und Mengentheorie.
1.2 Aufbau des Buches Das Buch gliedert sich in vier Hauptabschnitte. Sie werden nachfolgend kurz vorgestellt.
Grundlagen Der erste Teil des Buches - Grundlagen - fiihrt die notigen Begriffe ein und gibt einen Uberblick tiber die wichtigsten Ansatze medizinischer Wissensverarbeitung. Den Einstieg bildet dabei eine Kurzvorstellung klassischer medizinischer Expertensysteme in der Medizin. Das geschieht nicht aus bloBem historischen Interesse. Die technischen Ansatze und die (oft schlechten) Erfahrungen mit Expertensystemen im klinischen Einsatz helfen a) das Rad nicht neu zu erfinden und b) bekannte Fehler nicht zu wiederholen. Es folgt eine Ubersicht tiber aktuelle medizinische Einsatzrnoglichkeiten fiir wissensbasierte Systeme. Der nachste Abschnitt widmet sich dem Konzept eines intelligenten Agenten. Dieses Konzept hilft dabei, eine Definition des Begriffs Wissen zu entwickeln, mit der in der KI gearbeitet werden kann. Philosophische Komplikationen bleiben dabei unberticksichtigt. Die beiden folgenden Abschnitte stellen die Hauptstromungen der KI vor: den Symboiverarbeitungsansat; und den Konnektionismus. Die Begriffe Formale Logik und logischer Kalkiil bilden die Grundlage des Symbolverarbeitungsansatzes. Die Idee einer formalen Logik wird zunachst am Beispiel der Aussagenlogik illustriert, danach erweitert auf den Fall der Pradikatenlogik erster Stufe. SchlieBlich ist ein kurzer Ausblick wichtigen Erweiterungen gewidmet: dem nichtmonotonen SchlieBen und der Modallogik. Eine Einflihrung in den Konnektionismus beginnt bei der Definition eines kiinstlichen Neurons. AnschlieBend werden die Grundprinzipien der Informationsverarbeitung in Netzen klinstlicher Neuronen erlautert, Ein wichtiger Aspekt ist dabei die Simulation von Lemvorgangen. AbschlieBend diskutiert der Abschnitt die Eignung ktinstlicher neuronaler Netze zur medizinischen Wissensverarbeitung.
Medizinische Wissensreprasentation und Inferenz 1m zweiten Teil des Buches - Medizinische Wissensreprasentation und Inferenz - geht es um geeignete Datenstrukturen und Formate, welche die algorithmische Verarbeitung medizinischen Wissens gestatten (Wissensreprasentation) sowie wichtige Ansatze zur Wissensverarbeitung (/17ferenz).
1.2 Aufbau des Buches
5
Angesichts des Umfanges medizinischen Wissens und auch angesichts der Rolle groBer klinischer Datensammlungen bei der Entstehung und Absicherung klinischen Erfahrungswissens darf ein Blick auf Datenbanken nicht fehlen. Zwar darf Wissen nicht mit Daten verwechselt werden, dennoch konnen relationale Datenbanken durchaus medizinisches Wissen formal reprasentieren: dann namlich, wenn das Datenbankschema und die Datenbankinstanzen auf geeignete Weise formallogisch interpretiert werden. AuBerdem lasst sich aus Datensammlungen Wissen gewinnen und zwar sowohl mittels statistischer Analyse als auch mittels logischer Kalkiile. Nach Diskussion der Grenzen von Wissensreprasentation und -generierung in Datenbanken stellt das Buch spezielle Reprasentationsformate und Inferenzstrategien fur medizinisches Wissen vor.
Entscheidungsunterstiitzung unter Unsicherheit Der dritte Hauptteil- Entscheidungsunterstiitzung unter Unsicherheit - widmet sich einem wichtigen Problem der medizinischen Wissensverarbeitung: Arztinnen und Arzte miissen auch dann Entscheidungen treffen, wenn Informationen nicht vollstandig sind oder wenn keine exakten Angaben vorliegen. Fur die Verarbeitung unsicheren medizinischen Wissens gibt es unterschiedliche Ansatze, die teils auf wahrscheinlichkeitstheoretischen Grundlagen stehen (Bayessches SchlieBen, Bayes Netze) in der Mehrzahl aber Verfahren darstellen, subjektive Einschatzungen der Vertrauenswlirdigkeit oder Gewissheit von Sachverhalten bei Schlussfolgerungen konsequent zu berucksichtigen (Certainty Factors, Dempster-Shafer Theory, Fuzzy Sets). Ein weiterer Abschnitt ist der Entscheidungsanalyse gewidmet. Die Entscheidungsanalyse kombiniert die hierarchische Strukturierung von Entscheidungsoptionen mit einer Bewertung ihrer Wahrscheinlichkeit und ihres Nutzens. Auf der Basis der entstehenden Entscheidungsbaume konnen Entscheidungen mit dem voraussichtlich grolsten Nutzen berechnet werden. Die Bedeutung von Leitlinien und klinischen Behandlungspfaden in der Medizin nimmt zu. Entscheidungsdiagramme und Instrumente der Entscheidungsanalyse tragen methodisch zu diesen Bereichen bei. Allerdings kommen ablaufbezogene Aspekte, d. h. Aspekte einer WorkfiowModellierung, hinzu. Ein weiterer Abschnitt zeichnet die Grundlinien dieses Bereiches.
Medizinisches Knowledge Engineering 1m Mittelpunkt des vierten Teils - Medizinisches Knowledge Engineering - stehen zwei unver-
zichtbare und anspruchsvolle Stationen auf dem Weg zum praktischen Einsatz eines wissensbasierten Systems in der Medizin: Die Akquisition medizinischen Wissens und die Evaluation des Systems. Ein typischer Fehler bei der Implementierung medizinischer wissensbasierter Systeme besteht in einer zu einseitigen Konzentration auf die technische Realisierung der Systemkomponenten oder die Entwicklung der entsprechenden wissensverarbeitenden Algorithmen. Fiir den klinischen Einsatz mindestens ebenso wichtig ist es, einem Weg zu finden, das systernrelevante Wis-
6
1 Einleitung
sen vollstandig und sinnerhaltend zu erfassen und zu formalisieren. Hierftir wurden spezielle Werkzeuge (Akquisitionsumgebungen und -instrumente) und Vorschlage fur ein systematisches Vorgehen (Akquisitionsmethodologien) entwickelt. Ein wissensbasiertes System muss wahrend seiner Implementierung sowie vor und bei seinem Einsatz in der klinischen Routine evaluiert werden: Die Korrektheit der angebotenen Problemlosungen oder Assistenz ist zu testen. Hinzu kommt die Uberprufung seiner Praktikabilitat, Hierbei stehen das Urteil der Benutzergruppe, die das System schliefslich nutzen solI, und der Erfolg des Ensembles aus Benutzer und System bei der Losung einer anstehenden Aufgabe im Zentrum. Genau wie fur die Wissensakquisition gibt es auch fur die Evaluation spezielle Methoden und rechnerbasierte Werkzeuge. Der vierte Hauptteil des Buches dient einer Ubersicht tiber entsprechende Ansatze.
Teil I
Grundlagen
2 Medizinische Wissensverarbeitung Anwendungsszenarien Lernziele • Erfahrungen aus der Konzeption und dem Einsatz klassischer, medizinischer Expertensysteme berticksichtigen • Forschungstrcnds und aktuelle Anwendungsfelder wisscnsbasicrtcr Ansatzc iiberblicken • Erfolgsfaktoren wisscnsbasicrtcr Ansiitze in der Medizin und Aspekte dcr Systcrnintcgration kennen
Einleitung In den folgenden Absehnitten sollen prominente Beispiele illustrieren, was unter Wissensbasen und Expertensysteme in der Medizin zu verstehen ist. An den Beispielen lasst sich auch zeigen, welche Chancen und Grenzen den historisch ersten Typ wissensbasierter Systeme, das klassische Expertensystem, kennzeichnen. Einsatzszenarien dienen dazu, das Anwendungsfeld Medizin genauer zu charakterisieren. Danach geht es urn die Grundlagen: Medizinische Wissensbasen und Expertensysteme setzen Konzepte und Methoden der Kiinstlichen Intelligenz voraus. Wissensbasen erfassen Fachwissen und erlauben es Computerprogrammen, aus diesem Fachwissen Schiussfoigerungen zu ziehen. Hierzu ist eine formale Sprache notig, in der Wissen durch Symbole notiert werden kann. Und es muss Berechnungsverfahren geben, die aus den formalen Ausdrlicken die richtigen Schlussfolgerungen erzeugen konnen, Beides zusammengenommen - eine formale Sprache fur Wissen und ein Algorithmus zum Schlussfolgern - ergibt eine Formale Logik. Deswegen spielen formaIe Logiken eine so zentrale Rolle fur wissensbasierte Systeme. Die Einfilhrung dieses Konzepts nimmt daher in den foigenden Abschnitten entsprechend viel Platz ein. Ein Zweig der KI verzichtet darauf Wissen syrnbolisch abzubilden. Dieser Zweig wird daher auch als subsymbolisch bezeichnet. Besser bekannt ist der Ansatz unter dem Schlagwort Neuronale Net;e. Hierbei geht es darurn, Aspekte der Informationsverarbeitung in Nervensysternen, die mit biologischer Intelligenz verbunden sind, zu simulieren. Der Ansatz eignet sich fur Anwendungsgebiete wie die Mustererkennung und Signalverarbeitung besser ais zur Implementierung entscheidungsunterstlitzender wissensbasierter Systeme. Hier wird daher nur das generelle Konzept skizziert und seine Eignung fur bestimmten Formen der Entscheidungsunterstlitzung diskutiert.
2 Medizinische Wissensverarbeitung - Anwendungsszenarien
10
2.1 Verfiigbarkeit von Wissen In der KI-Literatur treten Bezeichnungen wie »Wissensbasis«, »Wissensakquisition«, »Knowledge Engineering« auf. Sie suggerieren, dass wir mit Wissen so umgehen konnen, wie mit einem beliebigen Material, das sich gewinnen, lagern und bearbeiten Iasst. Dabei begeht die KI durchaus nicht den Fehler, Wissen mit Daten zu verwechseln. Menschen konnen Daten gewinnen, lagern und technisch manipulieren spatestens, seitdem sich vor tiber 5000 Jahren massenweise Tontafeln in den sumerischen Staatsarchiven ansammelten. In der KI wird Wissen nicht mit Datensammlungen gleichgesetzt. Wissen steht hier vielmehr fur die Fahigkeit, komplexe Probleme selbstandig rosen zu konnen. In diesem Buch werden tatsachlich Verfahren beschrieben, mit Wissen als technisch verfUgbarem Material umzugehen. Die Erfindung formal-Iogischer Kalktile war ein Meilenstein auf diesem Weg. Dennoch solI gleich zu Beginn vor einer zu engen Auffassung gewarnt werden: By equating human knowledge with descriptions such as a medical record (data) or disease models (theory), we loose track of how models are created and used in practice, how computer tools can help people, and how design projects for developing tools should be conceived. rCla951 Mit dieser StelIungnahme warnt W.J. CLANCEY vor einer Verwechslung von dokumentierter Erfahrung und dokumentierten Theorien mit menschlichem Wissen. Aus solchen Wissensbeschreibungen oder -dokumenten wird erst dann Wissen, wenn sie im Zusammenhang von Handlungen oder im Rahmen menschlicher Kommunikation interpretiert werden. CLANCEY fasst fUnf Charakteristika fur Wissen zusammen. Wissen ist danach: • • • • •
Interaktiv: Wissen wird im Rahmen koordinierter Zusammenarbeit erzeugt. Interpretativ: Wissen erlaubt es, Beschreibungen (descriptions) Bedeutung zuzuweisen. Dynamisch: Wissen verandert sich wahrend einer Aktivitat standig. Emergent: Wissen einer Gruppe entzieht sich individuelIer KontrolIe. Partizipatorisch: Wissen entwickelt sich im Zusammenwirken von Gruppen, die unterschiedlichen Tatigkeitsfeldern zugehoren (communities of practice).
2.2 Besonderheiten medizinischen Wissens Zu den prinzipiellen Schwierigkeiten beim Aufbau von Wissensbasen kommen einige Besonderheiten medizinischen Wissens erschwerend hinzu: Umfang und Systematik des medizinischen Wissens sind nur schwer zu tiberschauen. Durch die enormen Fortschritte der Molekularbiologie und der Biochemie ist in den vergangenen Jahrzehnten der Anteil naturwissenschaftlichen Grundlagenwissens in der Medizin sprunghaft angewachsen. Wegen der Komplexitat des menschlichen Organismus und seiner Wechselwirkungen ist das - dartiber hinaus immer noch llickenhafte - Wissen zu biochemischen Wirkmechanismen nicht ausreichend und auch nicht angemessen, urn allein auf seiner Grundlage arztliche Entscheidungen treffen zu konnen.
2.3 Klassische Systemansatze
11
Ein wichtiger Teil des medizinischen Wissens ist daher klinisches Erfahrungswissen. Es erlaubt Medizinern, mit einigem Erfolg von Symptomen und Befunden auf Diagnosen zu schlieBen oder eine Therapie zu wahlen, die das Befinden des Patienten bessert bzw. zur Heilung fuhrt, Solches Wissen ist zwangslaufig mit Unsicherheiten und Unscharfen behaftet. Es fasst auBerdem Erfahrungen tiber viele individueIle Falle zusammen, macht also pauschale Aussagen. 1m IdealfaIl ist es moglich, aufgrund klinischer Studien statistische Mittel, Streu- und KonfidenzmaBe fur die klinische Beobachtungen anzugeben. Mediziner mtissen ein klinisches Problem, welches ein individueller Fall aufwirft, auf dieser unsicheren und verallgemeinenden Grundlage Iosen. Einige Studien fanden eine Quote korrekt gestellter Erstdiagnosen, die nur bei etwas mehr als 60% ( [SZ81], [SZ94]) lag. Das zeigt, wie schwierig die Losung dieses Problems ist. Allerdings ist zu berticksichtigen, dass eine Diagnose ublicherweise im Rahmen einer wiederholten oder forti aufenden arztlichen Betreuung verfeinert oder korrigiert wird. AuBerdem stellt die nachtragliche Ermittlung der korrekten Diagnose im Sinne des VergleichsmaBstabs fur die Studien ein eigenes methodisches Problem dar.
2.3 Klassische Systemansatze Seit den I 970er Jahren entstand eine Reihe von Expertensystemen fiir die Medizin. Besonders vier in den amerikanischen Kl-Forschungszentren (University of Stanford, MIT, Rutgers und Carnegie-Mellon University) entwickelte Systeme hatten Pioniercharakter: CASNET (causal associational network), INTERNIST-I/CADUCEUS, MYCIN und PIP (Present Illness Program). In ihnen werden heute klassische Systemansatze gesehen. Ein erster kommerziell erfolgreicher Ansatz war das Prognosesystem APACHE.
2.3.1 MYCIN Das an der Universitat von Stanford entwickelte Expertensystem MYCIN [Sho76] wurde zum Vorbild fiir Expertensysterne, die auf der Basis von Regeln arbeiten. Sein Einsatzgebiet sind die Diagnostik und Therapie bakterieIler Infektionskrankheiten. 2.3.1.1 Trennung von Wissensbasis und Inferenzkomponente MYCIN trennte erstmalig diejenige Systernkomponente, in der rnedizinisches Wissen zusammengefasst war, konsequent von einer weiteren Komponente, welche die Losung des anstehenden Problems berechnete. Die meisten spateren Expertensystemen folgten dieser Systemarchitektur und unterscheiden ihre Wissensbasis von der - fur die Berechnung von Schlussfolgerungen verantwortlichen - Inferenzkomponente. 2.3.1.2 MYCIN-Regeln FUr MYCIN forrnulierten Experten ihr Wissen in Regeln. Ein Beispiel fur eine solche Regel ist die folgende:
2 Medizinische Wissensverarbeitung - Anwendungsszenarien
12
PREMISE: (\$AND (SAME CNTXT MORPH (SAME CNTXT AIR ACTION: (CONCLUDE
(SAME CNTXT GRAM GRAMNEG) ROD) ANAEROBIV) CNTXT IDENTITY BACTEROIDES TALLY .6)
Sinngemaf bedeutet die Regel, dass ein Organismus X, del' gleichzeitig die Merkmale hat I) gramnegativ, 2) stabformig und 3) anaerob zu sein, mit einem Gewissheitsfaktor von 0,6 als Bakteroid zu identifizieren ist. Del' Gewissheitsfaktor (Certainty Factor) ist dabei ein Wert aus dem Intervall [-1,1]. Er ist ein MaB dafur, wie sicher gegebene Voraussetzungen die formulierte Konsequenz erwarten lassen. MYCIN und ahnlichen Systemen liegen gewichtete Regeln del' Form E ---+ H(y) zugrunde (die Voraussetzungen E implizieren H mit dem Gewicht y) [DHN971 Regeln mit negativem Gewissheitsfaktor schwachen die Gewissheit ftir das Vorliegen von H abo Die Werte ftir die Gewissheitsfaktoren del' einzelnen Regeln werden subjektiv geschatzt und sind nicht durch statistische Studien abgesichert. Das in MYCIN verwendete Verfahren zur Kombination von Gewissheitsfaktoren erftillt auBerdem nicht die Axiome del' Wahrscheinlichkeitstheorie. Es ist ein heuristisches Verfahren.
2.3.1.3 Verarbeitung des medizinischen Wissens Die Wissensverarbeitung in MYCIN beruht auf einem allgemeinen Verfahren, mit Regeln del' oben angegebenen Form umzugehen. Bei del' Verarbeitung sind zwei Aspekte von Bedeutung: 1) die aufeinander aufbauende Nutzung mehrerer Regeln nacheinander und 2) die Kombination von Sicherheitsfaktoren. Zur Regelverarbeitung verwendet MYCIN die Riickwdrtsverkettung, Abschnitt 7.2.2.2 (S. 129) stellt die Methode genauer vor. Das Grundprinzip ist das Folgende: Eine Anfrage beginnt mit del' Eingabe von Fakten. AnschieBend wird eine Hypothese H angegeben, die das System bestatigen solI. MYCIN sucht nun Regeln, welche die Hypothese als Folgerung enthalten. Fur eine solche Regel E ---+ H (y) testet MYCIN, ob die Voraussetzungen E in del' vorgegebenen Faktenmenge enthalten sind. Falls ja, wird H mit del' Gewissheit yangenommen. Falls nein, versucht MYCIN Regen zu finden, welche die Voraussetzungen E als Folgerung enthalten, also bestatigen konnen, So ergibt sich kaskadierend eine Menge von Anfangsvoraussetzungen, die als Fakten gegeben sein mussen, damit H aus del' primaren Anfrage bestatigt werden kann. Fur die Verarbeitung del' Gewissheitsfaktor stehen sogenannte Propagationsregeln zur Verftigung: Sind in E mehrere Vorausssetzungen enthalten, die logisch mit »oder« verknupft sind, so wird del' maximale Gewissheitsfaktor del' bestatigten Voraussetzungen weiterverwendet, werden aile Voraussetzungen gemeinsam gefordert, so wird del' minimale Wert genutzt. Fuhren zwei (oder mehr) Regeln parallel zum Ziel, werden die Werte diesel' Regeln ahnlich kombiniert wie bedingte Wahrscheinlichkeiten. Regeln sind das zwar vorherrschende abel' nicht ausschlieBliche Format in MYCIN. Daneben wird Faktenwissen durch objektartige Strukturen mit Attribut-Wert-Tupeln dargestellt; Fakten zum aktuellen Patienten werden in einer dynamischen Datenstruktur (Kontextbaum) erfasst.
2.3 Klassische Systemansatze
13
Langfristig bedeutsamer als MYCIN selbst waren die fur das Expertensystem entwickelten Ansatze zur Reprasentation und Verarbeitung von Wissen. Aus der Struktur der MYCIN-Wissensbasis und seiner Wissensverarbeitungskomponente entstand als Werkzeug zur Implementierung neuer Systeme die Expertensystemshell EMYCIN. • MYCIN zeichnet sich durch die Trennung von Wissensbasis und Inferenzkomponente aus und arbeitet regelbasiert unter Verwendung von Gewissheitsfaktoren.
2.3.2 INTERNIST-I/CADUCEUS INTERNIST [MPM82] nutzt die Zuordnung von Symptomen und Befunden zu einem Krankheitsprofil als zentrales Reprasentationskonzept. Mit den Systemen wurde der Versuch unternommen, die Diagnostik in der inneren Medizin moglichst vollstandig zu erfassen (ca. 75% aller Diagnosen). Ein Krankheitsprofil umfasst aIle Symptome/Befunde, die bei der jeweiligen Krankheit auftreten konnen. Umgekehrt lasst sich injedem Fall erfassen, durch welche Krankheiten ein aktueller Befund oder ein gegebenes Symptom hervorgerufen (evoziert) werden kann. Uber die sogenannte evoking strength wird die Starke dieser Verknilpfung in eine von sechs moglichen Gewichtsklassen (0-5) eingeteilt (SymptomlBefund A wird evoziert durch Krankheit B mit Starke C). Ein Gewicht 5 zeigt an, dass ein SymptomlBefund immer bei der entsprechenden Krankheit auftritt. Auch fur die inverse Relation (Krankheit A manifestiert sich in SymptomIBefund B mit Starke C) werden in INTERNIST Gewichte erfasst (Skala 1-5). Die Wissensbasis von INTERNIST enthalt weitere Relationen wie pradisponierend, zeitlich folgend, kausal verkniipft, koinzidierend. Zur Ermittlung einer Diagnose gibt der Diagnostiker zunachst diejenigen Symptome/Befunde ein, die ihm aktuell auffallen und kennzeichnet ggf. bestimmte andere Symptome als explizit abwesend. Aus den positiv vorhandenen Symptomen/Befunden ermittelt INTERNIST zunachst solche Krankheiten, welche die Symptome/Befunde erklaren konnen. In einem zweiten Verarbeitungsschritt schlagt das System die Krankheitsprofile (d. h. die typischen Symptomkombinationen) zu diesen Krankheiten nacho INTERNIST vergleicht dann das Krankheitsprofil mit der initial erfassten Befundsituation. Danach lassen sich die Symptome/Befunde des Profils in vier Gruppen einteilen: 1) Symptome/Befunde, die auch aktuell bei dem Patienten vorliegen, 2) SymptomelBefunde, die beim Patienten definitiv nicht vorliegen, 3) Symptome/Befunde, die aktuell auftreten, jedoch nicht zum Krankheitsprofil gehoren und 4) Symptome/Befunde, fur die noch nicht feststeht, ob sie beim Patienten vorliegen. Aus der ersten Gruppe werden - unter Verwendung der Gewichte der manifestiert-Relation - »Bonuspunkte« fur die Wahl der entsprechenden Krankheit als Verdachtsdiagnose gesammelt. Aus der zweiten und dritten Gruppe ergeben sich »Maluspunkte« (negative Werte) fiir diese Wahl. SchlieBlich ergeben sich weitere »Bonuspunkte«, falls eine bestimmte Krankheit beim Patienten bereits diagnostiziert werden kann, die tiber eine der zusatzlichen Relationen mit der moglichen Verdachtsdiagnose verkniipft ist. Die in Frage kommenden Verdachtsdiagnosen werden nach der Gesamtpunktzahl geordnet. INTERNIST wertet nun die Krankheitsprofile der Verdachtsdiagnosen vergleichend aus: Das Profil
2 Medizinische Wissensverarbeitung - Anwendungsszenarien
14
der Verdachtsdiagnose mit der hochsten Punktzahl dient als Bezugspunkt. Krankheiten die einen Teil ihrer Symptome/Befunde mit ihr gemeinsam haben, werden als Ausgangsmenge einer nachfolgenden Differentialdiagnose ausgewahlt. INTERNIST erfragt vom Arzt nun gezielt weitere (vorher noch nicht erfasste) Symptome/Befunde des Patienten: das Ziel ist dabei, den Punkteabstand zwischen der ersten Differentialdiagnose und den weiteren systematisch zu vergrofsern. Wird der Abstand hinreichend grof wahlt INTERNIST die erste Differentialdiagnose als aktuelIe Diagnose und streicht die durch diese Diagnose erklarten aktuellen Symptome/Befunde. Aus den verbleibenden nicht erklarten Symptomen/Befunden wird nach demselben Schema eine neue Menge von Differentialdiagnosen gebildet und versucht, eine weitere Diagnose zu ermitteln. Der Vorgang wiederholt sich, bis eine Schwelle fur die Zahl und Bedeutung der zu erklarenden Symptome/Befunde unterschritten wird. • INTERNIST fiihrte das Konzept des Krankheitsprafils ein. Das System schlieBt Verdachtsdiagnosen sukzessiv aus. Es erfragt gezielt weitere Symptome/Befunde.
2.3.3 CASNET CASNET [WKA78] wurde zunachst zur Diagnostik von Glaukomen eingesetzt, spater unter dem Namen EXPERT auf weitere medizinische Arbeitsgebiete verallgemeinert. CASNET verwendete erstmalig ein schematisch streng strukturiertes Modell des Fachgebiets. Das Modell umfasst Wissen zu moglichen Befunden, pathophysiologisches Kausalwissen und klassifikatorisches Wissen zu den Krankheitsentitaten: Die Wissensbasis von CASNET besteht (wie in Abbildung 2.1 dargestellt) aus drei Ebenen: der Ebene der Befunde (observations), der pathophysiologischen Ebene und der Ebene der Krankheitskategorien. Befunde sind durch assoziative Verweise mit den pathophysiologischen Zustanden der zweiten Ebene verknupft, diese untereinander durch Kausalbeziehungen und mit den Krankheitskategorien durch klassifikatorische Verweise. Sowohl die assoziativen Verknlipfungen als auch die kausalen Verknlipfungen sind mit Gewichtsfaktoren aus dem Intervall [-1, 1] belegt. Zu Ermittlung einer Diagnose werden zunachst die aktuellen Symptome, Befunde und Testergebnisse eines Patienten in der Ebene der Observationen durch den Arzt gekennzeichnet und damit aktiviert. Ausgehend von den aktiven Observationen schlagt das System die assoziierten Knoten auf der Ebene der pathophysiologischen Zustande nacho FUrjeweils einen pathophysiologischen Zustand ergibt sich dabei ein Sicherheitsfaktor aus den Gewichten aller aktiven Assoziationen, die zu ihm flihren. Uber Schwellenwerte ergibt sich aus diesem Sicherheitsfaktor eine Bewertung des Zustands als zutreffend, unbestimmt oder abgelehnt. Auf der Ebene der pathophysiologischen Zustande sind Kausalbeziehungen als gerichtete und gewichtete Verweise von einem Zustand auf seinen Folgezustand modelliert. Diese VerknUpfungen bilden strukturell einen azyklischen gerichteten Graph - ein kausales Net: - mit einer Menge von Anfangsknoten (solchen Knoten, zu denen keine Kausalverknlipfungen hinfuhren) und Zielknoten (solchen Knoten, von denen keine weiteren Kausalverknlipfungen ausgehen).
2.3 Klassische Systemansatze
15
Glaukom
Krankheitskategorien
~
Sekun ares Glaukom
o
Winkelblock - - - - - : ,ukom
~
Chronisches Wlnkalblockglaukom .. »
Aku tas
.....~ O~ : : . . . . . . ~ .
' .
••• ••
inkenblock-
glaukom
0
•• • • •
'Glaukombedingter Gesichtsfeldzerlall
: Horn hautode m
' 0
.l.
Pathophy siologische Zustiinde
. . . Penphere vorde re : Verwachsung
. :
Konkavitat oer : Au enlinse : '. 9 .
Wink~lbloC~ 0 ----.. :
o:
~
t
Erhohtcr intraokularor,.oruck
··
0
•
off
o
o
o
..
o
Schmc rz :
Verschwommenes
:
S,il hscharfe 20/10q
o
~ehe n
o
Perimetrie,bogen!. Gasichlfeldausfall
Ophta moskopie C/O > Q 7
Tonometrie lOP = 45mm Hg
Abbildung 2.1: Ausschnitt aus der CAS NET Wissensbasis mit ihrer Ebenenstruktur. Graphik in Anlehnung an [SoI82J, S.31
Die Verarbeitungsstrategie von CASNET zielt darauf ab, aus den zutreffenden und unbestimmten Zustanden und unter Vermeidung der abgelehnten Zustande ein kausales Teilnetz mit dem hochstmoglichen Gewicht zu bilden. Dieses Teilnetz umfasst die von den Anfangszustanden aus erreichbaren Zwischen- und Endzustande. Ist dann ein solches Teilnetz etabliert - wobei CASNET eine Strategie zum gezielten nachtraglichen Erfragen zusatzlicher Observationen unterstlitzt - , so werden die assoziativen Verweise von der Ebene der pathophysiologischen Zustande zur Ebene der Krankheitskategorien weiterverfolgt und die entsprechenden Diagnosen nachgeschlagen. Die Ebene der Krankheitskategorien enthalt hierarchische Verweise von aIIgemeineren auf spezieIIere Diagnosen, die gegebenenfaIIs im Rahmen der Diagnostik genutzt werden . • CASNET fiihrte das Prinzip einer inhaltlich strukturierten Wissensbasis ein.
2 Medizinische Wissensverarbeitung - Anwendungsszenarien
16
2.3.4 Present Illness Program Das Present Illness Programm (PIP) [PGSK76] dient der Diagnostik von Nierenerkrankungen. Verglichen mit CASNET ist die Modellierung der Relationen zwischen pathophysiologischen Zustanden, SymptomenfBefunden und Krankheiten detaillierter. Ausgangspunkt sind Reprasentationsobjekte (Frames), welche Krankheiten hinsichtlich ihrer Kennzeichen beschreiben. Diese verweisen auf weitere Objekte, die der Reprasentation von Symptomen, Befunden und Testergebnissen dienen. Zwischen Krankheiten existieren Beziehungen, wie »A wird verursacht durch B«, »durch A kommt es zu Komplikationen bei B«, »A ist eine mit B verbundene Komplikation« . Zwischen Observationen und Krankheiten existieren Verkntipfungen, wie »A muss bei B auftreten«, »A darf nicht bei B auftreten« oder »A ist ausreichend, urn B annehmen zu konnen«. Von Bedeutung fur neuere Ansatze ist es, dass hinsichtlich der Wissensreprasentation und verarbeitung der Anspruch erhoben wurde, das differentialdiagnostische Vorgehen des Arztes nachzubilden. Hinsichtlich zweier Aspekte wurde dieser Anspruch eingelost: PIP bildet einen differentialdiagnostischen Kontext zu einer Krankheit und bewertet tiber die entsprechenden Relationen Aus- und EinschluBkriterien [Sch96]. Der differentialdiagnostische Kontext bildet eine Art Fokus des Interesses ab: Krankheiten werden durch Leitsymptome aktiviert und rticken gewissermaBen in diesen Fokus hinein. Krankheiten, die tiber Relationen mit den fokussierten Objekten verbunden sind, befinden sich in einem leichter zu aktivierenden Wartezustand. • PIP versucht das differentialdiagnostische Vorgehen des Arztes nachzubilden.
2.3.5 APACHE III APACHE III (Acute Physiology, Age, Chronic Health Evaluation) war eines der ersten wissensbasierten Systerne, die kommerziell erfolgreich waren und dauerhaft in der klinischen Routine eingesetzt wurden. Das System liefert Prognosen dafiir, wie hoch das Risiko dafiir ist, dass ein intensivmedizinisch betreuter Patient im Krankenhaus stirbt. Die Zuverlassigkeit der Prognose wird mit ca. 95% angegeben. Ermittelt wurde dieser Wert in Studien, die die Prognose des Systems in unterschiedlichen Krankenhausern mit den dort beobachteten Verlaufen verglichen. Der jeweilige Verlauf wurde dabei nicht durch die Systemprognose beeinflusst. APACHE hat sich aus einem Scoring-Ansatz entwickelt. Dabei werden verschiedene Merkrnale des Patienten quantitativ bewertet. Diese Bewertungen werden in geeigneter Gewichtung zu einer MaBzahl (Score) kombiniert, die Auskunft tiber das Sterberisiko gibt. Die Berechnung dieses Scores wurde tiber die Vorgangerversionen APACHE I und II verbessert. Fur APACHE III wurde eine Fallbasis angelegt, in der der Veriauf und Ausgang der intensivmedizinischen Versorgung fiir ca. 18.000 Patienten dokumentiert wurde. [KWD+9I] [WK9I] APACHE ist kommerziell erfolgreich und ethisch stark umstritten. Befurworter verweisen auf Studien, die zeigen, dass die arztliche Bewertung des Risikos oft weniger zuverlassig ist, aIs die des Systems. Gegner sehen erhebliche Gefahren, dadurch, dass ein starres algorithmisches
2.4 Anwendungsproblematikund Integrationsaspekte
17
Verfahren auf Grundlage nur weniger Messparameter Entscheidungen tiber Leben und Tod vorbereitet.
2.4 Anwendungsproblematik und Integrationsaspekte Die Kritik an den vorgestellten Systemansatzen Iasst sich in zwei Kategorien ordnen: Vor dem Hintergrund der eher geringen Verbreitung dieser und ahnlicher Expertensysteme wurde der Systemansatz insgesamt kritisch auf Grtinde fiir den ausbleibenden Erfolg befragt. Daneben gab es schon bald grundsatzliche Einwande gegen die in den klassischen Systemansatzen gewahlten Losungen zur Behandlung von unsicherem Wissen. Einer Bestandsaufnahme durch LUCAS [Luc971 folgend, lassen sich vier Faktoren benennen, welche den Routineeinsatz medizinischer Expertensysteme behinderen: • Bedarfsuberschatzung • Unzureichende und mangelhaft fundierte Diagnosemodelle (und Modelle zur Therapiefindung) • Hohe Implementierungs- und Einsatzkosten • Fehlende EDV-Infrastruktur in den Krankenhausern Der Bedarf fur eine diagnostische Entscheidungsunterstlitzung wurde tiberschatzt, Gerade die haufigsten Diagnosen werden durch die Arzte mit hoher Zuverlassigkeit und effizient gestellt. Die Faile, in den en Schwierigkeiten auftreten und entscheidungsunterstlitzende Verfahren sinnvoll machen, sind seltene Diagnosen. Hierdurch verengt sich der Anwendungsbereich der Systeme. Die theoretische Analyse diagnostischer oder therapeutischer Entscheidungsprozesse ist bis heute nicht abgeschlossen; den diagnosesimulierenden Verfahren fehlt daher weitgehend eine wissenschaftlich fundierte Basis. Ein Beispiel hierfiir sind die bereits genannten Ad-hoc-Ansatze zum Umgang mit diagnostischer Unsicherheit, In den hinsichtlich des Schadensrisikos kritischen medizinischen Anwendungsgebieten fuhrt das zu Vertrauensdefiziten. Durch den hohen Aufwand bei der Wissenserhebung und Aktualisierung der Expertensysteme sowie der fur einen sicheren Einsatz notwendigen Betreuung tibersteigen die Kosten oftmals den von der Einfuhrung eines diagnoseunterstlitzenden Systems erwarteten Nutzen, was die Bereitschaft zu entsprechenden Investitionen vermindert. Wie einleitend bereits festgestellt hat sich die Lage hinsichtlich der IT-Infrastruktur inzwischen deutlich verbessert, Eine besonders wichtige Rolle kommt dabei mobilen Geraten zu (Personal Digital Assistants (PDAs), Subnotebooks oder Tablet-PCs), die mittels WLAN vernetzt sind. Ein wichtiger Grund fur den bisherigen praktischen Misserfolg macht deutlich, welche Herausfordungen aber auch Chancen die neuen technischen Moglichkeiten bieten: Bei vielen Systemen war die Integration in das klinische Informationssystem mangelhaft [BRS+98]. Dieser Mangel betrifft die folgenden allgemeinen Aspekte:
Datenintegration. Bei der Nutzung eines Wissensbasierten Systems, sollten Daten, die bereits
18
2 Medizinische Wissensverarbeitung - Anwendungsszenarien
anderweitig erfasst wurden, nicht nochmals eingegeben werden mussen. Wenn eine wissensbasierte Komponente in einem Informationssystem die durch andere Komponenten erfassten Daten nutzen kann und selbst anderen Komponenten Daten zur VerfUgung stellt, spricht man von Datenintegration. Funktionsintegration. Klinisches Handeln unterliegt einem erheblichen Zeit und Effizienzdruck. Dies ist einer der Griinde dafur, dass wissensbasierte Verfahren (beispielsweise zur Diagnoseunterstlitzung), die auf einzelnen Rechnern verfugbar gemacht werden, nicht regelmalsig und daher nicht nutzbringend eingesetzt werden. Klinische Routinen stellen demgegenUber einen Tatigkeitskatalog dar, der selbst unter Effizienzdruck unvermeidlich abgearbeitet werden muss. So erzwingen beispielsweise die Abrechnungsvorschriften eine Diagnoseverschllisselung oder die Dokumentationspflicht macht das Anlegen von Patientenakten notig. Auch ohne gesetzgeberischen Druck werden bestimmte sinnvolle Prozeduren regelhaft und systematisch abgearbeitet. Durch das Vordringen von Informationstechnologie werden zunehmend Teile dieser Routinetatigkeiten in klinischen Informationssystemen rechnerunterstlitzt durchgefuhrt. Wissensbasierte Systeme nutzen bisher zu wenig die Chance, ihre Einsatzfrequenz dadurch zu erhohen, dass ihre Funktionalitat bei der routinernafiigen Nutzung rechnerbasierter Klinikinformationssysteme angeboten wird (mangelnde Funktionsintegration). Kompetenzintegration. Die fehlende Akzeptanz fur die Verlagerung arztlicher Entscheidungskompetenz auf rechnerbasierte Systeme zeigt, dass es bei der Systemkonzeption darum geht, menschliche und maschinelle Kompetenzen richtig einzuschatzen und dann so zu kombinieren, dass sie sich gut erganzen (Spezifikation komplementarer Kompetenzen). Da auf absehbare Zeit Menschen die Verantwortungstrager bei klinischen Entscheidungen sein werden, steht die Transparenz und Uberprufbarkeit des Systemverhaltens im Vordergrund. Sehr komplexe und variable Probleme werden in der Regel effizienter durch Menschen gelost, exakte und stereotype Inferenzen aber besser durch Maschinen. So ist z. B. die statistische Erfassung von dokumentierten klinischen Informationen und das exakte Wiederzugreifen auf diese (Recall) sinnvoll an Maschinen zu delegieren. Die umfassende Bewertung einer klinischen Situation erfolgt nach wie vor besser durch Menschen. Ein weiteres Beispiel ist die Fahigkeit eines Rechnersystems, kritische Parameter (beispielsweise in der Intensivmedizin) kontinuierlich und ohne die beim Menschen haufige Unterbrechung der Aufmerksamkeit zu iiberwachen (Virgilanzvorteil). Statt sich auf die Eigenschaften der Computeranwendung allein zu konzentrieren, muss die Konzeption wissensbasierter Assistenz den Blick auf mogliche effiziente Mensch-Maschine Ensembles richten, die eine optimale Kompetenzverteilung versprechen.
2.5 Aktuelle Anwendungsfelder
19
2.5 Aktuelle Anwendungsfelder Der Anwendungsbereich von Techniken und Methoden aus der kunstlichen Intelligenz in der Medizin hat sich ausgeweitet. Wahrend sich Einzelsysteme in der Art der fruhen Expertensysteme nicht uberzeugend durchsetzten konnten, steigt die Verbreitung wissensbasierter Systemkomponenten. Die aktuell in der Forschung diskutierten Anwendungsbereiche lassen sich anhand einer bibliographischen Ubersicht erkennen.
MeSH Term Public Healt h Evidence -Based M edicine Telem edicine Int ern al M edicine Pedi at rics 1.E2!!ll!'i Practice Radiology Physical Medicine Psychiat ry
/I
598 38
26 25 20 20 14 13 8
I ~gy
7
Geriat rics Genet ics, Me dical
6 6
Neuro logy
3
I ~gen cy M edicine
2 2
Der mat ology
Abbi1dung 2.2: Einsatz wissensbasierter Komponenten in verschiedenen medizinischen Fachgebieten Ubersicht iiber die Publikationstatigkeit 2003-2008 (Stand Juni 2008)
Fiir die letzten fiinf Jahre vor Erscheinen dieses Buches (2003-2008) wurden in Medline rund 1.900 Publikationen erfasst, die den Themen »Wissensbasis«, »Expertensysteme« oder »Klinisches Entscheidungsuntersttitzungssystem« zugeordnet werden. Anhand der weiteren Verschlagwortung lassen sich Anwendungsschwerpunkte erkennen. Betrachtet man zunachst die medizinischen Fachgebiete fallt generell eine nur geringe Zuordnung zu einzelnen Spezialitaten auf (Abbildung 2.2). Der sehr hohe Wert der ftihrenden Kategorie »Public Health« ist missverstandlich: er entsteht vor allem dadurch, dass die Schlagworter »Datensamrnlung« und »Statistische Methoden« als Unterkategorie von »Public Health« auftreten und diese dann bei der Verschlagwortung inhaltlich vollig unabhangig von »Public Health« genutzt werden. Berticksichtigt man dies, fuhren Anwendungen in der Evidenrbasierten Medirin, der Telemedizin und der Inneren Medizin die Statistik an. Der Vergleich der Tatigkeitsbereiche (Abbildung 2.3), in denen wissensbasierte Komponenten zum Einsatz kommen, zeigt, dass ein administrativer Einsatz (z. B. entscheidungsuntersttitzender Komponenten im Bereich des Controlling) noch vor dem medizinischen Einsatz im Allgemeinen rangiert. Auch hier klart die genauere Analyse allerdings, dass unter administrativem Einsatz auch Mal3nahmen zur klinischen Qualitdtssicherung subsummiert sind. Hierzu gehort auch die
20
2 Medizinische Wissensverarbeitung - Anwendungsszenarien
MeSH Term Healt h Services Administration Medi cine Hospit al Administ rat ion Nursing Phar macology I ~g, Practical
Pharmacy Biomec ical Engineering Dent istry Alli ed Health Occuf1at ions Sociology, M edical Technology, Pharm aceutical Mortu ary Practice Environment al Healt h
#
777 686 106
88 19 16 12 12 10 9 6 4 4 3
Abbildung 2.3: Einsatz wissensbasierter Komponenten in verschiedenen medizinischen Tatigkeitsbereichen - Ubersicht tiber die Publikationstiitigkeit 2003-2008 (Stand Juni 2008)
MeSH Term Med. Records Syst ., Comput erized Medi cal Ord er Entry Systems Radiolo gy IS Point-of·Care Systems Clinical Pharmacy IS Clini cal Laborato ry IS Am bula tory Care IS
#
113
52 11 9 9
5 5
Abbildung 2.4: Einsatz wissensbasierter Komponenten in verschiedenen Systemtypen - Ubersicht tiber die Publikationstatigkeit 2003-2008 (Stand Juni 2008)
rechnergestiitzte Nutzung von Leitlinien. Sie tragt maBgeblich zum hohen Gewicht dieses Bereichs bei. Besonders aufschlussreich ist der Blick auf den System- bzw. Anwendungstyp, in dem wissensbasierte Komponenten zum Einsatz kommen (Abbildung 2.4). Hier flihren klar die computerbasierte Krankenakte und Systeme zur Leistungsanforderung (Medical bzw. Computerized Physician Order Entry Systems - CPOE Systems). Wissensbasierte Komponenten dienen dabei vor allem der Plausibilitatskontrolle bei Eingaben [WGF+08]. Bei radiologischen Informationssystemen spielen wissensbasierte Komponenten vor allem bei der Bildsuche eine Rolle. Die Situation bei der Therapieunterstiitrung ist uneinheitlich (Abbildung 2.5). Therapiebezogene Schlagworter werden offensichtlich bei der Verschlagwortung haufig als unspezifische Erganzung eingesetzt (vgl. das Gewicht der Kategorie »Patient Care« ). Die genauere Analyse zeigt, dass in vielen Fallen bereits CPOE-Systeme (s.o.) als therapieunterstiltzend erfasst werden. Ein
2.5 Aktuelle Anwendungsfelder
21
Me SHTerm Patient Care Drug Therapy Complementary Therap ies Emerge ncy Treatm ent
#
230 87 87 19
Biological Therapy Rehabilit ati on
16
Therapy, Comput er-Assisted Resflir at ory TfieraflY
12
Clinica l Protoco ls Exercise Movement Tech. Self Care I ~ fll a ce m e nt Therar!Y
Physical Therapy Moda lities Cathete rization Sorption Deto xification Radiotherapy Electric Stimulation Therapy Ort hopedic Pro cedures Nutrition Therapy Coml)ine d MoClalit y Tfierapy
13 9
8 7 5 5 5 5 4 4 4 2 2 2
Abbildung 2.5: Einsatz wissensbasierter Komponenten zur Therapieuntersttitzung - Ubersicht tiber die Publikationstatigkeit 2003-2008 (Stand Juni 2008)
M eSH Term
#
Prognosis Diagnosis, Diff erent ial
155 48 35 19
Laboratory Techniques
16
Technics and Proced ures Diagnosis, Compute r-Assiste d
I ~gno sti c
Errors Early Diagnosis
14 3
Abbildung 2.6: Einsatz wissensbasierter Komponenten zur Diagnoseuntersttitzung - Ubersicht tiber die Publikationstatigkeit 2003-2008 (Stand Juni 2008)
klar erkennbarer Schwerpunkt ist die Unterstiitrung der Medikation: hier werden bei der computergestiitzten Anforderung von Medikamenten Unvertraglichkeiten iiberpruft oder bei Fehldosierungen Warnungen ausgegeben. Weitere seit langerem erfolgreich unterstlitzte Bereiche sind das Beatmungsmanagement und das intensivmedizinische Monitoring. Der Einsatz wissensbasierter Komponenten zur Diagnoseunterstiazung geht tiber die Assistenz bei der Diagnosestellung hinaus. Unter dem hier an haufigsten vergebenem Schlagwort »Diagnostischer Techniken und Prozeduren« bildet der Einsatz in der Verwaltung und Interpretation
2 Medizinische Wissensverarbeitung - Anwendungsszenarien
22
medizinischer Bilder den wichtigsten Schwerpunkt. Haufig finden dabei Klassifikationsalgorithmen Anwendung.
2.5.1 Neuere Systeme im klinischen Routineeinsatz Die Publikationstatigkeit Iasst zwar auf den Stand der wissenschaftlichen Diskussion schlieBen, sie sagt aber wenig tiber den klinischen Routineeinsatz wissensbasierter Module aus. Aufbauend auf Arbeiten von COlERA bietet das Openclinical-Portal (openclinical.org) eine regelmafiig aktualisierte Ubersicht tiber den klinischen Einsatz von Methoden und Techniken des Wissensmanagements. Ein Schwerpunkt dabei sind Anwendungen der Kiinstlichen Intelligenz in der klinischen Routine (Site-Bereich: »AI Systems in clinical practise« ). Die dort verwendeten Systemkategorien sind: • • • • • • •
Systeme in der Akutmedizin Entscheidungsuntersttitzungssysteme Systeme fur die Aus- und Weiterbildung Laborsysteme Anwendungen der medizinischen Bildgebung Qualitatssicherung Administration
Von den dort aufgefUhrten Systemen sollen exemplarisch an dieser Stelle diejenigen erwahnt werden, die nach dem Jahr 2000 in die klinische Routinenutzung eingefuhrt wurden: • Fiir die Aktumedizin gentigen zwei Systeme den Kriterien: Automedon (2001 eingefiihrt in den Routinebetrieb) [DHT+OO] und SmartCare/PS (2002) [LMJ+06]. Beide dienen zum computergestiitzen Beatmungsmanagement. SmartCare/PS ist ein kommerzielles System. • Unter der Kategorie »Entscheidungsunterstiitzung« findet sich ein webbasiertes System zur Unterstiitzung der HIV-Therapie (Therapy Edge, 2001), ein System fur die allgemeinmedizinische Betreuung von Bluthochdruck-Patienten (ATHENA, 2002) sowie ein webbasiertes System zur Diagnoseunterstiitzung (Isabel, 2002) [BGS04], [GCT+04], [RRC+06]. • TheraSim CS-HIV (2002) (www.therasim.net) ist ein Trainingssystem fur das HIV-Management, das eine Simulatorkomponente umfasst. • j.MD (Java-Medical Diagnostics Expert System Shell) [HWS+04] ist ein Expertensystern, das die Interpretation chemischer Labortests unterstiitzt. Das System ist die einzige aufgefUhrte labormedizinische Anwendung, die nach 2000 eingefiihrt wurde. Allerdings entstanden gerade fur die Labormedizin vor diesem Termin Systeme, die seit langem im Routinebetrieb genutzt werden (z. B. PUFF (1979) [AKSF83] oder GermWatcher (1993) [KSDF96l). • Unter den Systemen zur Bildgebung, Qualitatssicherung und Administration findet sich keines, das nach 2000 eingefuhrt wurde. Das bereits erwahnte - vor 2000 eingefuhrte System APACHE-III erscheint unter der Kategorie Qualitatssicherung. Die foIgenden Abschnitte sind medizinischen Terrninologiesystemen, Literatur- und Online-
2.5 Aktuelle Anwendungsfelder
23
Datenbanken sowie Nachschlagewerken gewidmet. Diese gehoren bereits fest zum klinischen Repertoire. Dabei ubersieht man schnell, dass hier medizinisches Wissen z. T. durch Methoden aus dem Bereich wissensbasierter Systeme erschlossen wird. Zudem konnen Methoden der Wissensverarbeitung auf den Vorarbeiten in diesen Bereichen aufbauen. 2.5.1.1 Terminologiesysteme Medizinisches Wissen ist zu einem vergleichsweise groBen Anteil in sprachlicher Form dokumentiert. Die klinische verwendete Fachterminologie ist - insbesondere fur Spezialbereiche uneinheitlich. Vor dem Hintergrund der wachsenden Internationalitat des Wissenschaftsbetriebes und der steigenden Anforderungen an die klinische Dokumentation wurden Standardisierungsbernuhungen unternommen. In den letzten Jahrzehnten geschah das verstarkt unter Einsatz rechnergestiitzter Verfahren. Dabei stand die Etablierung kontrollierter Vokabulare und deren Strukturierung in Begriffsordnungen im Vordergrund. Die fiir die klinische Dokumentation wichtigsten Beispiele sind die Diagnosenklassifikation ICD (International Classification of Diseases and Health Related Problems) und die internationale Klassifikation der Prozeduren ICPD (International Classification of Procedures in Medicine). Der Nutzen dieser Bemiihungen liegt vor allem in einer systematisierten Dokumentation, die durch Einheitlichkeit und Vergleichbarkeit die Grundlage fur valide statistische Auswertungen bereitstellt und einen prazisen und umfassenden Informations- bzw. Dokumentenzugriff untersttitzt. Der Umfang und die Kornplexitat medizinischer Fachsprachen legen es nahe, bei der Erfassung und Nutzung standardisierter medizinischer Terminologien rechnerbasierte Verfahren und Modellierungsmethoden einzusetzen. Ohne primar eine umfassende Modellierung von Fachwissen anzustreben, reprasentieren solche Terminologiesysteme doch in erheblichem Umfang medizinisches Wissen. Beispiele sind das Unified Medical Language System (UMLS), die Systematized Nomenclature of Medicine - Clinical Terms (SNOMED-CT) und der wegen des Reprasentationsansatzes interessante Ansatz der Generalized Architecture for Languages, Encyclopedias, and Nomenclatures in Medicine (GALEN). Ein wichtiger Vorteil rechnergesttitzter Terminologiesysteme ist die Verringerung des sogenannten seman tischen lnteroperabilitdtsproblems in verteilten medizinischen Anwendungssystemen. Das Problem besteht darin, dass verschiedene verteilte Anwendungssysteme eines klinischen Informationssystems unvermeidlich medizinische Terminologie verwenden. In einem einzelnen System wird die verwendete Terminologie zwar - systemintern - sowohl vereinheitlicht als auch in eine rechnerverfiigbare Form gebracht, dabei ist jedoch keineswegs gewahrleistet, dass verschiedene Anwendungssysteme hinsichtlich ihrer medizinischen Terminologie kompatibel sind. Als Terminologieserver in ein klinisches Informationssystem integriert, konnen rechnerbasierte Terminologiesysteme die semantische Interoperabilitat zentral sicherstellen. Auch und besonders ftir wissensbasierte Systemen wird eine klar definierte Schnittstelle zu solchen Terminologiesystemen gefordert, urn die Integrationsmoglichkeit mit anderen medizinischen Anwendungssystemen (im Sinne der semantischen Interoperabilitat) zu steigern und dem durch die internationalen Klassifikationen vorgegebenen terminologischen Standard zu entspre-
24
2 Medizinische Wissensverarbeitung - Anwendungsszenarien
chen. Wegen der hohen Bedeutung der Sprache bei der Reprasentation medizinischen Wissens pragt die Nutzung terminologischen Wissens den gesamten Lebenszyklus medizinischer wissensbasierter Systeme.
2.5.1.2 Literaturdatenbanken Angesichts des rasanten Wachstums des medizinischen Wissens ist der Einsatz rechnergestlitzter Verfahren zur Versorgung arztlicher Entscheidungstrager mit relevanten Informationen unabdingbar. Wissensbasierte Ansatze kommen ins Spiel, wenn es darum geht, aus einer groBen Informationsmenge genau diejenigen Informationen zu selektieren, die fur ein gegebenes Problem wichtig sind. Die gegenwartig erfolgreichste Anwendung solcher Systeme in der Medizin stellt Medical Literatur Online (Medline) dar. Medline wird durch die National Library of Medicine (NLM) standig gepflegt und enthalt die bibliographischen Angaben und Abstracts von Artikeln aus tiber 5.000 Fachzeitschriften. Taglich kommen ca. 2.000--4.000 Neueintrage hinzu. Erfasste Publikationen werden unter Verwendung der Medical Subject Headings (MeSH) verschlagwortet. Die MeSH sind polyhierarchisch strukturiert und enthalten 18.000 Vorzugsbezeichnungen und 33.000 Synonyme. Auf Medline kann mittels verschiedener Retrievalmechanismen zugegriffen werden. Insbesondere sind boolesche Verkntipfungen der MeSH-Terme als Anfragen an die MedlineDeskriptoren moglich. Problematisch fur die Anwender ist, dass ubliche Anfragen zu Ergebnismengen fuhren, die zu groB sind, urn sie nutzen zu konnen. Hier setzten wissensbasierte Module an: Sie strukturieren z. B. die Ergebnismengen nach inhaltlichen Gesichtspunkten oder bereiten prazisere Anfragen vor. Die in Dresden entwickelte Suchunterstlitzung GoPubmed (www.gopubmed.com) kombiniert dazu die Nutzung von MeSH und Gene Ontology (GO).
2.5.1.3 Medizinische Online-Datenbanken und Nachschlagewerke Prazise Abfragernoglichkeiten und eine inhaltliche Strukturierung der angebotenen Information bieten umfangreiche (Online- )Datenbanken medizinischen Inhalts. Das Expertensystem INTERNIST wurde in diesem Sinne umfunktioniert zu einem rechnergestlitzten Nachschlagewerk, dem Quick Medical Reference (QMR) [MM89]. Ein praxisrelevantes Beispiel ist die Datenbank OMIM (Online Mendelian Inheritance in Men) (www.ncbi.nlm.nih.gov/sites/entrez?db=omim). Sie ermoglich einen schnellen und strukturierten Zugriff auf Informationen zur Diagnostik und Phanomenologie genetisch verursachter Erkrankungen auf Grundlage einer relationalen Datenbank. Medrapid (medrapid.info) stellt Wissen zur Diagnostik und Therapie von ca. 9.300 Krankheitsbildern zur VerfUgung. Eine Webschnittstelle erlaubt den Zugriff auf eine nach den Sachverhalten und Beziehungen des Wissensgebiets strukturierte Daten- bzw. Wissensbank. Die derzeit hinsichtlich der internationalen Integration und der Quantitat der erfassten Daten avanciertesten biomedizinischen Datenbankprojekte werden im Rahmen der Molekulargenetik
2.5 Aktuelle Anwendungsfelder
25
und Humangenetik verfolgt. Sie dienen der Bereitstellung von Daten insbesondere zur Lokalisation und Funktion einzelner Gene. Zu den entsprechenden Datenbanken, wie z. B. Entre: Nucleotide (www.ncbi.nlm.nih.govfsitesfentrez?db=nuccore), werden Algorithmen zum Retrieval ahnlicher DNS-Sequenzen oder zur Ermittlung und Darstellung von raumlichen Proteinstrukturen und deren Vergleich angeboten. Die Datenbanken verweisen aufbibliographische Angaben zur Forschungsliteratur. Wissensbasen lassen sich auch als Grundlage von Lehr- und Lernsystemen nutzen. Ausgangspunkt ist ihre Eigenschaft, medizinisches Wissen explizit zu machen und einheitlich zu strukturieren. Wahrend des Trainings, das oft ausgehend von Trainingsproblemen oder -fallen erfolgt, wird der relevante Ausschnitt der Wissensbasis in geeigneter Form dargestellt (z. B.: Darstellung aller differentialdiagnostisch relevanten Symptome und Diagnosen in einer Netzdarstellung). Signifikante und dauerhafte Verbesserungen des Lerneffekts wurden durch Pre-fPosttest Studien mit Follow-Up Tests nachgewiesen [CLM+07].
3 BegriffskHirungen Lernziele • Aulb au eines intelligenten Agenten kennen • Wissensbegriff der klinstlichen Intelligenz kennen und seine Grenzen errnessen • Symbolverarbeitungsansatz und Konnektionismus unterscheiden
3.1 Wissen Wissen ist ein Begriff mit langer Geschichte und unklarer Bedeutung. Das Konzept des intelligenten Agenten (general intelligent agent) wurde spatestens seit den Arbeiten von A. NEWELL und H. SIMON 1972 zu einem zentralen Konzept der Kiinstlichen Intelligenz. Es bildet den Ansatzpunkt fiir eine pragmatischen Klarung der Begriffe Intelligenz und Wissen. Das Konzept eines intelligenten Agenten konzentriert sich auf sehr wenige, abstrakte Feststellungen: • Agent und Umgebung sind streng getrennt. • Der Agent kann in genau definierter Weise mit der Umgebung interagieren: er verfiigt tiber Sensoren, die ihn mit Informationen tiber die Umgebung versorgen, und er kontrolliert Werkzeuge, auch Effektoren genannt, welche die Umgebung verandem konnen. • Ein externer Beobachter kann den Agenten von seiner Umgebung unterscheiden und die Folge der durch den Agenten hervorgerufenen Umgebungsveranderungen registrieren. • Interne Details des Agenten sind fur den externen Beobachter nicht sichtbar. Definition 3.1 (Agent) Ein Agent ist ein autonomes oder teilautonomes System, das durch Sensoren und Effektoren mit einer von ihm unterscheidbaren Umgebung interagiert.
Der Typ des Agenten hangt von der (Verhaltens-) Funktion ab, welche die Umgebungsinformationen mit den ausgefuhrten Umgebungsveranderungen verkntipft. Die Autonomiebedingung stellt fest, dass diese Funktion selbst nicht direkt externen Einfltissen unterliegt. 1m einfachsten Faile bildet die Funktion Umgebungsinformationen statisch auf Umgebungsveranderungen ab, ohne dass z. B. variable interne Zustande des Agenten eine Rolle spielen. Die Aktivitat des Agenten wird dann unmittelbar und vollstandig durch die Umgebungsinformation determiniert.
28
3 Begriffsklarungcn
Der externe Beobachter kann Erfolgskriterien fur das Verhalten des Agenten festsetzten und tiberwaehen. Ein Agent, der sich in versehiedenen Situationen erfolgreieh oder wenigstens zweekmafiig verhalt, wird intelligenter Agent genannt [Doy83]. In Abbildung 3.1 sind die Eigensehaften eines intelligenten Agenten sehematiseh dargestellt. Agenten konnen tiber ihre Sensoren den Umgebungszustand und damit aueh die Folgen ihres Handelns zumindest aspektweise wahrnehmen. Daher ist es moglich, Agenten zu konstruieren, welche den Erfolg ihres Handelns selbst bewerten und dazu intern Erfolgskriterien verwenden. Das Konzept des intelligenten Agenten fordert aber nieht ausdrucklich, dass solche internen Erfolgskriterien vorliegen. Andererseits kann ein externer Beobaehter bei jedem Agenten, der tiber interne Kriterien verfugt, eine entspreehende Bewertung vornehmen. Die Definition von Wissen,
...
ExternerBeobachter stellt "angemessenes Verhalten" fest
CAgen!~ ~~
.
ktuatore
Ermittlung von Umgebungsinformation
Umgebung (Zustand I)
. AusfOhrung von Umgebungsveranderungen
Umgebung (Zustand F)
Abbildung 3.1: Schema eines intelligenten Agenten
die sich in dieser Siehtweise formulieren lasst, sieht ab von einer konkreten inhaltliehen Bestimmung oder davon, in welcher Form es dem Agenten verftigbar ist. Ein externer Beobaehter hat keinen Einbliek in diese Details. Definition 3.2 (Wissen) Das Wissen eines intelligenten Agenten ist eine interne Eigensehaft, die als Basis ( »Ermoglichungsgrund« ) seines erfolgreiehen oder zumindest zweckmalsigen Verhaltens in versehiedenen Situationen dient. Die Konzepte eines intelligenten Agenten und seines Wissens sind abstrakt genug, urn versehiedene Systemansatze der KI vereinheitliehend zu besehreiben. Die Untersehiede liegen in den Meehanismen, die zum Verhalten des Agenten fuhren.
3.2 Syrnbolverarbeitung Innerhalb der KI-Forsehung werden zwei Hauptriehtungen untersehieden: der Symbolverarbeitungsansatz und der Konnektionnismus.
29
3.3 Konnektionismus
Der Symbolverarbeitungsansat: der Kimstlichen Intelligenz basiert auf zwei Konzepten: dem eben vorgestellten Konzept des intelligenten Agenten und auf der »physical symbol system hypothesis«. Ein Symbol ist in diesem Kontext ein Zeichen. Ein Zeichen ist ein materieller Gegenstand (ganz gleich, ob Hinweisschild oder Druckerschwarze), der auf etwas anderes verweist oder stellvertretend fur etwas anderes steht. Durch NEWELL und SIMON wurde als Physical SymRepresemetion
InBox(d,A)
t ;
!
InBox(q,A)
...i
f- - -f
InBox(p ,B)
Probehandeln durch Symbolmanipulation
t
Realwelt
Abbildung 3.2: Symbolisches Probehandeln als Grundprinzip des symbolverarbeitenden Ansatzes
bol System Hypothesis die These zur Diskussion gestellt, dass sich die entscheidenden Aspekte von Intelligenz als symbolverarbeitende Prozesse auf einer Reprasentation eines Weltausschnitts - einer Art Modellwelt also - verstehen lassen [New80]. FUr den Agenten ist es dadurch moglich, zwischen der Aufnahme der Umgebungsinformation und seiner Verhaltensantwort eine Art Probehandeln durchzuftihren (Abbildung 3.2). Der Agent untersucht mittels seines Modells die Konsequenzen, die sich aus seinem spateren Verhalten ergeben konnten (z. B. spielen Schachprogramme mogliche ZUge durch und bewerten die sich ergebenden Konstellationen). Entscheidend ist der Aspekt einer internen Reprasentation: interne Zustande des Agenten (sprich Programmzustande) stehen symbolisch fur Zustande der Umgebung, Veranderungen der Umgebung konnen durch Veranderungen der internen Zustande simuliert werden.
3.3 Konnektionismus Der konnektionistische Ansatz verzichtet dagegen auf eine interpretierbare, symbolische Reprasentation von Wissen. Stattdessen wird versucht, die Bauart biologischer intelligenter Systeme (neuronaler Netze) nachzubilden. Dabei stehen Netzzustande nicht mehr symbolisch fur Wissensinhalte. Den zeitweiligen Eigenschaften des neuronal en Netzes ist nicht oder nur mit Miihe anzusehen, inwiefern sie sich auf die Umgebung beziehen. 1m Unterschied zum symbolischen Ansatz besteht keine einfache Zuordnung zwischen Merkmalen des Netzes und Sachverhalten,
30
3 Begriffsklarungen
wie zwischen einem Symbol und einem Element der Umgebung. Daher wird dieser Ansatz auch subsymbolisch genannt. Dennoch ist es sinnvoll, beispielsweise einem trainierten, neuronal en Netz Wissen zu unterstellen: Es kann durchaus komplexe und angemessene Verhaltensantworten generieren. Hier bewahrt sich die Allgemeinheit der oben gegebenen Definition von Wissen.
4 Formale Grundlagen - Wissensreprasentation und Inferenz Lernziele • Syntax, Semantik und Pragmatik einer Sprache unterscheiden • Idee und Autbau einer forma len Logik am Beispiel von Aussage n- und Pradikatenlogik nachvollzichcn • Den Untcrschicd zwischen syruaktischcr und scrnantischcr Folgerung kennen und verstehen, wie ein Kalkiil ohne jedes inhaltliche Verstandnis neue zutreffende Aussagen erze ugen kann
4.1 Syntax, Semantik, Pragmatik einer Sprache In einer Sprache lassen sich Sachverhalte notieren und mitteilen. Die Sprache selbst ist dabei ein Symbolsystem: ein sprachliches Zeichen vertritt das Bezeichnete. Zeichen und Bezeichnetes sind nicht identisch. »Die TUrist offen« ist eine Kette von Buchstaben, die bestimmten Kompositionsbedingungen genUgt. Die Definition eines Zeichenvorrats und die Regeln zur Kombination dieser Zeichen bilden die Syntax einer Sprache. Die Syntax legt fest, welche Symbolkombinationen zur entsprechenden Sprache dazugehoren. Auf dieser Ebene betrachtet ist eine Sprache zunachst ein System zum Generieren sprachlicher AusdrUcke. »Die TUrist offen« ist aber nicht nur die dargestellte Buchstabenkette, sondern dient als Symbol, als sprachliche Reprasentation fur einen Sachverhalt. Eine Interpretation bezieht Symbole auf die von ihnen unterschiedenen Sachverhalte. Hier beispielsweise auf eine offene TUr. Interpretationsbedingungen regeln solche Bedeutungszuweisungen. Die Semantik einer Sprache definiert die Bedeutung ihrer AusdrUcke: sie fasst ihre Interpretationsbedingungen und -regeln zusammen. Eine weitere Ebene stellt den Bezug zum Handeln her: »Die TUr ist offen« kann semantisch korrekt auf unterschiedliche Weise interpretiert werden: Ais Mitteilung der Tatsache, dass eine bestimmte TUr offen ist, als Aufforderung eine Tiir zu schlieBen oder - bei entsprechender Betonung - sogar als Aufforderung den Raum zu verlassen. Die Rolle, welche die Ausdrucke einer Sprache in verschiedenen Handlungs- oder Mitteilungszusammenhangen spielen, wird als Pragmatik bezeichnet.
32
4 Formale Grundlagen - Wissensreprasentation und Inferenz
Insofern die symbolische Wissensreprasentation und -verarbeitung mit Symbolsystemen operiert findet sich auch hier notwendigerweise die Unterscheidung von Syntax und Semantik.
4.2 Formale Logik 4.2.1 Forrnalisierungsansatz Formale Logiken spiel en in der Wissensreprasentation und rechnergestlitzten Wissensverarbeitung eine fundamentale Rolle: Sie dienen als Ausgangsbasis fur die Symbolsysteme und Verarbeitungsalgorithmen, die wissensbasierten Systemen zugrunde liegen.
Formale Logiken qualifizieren sich fur diese Rolle vor allem dadurch, dass ihre Syntax, Semantik und der verwendete Wahrheitsbegriff mathematisiert wurden. Formale Logiken geben eine »mathematische« Anwort auf die Fragen: • • • •
Was ist logische Wahrheit? Was ist ein Beweis? Wie findet man einen Beweis? Wie zieht man korrekte SchlUsse?
Ausgangspunkt war die Entdeckung der traditionellen Logik, dass bestimmte Satze oder Argumentationen bereits aus formalen Grunden als wahr akzeptiert oder als falsch verworfen werden - immer vorausgesetzt, die Gesprachspartner lassen sich auf Argumente uberhaupt ein. Die Beobachtung, dass bereits die formale Struktur der Argumente tiber Wahrheit und Falschheit entscheiden kann, brachte schon G.W. LEIBNIZ (1646-1716) auf die Idee ein Rechenverfahren zur Ermittlung von Wahrheit aus formalen Grunden zu entwickeln. FUr die Umsetzung dieser Idee ist die Unterscheidung von Syntax und Semantik wichtig, denn ein solches Rechenverfahren soil formale, d. h. syntaktische Kriterien nutzen, urn eine Argumentation zu prufen. Der Ausgangspunkt einer formalen Logik sind Aussagen. Aussagen sind sprachliche Objekte, die - anders als beispielsweise Fragen oder Aufforderungen - sinnvollerweise als wahr oder falsch bewertet werden konnen. ( »Lukas ist ein Lokomotivfuhrer,« ist eine Aussage, »Hau den Lukas!- « dagegen nicht). Als sprachliche Objekte sind Aussagen auch syntaktische Gebilde. Als Symbole ftir Aussagen dienen im Folgenden die Symbole I/>i (mit beliebigen natlirlichen Zahlen i). Die Bedeutung (semantische Ebene) einer Aussage ist der in der Aussage festgestellte Sachverhalt.
Definition 4.1 (Modell, ErfiilItheit) Besteht in einer bestimmten Bezugssituation M der in einer Aussage I/>i festgestellte Sachverhalt, so ist die Aussage in dieser Bezugssituation erfullt, abgekUrzt: M F I/>i. Umgekehrt sagt man, dass die Bezugssituation oder -welt M ein Modell fur die Aussage ist, wenn diese Aussage dort erftillt ist. Was als Bezugssituation in Frage kommt oder was ein Sachverhalt ist, bleibt vorlaufig noch vollig offen.
4.2 Formale Logik
33
Sclbsttcst 4.1 Welchc dcr folgcndcn sprachlich cn Ausdrilckc sind Aussagen? 1. 2. 3. 4.
Dcr Patient hat Fieber Dcr Patient mcint , cr hat Fieber Wciscn Sic den Paticntcn cin Wurden die Proben bereits ins Labor geschickt
4.2.2 Allgemeingiiltigkeit, Kontingenz, Unerfiillbarkeit Ais syntaktische Gebilde sind Aussagen »interpretationsbedurftig«: Durch eine Interpretation wird festgelegt, welcher Sachverhalt durch die Aussage behauptet wird. Es lasst sich erst dann feststelIen, ob die Aussage erftillt ist oder nicht.
o Menge aller Interpretationen, in denen A wahr isl
\
Menge aller Interpretationen
Abbildung 4.1: Interpretationen einer kontingenten Aussage
Eine einzelne Aussage kann hinsichtlich der Eigenschaften ihrer moglichen Interpretationen charakterisiert werden. In den Abbildungen (4.1, 4.2, 4.3) sind entsprechende Eigenschaften in Diagrammen veranschaulicht:
\
Menge alter Interpretationen, in denen A wahr ist
Meng e aller Interpretationen
Abbildung 4.2: Interpretationen einer allgcmeingultigcn (tautologischen) Aussage
4 Formale Grundlagen - Wissensreprasentation und Inferenz
34
• Kontingent heiBen Aussagen, die unter einigen aber nicht allen Interpretationen wahr sind. Ausgangspunkt ist immer die Menge aller moglichen Interpretationen einer Aussage A. • Tautologisch oder allgemeingidtig heiBen Aussagen, welche die Eigenschaft haben, unter jeder Interpretation wahr zu sein.
\
Leere Menge aller In!erpre!a!ionen, in denen A wahr is!
Menge aller Interpreta!ionen
Abbildung 4.3: Interpretationen einer logisch falschen Aussage
• Unerfiillbar oder logisch falsch sind Aussagen, welche bei jeder Interpretation falsch sind.
4.2.3 Aquivalenz, Kompatibllitat, Inkompatlbilltat Kontingenz, Allgemeingiiltigkeit und Unerflillbarkeit charakterisieren eine einzelne Aussage. Die folgenden Eigenschaften Aquivalenz, Kompatibilitdt und lnkompatibilitdt beziehen sich jeweils auf mehrere Aussagen im Vergleich. Sind zwei Formeln unter jeder gegebenen Interpretation entweder beide wahr oder beide nicht wahr, heiBen sie logisch iiquivalent (dargestellt in Abbildung 4.4). Selbstverstandlich sind Fal-
Menge aller Inlerprelalionen, in denen A wahr is!
Menge aller Inlerp relalion en, in denen B wahr is!
Abbildung 4.4: Interpretationen zweier aquivalenter Aussagen A und B
Ie denkbar, in denen zwei Aussagen in einigen Situationen gleichzeitig gelten, es aber dennoch Situationen gibt, in denen eine der Aussagen gilt, die andere aber nicht. In diesen Fallen sind
4.3 Folgerung und Kalkiil
35
die Aussagen miteinander kompatibel. Die Schnittmenge von Situationen, in denen beide Aussagen wahr sind, ist nieht leer. Inkompatibel oder widerspruchlich sind Formeln, fiir die es keine
Menge aller Interpretationen Menge aller Interpretationen, in denen A wahr ist
Menge aller Interpretationen, in denen B wahr ist
Abbildung 4.5: Interpretationen zweier inkompatibler oder widerspriichlicher FormelnA und B Interpretation gibt, unter der beide wahr sind (dargestellt in Abbildung 4.5).
Selbsttest 4.2 Skizzieren Sie die Verha ltnisse fur den Fall, dass es Interp retationen gibt, in denen sowohl eine Aussage A als auch cine Aussage B wahr ist, aber auch solche Intcrprctationen, in denen nur cine dieser beiden wahr isr, und dass eine weitere, kontingente Aussage C mindestens in allen Fallen wahr ist, in denen sowohl A als auch B wahr sind.
4.3 Folgerung und Kalkiil 4.3.1 Semantische Folgerung Die Frage, ob eine bestimmte Aussage gilt oder nicht, ist nicht immer leicht zu beantworten; stattdessen beschrankt sich die Logik auf eine modifizierte Fragestellung: auf die Frage namlich, ob eine bestimmte Aussage immer dann gilt, wenn andere Aussagen als giiltig vorausgesetzt werden konnen. Etwas anders formuliert geht es also urn die Frage, ob in jeder Interpretation, in der alle Aussagen aus einer Menge {1, 2, ... , 11} von Aussagen (Menge der Voraussetzungen) erfiillt sind, auch eine weitere Aussage a gilt. In diesem Falle ergibt sich die letzte Aussage als semantische Folgerung der Voraussetzungen, abgekiirzt geschrieben: 1, 2, ... , 11 F a . Hierauf beruht auch der Trick einer logischen Argumentation im intuitiven Verstandnis: Kann ein Diskussionsteilnehmer sein Gegeniiber dazu bringen, allen Ausgangsaussagen zuzustimmen, so kann das Gegeniiber eine seman tisch daraus folgende Zielaussage nieht mehr ablehnen, ohne im Sinne der Argumentationsregeln zum Spiel verderber zu werden - das ist dann keine Frage unterschiedlicher Interpretationen mehr. Abbildung 4.6 illustriert die Verhaltnisse des semantischen Folgerungsbegriffs am Diagramm. Die Menge aller Interpretationen, in denen die Ausgangshypothesen (hier B, C, D) gleichzeitig wahr sind, ist eine Teilmenge der Menge derjenigen Interpretationen, in denen die Aussage A wahr ist. Deshalb ist A zwangslaufig in allen Fallen wahr, in denen auch alle Hypothesen wahr sind: A folgt also semantisch aus B, C und D.
4 Formale Grundlagen - Wissensreprasentation und Inferenz
36
Menge aller Interpretationen Menge aller Interpretationen, in denen A wahr ist
Menge aller Interpretationen, in denen B wahr ist
Abbildung 4.6: Semantische Folgerungsbeziehung
Zur Verwirrung tragt bei, dass iiblicherweise das Symbol F sowohl fur die Modellbeziehung (Abschnitt 4.2.1, S. 32) als auch fur die semantische Folgerung verwendet wird, obwohl die semantische Folgerung etwas anderes ist: Die Modellbeziehung besteht zwischen einer Welt oder Situation und einer Aussage als syntaktischem Objekt, sie verbindet die Ebene der Semantik mit der Ebene der Syntax. Die semantische Folgerungsbeziehung besteht zwischen einer Menge von Aussagen und einer Aussage also innerhalb der syntaktischen Ebene und zwischen einer Menge syntaktischer Objekte und einem weiteren syntaktischen Objekt. Sie heiJ3t dennoch semantisch, weil der Grund fur das Bestehen einer semantischen Folgerungsbeziehung auf der semantischen Ebene liegt: zwischen den Aussagen (Syntax) besteht die Beziehung, wenn die Wahrheit unter den jeweiligen Interpretationen passend ausfallt (Semantik).
4.3.2 Syntaktische Folgerung und Kalkiile Eine syntaktische Folgerung erzeugt aus gegebenen Formeln eine neue Formel durch rein syntaktische Operationen, also das Setzen, Loschen und Umstellen von Zeichen. Kann aus einer Menge von Aussagen {cf>!, 2, ... , cf>/J} eine Aussage cf>a syntaktisch gefolgert werden, so schreibt man abkiirzend cf>!, cf>2, ... , cf>/J f- cf>a. Ein Kalkiil ist eine (algorithmische) Anleitung zum syntaktischen Folgern. Die Bedeutung der Formeln berticksichtigt er dabei gar nicht. Allerdings ist es das Ziel, einen Kalkiils so zu konstruieren, dass er semantische Folgerungen auf rein syntaktischem Wege erzeugt. Von einem korrekten Kalkiil fordert man, dass jede Aussage, die er syntaktisch aus Voraussetzungen folgert, aus diesen Voraussetzungen auch semantisch gefolgert werden kann. Es muss also gelten: Wenn cf>l, cf>2, .•., cf>/J l- cf>a, dann auch cf>!, 2, ... , cf>/J
F cf>a
(Korrektheit)
Wenn umgekehrt in jedem Falle bei Bestehen einer semantischen Folgerungsbeziehung auch eine syntaktische Folgerungsbeziehung besteht, heiJ3t der Kalkiil vollstdndig: Wenn cf>! , 2, ... , cf>/J
F cf>a, dann auch cf>!, cf>2, ... , cf>/J f- cf>a
(Vollstiindigkeit)
4.3 Folgerung und Kalkiil
37
Ein korrekter und vollstandiger Kalklil erlaubt es, ausschlieBlich durch syntaktische Kriterien Folgerungen ziehen zu konnen, und er garantiert, dass aIle Aussagen, die auch semantische Folgerungen sind, dabei gefolgert werden, aber keine anderen.
4.3.3 Konzeptualisierung Wie Aussagen zu interpretieren sind, d. h. was als Modell (Abschnitt 4.2.1, S. 32) einer Aussage in Frage kommt, blieb bisher offen. Tatsachlich unterscheiden sich verschiedene formale Logiken hinsichtlich der Art ihrer Modelle. Die Flexibilitat fur solche Unterschiede wird durch die Semantik der verwendeten Sprachen gegeben. Es ist z. B. erlaubt, die Zeichenkette »Es_regnet« als die Feststellung zu interpretieren, dass der Himmel jetzt blau ist. Ein Modell fiir eine Formel der Aussagenlogik ergibt sich, indem jede elementare Aussage lediglich jeweils mit einem der Werte »wahr« (W) oder »falsch« (F) interpretiert wird. In der Pradikatenlogik sind als Bausteine eines Modells nur Individuen, Mengen, Funktionen und Relationen zugelassen. Die Anwendung der Pradikatenlogik z. B. auf medizinische Probleme ist nur dann moglich, wenn in diesem Bereich ebenfalls Individuen, Mengen, Funktionen und Relationen identifiziert werden konnen. Gllicklicherweise sind diese Beschreibungsmittel so allgemein, dass sie sich meist gut auf entsprechende Bereiche anwenden lassen.
Definition 4.2 (Konzeptualisierung) Der Schritt, aus Aspekten der Wirklichkeit zulassige Bausteine fiir Modelle zu gewinnen, wird als Konseptualisierung bezeichnet. Beispiel 4.1 Der betrachtete Weltauschnitt besteht aus einem Sandwich, das mit einem Salatblatt, einer Tomatenscheibe, Schinken und Ei belegt ist. Eine (grobe) Konzeptualisierung konnte das komplette Sandwich als ein einziges individuelles Element verstehen (und diesem als Symbol etwa die Zeichenkette LeckeresSandwich zuordnen) eine feinere Konzeptualisierung unterscheidet als individuelle Elemente das Salatblatt, die Tomatenscheibe, das Brat, die Schinkenscheibe, das Ei und betrachtet den Sachverhalt, dass ein Gegenstand auf einem anderen liegt als Relation. Diese Relation besteht aus all denjenigen Paaren von Gegenstanden, deren einer direkt auf dem anderen liegt, zum Beispiel den Paaren Schinkenscheibe-Brot, SalatblattSchinkenscheiben oder Tomatenscheibe-Schinkenscheibe. In dieser Konzeptualisierung lasst sich die Gestaltung des Sandwichs detailliertererfassen: (IiegtAuf(SB,BR)), liegtAuf(SC,SB), liegtAuf(EI,SC), liegtAuf(TS,SC)), ware eine mogliche symbolische Notation.
Die Bedeutung eines Aussage (einer Formel) ist durch ihre Abbildung auf ein Modell gegeben. Hierzu werden den Elementen seiner Syntax Teilstrukturen des Modells zugeordnet. Von entscheidender Bedeutung ist, dass die Semantik einer formalen Logik als kompositionelle Semantik definiert ist: Die Bedeutung eines Satzes ergibt sich rekursiv aus der Bedeutung seiner Elemente und der Art ihrer syntaktischen Verkniipfung.
4 Formale Grundlagen - Wissensreprasentation und Inferenz
38
4.4 Aussagenlogik 4.4.1 Syntax der Aussagenlogik Als formale Sprache wird die Aussagenlogik durch eine generative Grammatik definiert. Die Idee einer generativen Grammatik besteht darin, ausgehend von einer endlichen Menge von Vokabularelementen und einer endlichen Menge syntaktischer Regeln rekursiv einen (unendlichen) Sprachumfang zu definieren. 1m Faile der Aussagenlogik ist die Menge V der Vokabularelemente durch die Vereinigung der Mengen J := {A, V," ----+, +--+} der logischen Junktoren, T := {(,)} der technischen Zeichen, A der elementaren Aussagen sowie der Zeichen T(verum) sowie ..1 (falsum) gegeben. Eine elementare Aussagen ist eine gegebenenfalls noch mit einem alphanumerischen Subskript versehene Buchstabenkette (genaugenommen ist diese Menge nicht endlich, aber lasst sich selbst wieder aus einer endlichen Zeichenmenge regelhaft erzeugen). Gegeben sei eine Menge A elementarer Aussagen. Ein Ausdruck cf> ist ein Ausdruck der Aussagenlogik genau dann, wenn er eine der folgenden Eigenschaften hat: I. 2. 3. 4. 5. 6. 7.
cf> ist eine elementare Aussage aus A Falsum und Verum: cf> ist T oder cf> ist ..1 Negation: cf> hat die Form ('lfI) und lfI ist ein Ausdruck der Aussagenlogik Konjunktion: cf> hat die Form (lfl A lfI') und lfI,lfI' sind Ausdrlicke der Aussagenlogik Disjunktion: cf> hat die Form (lfl V lfI') und lfI,lfI' sind Ausdrlicke der Aussagenlogik Subjunktion: cf> hat die Form (lfl ----+ lfI') und lfI,lfI' sind Ausdrlicke der Aussagenlogik Bisubjunktion: cf> hat die Form (lfl +--+ lfI') und lfI,lfI' sind Ausdrlicke der Aussagenlogik
Selbsttest 4.3 Welche der folgenden Formeln sind Ausdru cke del' Aussagen logik : I. (A +-> B( --'> C)) 2. ((--,A) ((BV C) A(D I\ E ))) 3. (AV (-, )) 4. (T Otto)
4.4.2 Semantik der Aussagenlogik Die Semantik der Aussagenlogik geht aus von einer sehr einfachen Konzeptualisierung: Die Welt wird betrachtet, als ob sie nur aus den Bausteinen W und F bestiinde, den Elementen der Menge der Wahrheitswerte BOOLE := {W, F}. Diese Wahl ist gewohnungsbedurftig und fuhrt haufig dazu, dass elementare Aussagen durch Menschen liberinterpretiert werden. Die Zeichenkette »DasHauslstGrass« ist im Sinne der formalen Semantik der Aussagenlogik nicht als der Sachverhalt zu interpretieren, dass das Haus graB ist, so wie dieser Satz liblicherweise verstanden wird, sondern eben nur als W oder F. Die Konzeptualisierung ist im Faile der Aussagenlogik zu
4.4 Aussagenlogik
39
grob, urn den Unterschied zwischen Haus und Kafer, groB und klein iiberhaupt zu erfassen, da alles nur entweder als W oder als F identifiziert wird.
'11
lfJ
\1'
W W
W F
W F
F
W
F
F
F
F
lfJ
IjI
lfJ VIjI
W
W
W
W
F
W
F F
W F
W F
lfJ
1\
EH=E
lfJ
\1'
lfJ -4 'I'
W W
W F
W F
-'lfJ
F
W
W
W
F
F
F
W
F
W
lfJ
\1'
lfJ f7 '11
W
W
W
W
F
F
F F
W
F W
F
Abbildung 4.7: Normierung der logischen Junktoren
Eine aussagenlogische Interpretation ist eine Abbildung aller in einem Ausdruck verwendeten elementaren Aussagen auf die Menge der Wahrheitswerte, so dass jeder elementaren Aussage genau ein Wahrheitswert zugewiesen wird. Dem Zeichen 1.- ist immer der Wahrheitswert F, dem Zeichen Timmer der Wahrheitswert T zuzuordnen. Die Bedeutung eines aussagenIogischen Ausdrucks bei einer gegebenen Interpretation ergibt sich rekursiv aus den Wahrheitswerten seiner Teilformeln und seman tischen Kompositionsregeln fur die Junktoren. Durch Einflihrung der semantischen Kompositionsregeln findet die sogenannte Normierung der lunktoren statt. Dadurch erhalt die formalen Sprache der Aussagenlogik Eigenschaften, die zum intuitiven Verstandnis VOn Logik passen. Durch einen Junktor werden Teilformeln zu einer neuen FormeI kombiniert. Die Normierung legt fur alle moglichen Kombinationen von Wahrheitswerten der TeiIformeln fest, welcher Wahrheitswert sich fiir die Gesamtformel ergibt (s. Abbildung 4.7). Die lunktoren V (Konjunktion) und 1\ (Disjunktion) entsprechen etwa den intuitiven Konzepten »sowohl A als auch B« (1\) bzw. »A oder B oder beide« (V). I Intuitiv neigen Menschen dazu »wenn A dann B« so zu verstehen, dass »wenn falsch, dann wahr- als falsch angesehen wird. Die Normierung der Subjunktion ( ----+ ) weicht davon ab. 1st der Ausdruck vor dem Subjunktions-Pfeil falsch, dann kann der Ausdruck nach dem Pfeil sowohl falsch als auch wahr sein: die Gesamtformel ist in beiden Fallen wahr. Erst die Bisubjunktion (o (cf> V lfI) (+v)
(cf> V lfI) (+v)
Regeln fiir die Subjunktion. Eine Subjunktion kann aus einer beliebigen Aussage hergeleitet werden, wann immer nur ihre Zielaussage bereits hergeleitet ist. In der Hypothesenmenge darf dann die Ausgangsaussage geloscht werden. [cf>J
Die Zielaussage kann aus einer Subjunktion hergeleitet werden, wenn die Ausgangsaussage bereits separat hergeleitet wurde.
Regeln fiir die Negation. Eine Negation kann eingeftihrt werden, wenn falsum (d. h. ein Widerspruch) hergeleitet wurde. Trat dabei in den Hypothesen die negierte Aussage ohne Negation auf, so wird diese deaktiviert. Sinngemals bedeutet dies: Wird aus einer Aussage ein Widerspruch geschlossen, so lasst sich ein Beweis unter Annahme des Gegenteils fortsetzen (reductio ad absurdum). [cf>J
Wurden eine Aussage und ihre Negation separat hergeleitet, so gilt faIsum aIs hergeleitet.
Regeln fiir Verum und Falsum. Wie einleitend gesagt gibt es fur FaIsum keine alternative EinfUhrung und fiir verum keine Elimination. Umgekehrt kann verum immer eingefuhrt und aus faIsum Beliebiges gefoIgert werden:
~
(+T)
4 FormaleGrundlagen - Wissensreprasentation und Inferenz
46
Nicht-intuitionistische Regeln. Die bisherigen Herleitungsregeln (aueh die intuitionistischen Regeln genannt) fuhren zu einem korrekten, nieht aber vollstandigen Kalkul. Nur wenn eine der folgenden zusatzlichen Regeln angewendet wird, ergibt sieh ein korrekter und vollstandiger Kalkiil fiir die Aussagenlogik. Regel vom ausgeschlossenen Dritten cj> V-,cj> (ad)
Doppelte Verneinung
-,-,cj> -cj>-(dv)
Widerspruchsbeweis
.L
-cj>-(dv)
Diese zusatzlichen Regeln maehen davon Gebraueh, dass in der klassisehen Logik nur die Wahrheitswerte wahr und falseh moglich sind, dass also eine Aussage entweder wahr oder falseh und niehts sonst sein kann. Unter dieser Annahme ist - wie die entspreehenden Wahrheitstafeln zeigen - die Formel (cj> V -,cj» eine Tautologie und kann daher, wann immer notig, als neues Blatt einer Herleitung eingefuhrt werden. Ebenfalls an den Wahrheitstafeln liest man ab, dass -,-,cj> und cj> aquivalent sind, also injeder Herleitung das eine dureh das andere einfaeh ersetzt werden kann. Die letzte der zusatzlichen Herleitungsregeln, die bei Beweisen dureh Widersprueh Verwendung findet, entspringt ebenfalls der Annahme einer Welt, in der das Komplement der Interpretation eines Ausdrueks immer gleiehzeitig aueh die Interpretation der Negation dieses Ausdrueks ist. Die letzte Regel entsprieht der intuitionistisehen Regel zur Einfuhrung der Negation mit zwei entseheidenden Untersehieden 1): fur cj> wird an allen Stellen -,cj> substituiert und 2): mittels der zweiten zusatzlichen (also nieht intuitionistisehen) Regel wird die Konklusion verIangert, so dass sehlieBlieh die nieht negierte Aussage cj> hergeleitet wird.
Beispiel 4.4 Der Herleitungsbaum in Abbildung 4.9 zeigt, dass aus den aktiven Hypothesen A, (( ~E) V B), E sowie ((A !I B) D) die Konklusion D hergeleitet werdenkann. (Die Punktlinien zeigen an, wenn eine der oben angegebenen Hypothesen bei einer Herleitungsregel Anwendung findet). ---7
Selbsttest 4.6 Lcitcn Sic - gcgcbcncnfalls (wic im Beispiel) mil Zu satza nna hmc n - uus /\ , B, (B ..... (..,D)) . (( -,(/\ 1\
(-,f)))) V F ) die Kon klusion F her.
47
4.5 Aussagenlogische Kalklile
4.5.1.3 Die nicht-intuitionistischen Regeln im FaIle einer mehrwertigen Logik Es ist instruktiv, sich klarzumachen, dass die drei nicht-intuitivistischen Regeln problematisch werden, sobald in der zugrundeliegende Logik eine Aussage nicht mehr wie im klassischen Fall entweder wahr oder falsch sein kann, sondern sich durch weitere Werte interpretieren lasst. In einer dreiwertigen Logik konnte jede Aussage die Werte W (wahr), F (falsch) und U (unbekannt annehmen). Neben den Interpretationen, in denen eine Aussage wahr ist, und denen, in denen eine Aussage falsch ist, gibt es dann noch einen dritten Bereich von Interpretationen, die weder wahr noch falsch sind. Die folgende Abbildung 4.11 veranschaulicht die Situation: Menge aller lnterp reta tionen in dene n di e Wa hrheit von A unbekann t isl
Menge aller Situationen, In denen A wahr ist
Menge aller Situationen, in denen A Ia ls ch ist
Abbildung 4.1 I: Interpretationen in einer dreiwertigen Logik
In diesem Faile mtissen nattirlich samtliche Junktoren neu normiert werden. Eine sinnvolle Normierung der Negation ist es, anzunehmen, dass, wenn A wahr ist, ,A nicht von vornherein falsch sondern einfach unbekannt ist. Ist die Ausgangsaussage A selbst unbekannt, dann auch ihre Negation, ist schlieBlich A falsch, so wird man die Wahrheit von ,A als unbekannt einschatzen. Die Normierung bedeutet, dass jede Negation durch U zu interpretieren ist. Schon dadurch ist
F
~U
U
U
I?l Abbildung 4.12: Negation in einer dreiwertigen Logik
klar, dass "A nicht aquivalent zu A sein kann. Ausdrticke der Gestalt ep V ,ep sind nicht Ianger Tautologien (vorauszusetzen ist dabei, dass die Disjunktion zweier unbekannter Aussagen sinnvollerweise wieder als unbekannt normiert wird).
48
4 Formale Grundlagen - Wissensreprasentation und Inferenz
4.5.2 Resolution Ein Kalktil, welcher der algorithmischen Umsetzung besonders entgegenkommt, ist die durch J .A. ROBINSON 1965 eingefuhrte Resolutionsmethode. Sie soli an dieser Stelle fur die Aussagenlogik erklart werden, urn ihre spatere EinfUhrung fur die Pradikatenlogik vorzubereiten. Ausgangspunkt ist die Beobachtung, dass eine Aussage ¢ genau dann aus einer Menge anderer Aussagen {¢1, ..., ¢n} semantisch folgt, wenn die Formelmenge {---'¢, ¢l, ..., ¢n} unerfullbar ist. Die Resolutionsmethode zielt auf den Nachweis der UnerfUllbarkeit von Formelmengen durch eine syntaktische Operation (ist also ein Kalkul), Ein erster Ansatz ergibt sich bei der Betrachtung der Ausdriicke ((A V B) /\ (C V ---.B)) ---> (A V C), die - wie als Selbsttest mittels der Wahrheitstafel zu zeigen war - eine Tautologie ist. Nun entspricht einer tautologischen Subjunktion immer eine korrekte SchluBregel, denn falls die Teilformel von dem --->-Junktor auch nur in einer moglichen Belegung wahr sein konnte, ohne dass die Teilformel nach dem Junktor wahr ware, ware der Gesamtausdruck nicht in jedem Faile wahr, also keine Tautologie. 1m vorliegenden Faile lasst sich schlieBen: ((A V B) /\ (CV ---.B)) 1= (A V C) und mit einer analogen Argumentation mit Teilformeln wegen der Normierung von /\ sogar {( (A V B), (C V ---.B))} 1= (A V C). Diese semantische Folgerung lasst sich wegen ihrer einfachen syntaktischen Form in der folgenden formalen SchluBfigur der Resolution simulieren:
(¢ V y) (1fI V ---.y) ¢ V 1fI
(res)
Diese Schlussregel besagt Folgendes: Konnen zwei Disjunktionen einzeln hergeleitet, welche dieselbe Teilformel einmal negiert und einmal nicht negiert als Disjunktionsglied enthalten, dann lasst sich eine aus allen anderen Disjunktionsgliedern zusammengesetzte Disjunktion folgern. Die komplementdren Teilformeln heben sich dabei gewissermaBen auf. Was passiert nun, wenn auBer den komplementaren Teilformeln uberhaupt keine weiteren Disjunktionsglieder auftreten? Ausgangspunkt ware in diesem Faile der widerspriichliche Ausdruck y /\ ---.y , bzw. die entsprechende unerfiillbare Menge {y, ---.y}, flir die also semantisch gefolgert wird {y, ---.y} F 1- . Dem entspricht nattirlich die bereits oben eingefUhrt Regel der Elimination einer Negation:
Die Idee der Resolutionsmethode besteht nun darin, aus einer Menge von Hypothesen durch Anwendung der Herleitungsregel (res) fur die Resolution so lange komplementare Paare yon Teilformeln zu loschen, bis schliefslich einer der folgenden Faile eintritt: a) Es konnen keine Loschungen mehr vorgenommen werden, oder b) die Anwendung der Eliminationsregel einer Negation kann angewendet werden, wodurch dann die Unerflillbarkeit der Hypothesenmenge gezeigt wird.
4.5 Aussagenlogische Kalklile
49
Das Verfahren kennt keine Deaktivierung von Hypothesen, also keine temporare Einfuhrung von Zusatzannahmen (beispielsweise in Widerspruchsbeweisen). Sie ware algorithmisch schwer zu realisieren.
4.5.2.1 Konjunktive Normalform und Klauselform Zunachst mag an diesem Ansatz verwundern, dass ihm sehr enge syntaktische Grenzen gesetzt sind: Die Resolutionsregel setzt ja das Auftreten von Disjunktionen und die»Wiedererkennbarkeit« gleicher Teilformeln voraus. Auch scheint das Auffinden del' komplementaren Teilformeln dazu zu fuhren, dass bestimmte Widerspruche syntaktisch nicht detektiert werden: A /\ A /\ B flihrt sicher zu einem Widerspruch zu -,(A /\B), die negierte Teilformel ist abel' syntaktisch nicht identisch mit dem Ausgangsausdruck. Einen Ausweg bietet die Moglichkeit, Ausdrucke durch dquivalente Umformungen in eine Standardform zu bringen, welche die mogliche Vergleichbarkeit gewahrleistet. FUr die Resolutionsmethode wird die konjunktive Normalform verwendet: Jeder aussagenlogische Ausdruck lasst sich durch Anwendung del' folgenden Regeln in eine Konjunktion umwandeln, deren Glieder Disjunktionen sind, welche nur elementare Aussagen oder Negationen von elementaren Aussagen enthalten. Die Ersetzungsregeln sind (wie an den Wahrheitstafeln abzulesen) Tautologien. Das Pfeil symbol f-+ ist hier zu lesen als »wird ersetzt durch«.
1. ( x und v f-> y werden die komplernentaren Ausdriicke gleich und die Resolvente kann gebildet werden. Wie schon erlautert, reicht es zum Nachweis der Unerfiillbarkeit von Ausdriicken, in denen aile auftretenden Variablen allquantifiziert sind, aus zu zeigen, dass diese Ausdriicke fur eine bestimmte Variablenbelegung unerfullbar sind. Das schlieBt Spezialisierungen der Ausdriicke mittels Substitution von Variablen durch Funktionen oder Individuenkonstanten ausdriicklich mit ein. Die Unerfullbarkeit einer Klauselmenge ist daher auch dann schon gezeigt, wenn es unter simultanen Substitutionen von Variablen durch andere Variablen, Funktionen oder Individuenkonstanten in den einzelnen Klauseln gelingt, die leere Klausel abzuleiten. Werden Ausdriicke unter simultanen Substitutionen von Variablen syntaktisch gleich, so nennt man das eine Unifikation dieser Ausdriicke. Eine konkrete Substitution, die das Gewiinschte leistet heiBt Unifikator. Aus dem allgemeinsten Unifikator einer Menge von Ausdriicken kann jede weitere Unifikation durch eine weitere, nach Anwendung des Unifikators erfolgende Substitution erzeugt werden: Jeder weitere Unifikator entsteht also aus dem allgemeinsten durch Verkettung mit einer Substitution. Beispiel 4.11 Der allgemeinste Unifikator fur die Ausdrucke p(1) (g(x,z)), p(1) (y),p(1) (g(wJ(a))) wird aus den Substitutionen x f--+ W, Z f--+ f(a) und y f--+ (g(wJ(a))) gebildet. Mit Hilfe des allgemeinsten Unifikators o fur elementare Ausdriicke y, y lasst sich auch in der Pradikatenlogik ein auf Resolventenbildung basierender Kalkiil definieren. Das Schema ist dann (in leichter Abwandlung des aussagenlogischen Schemas):
Hierbei symbolisiert (/>[eJ], dass eine Variablensubstitution vorgenommen wurde, so dass die Ausdriicke y, y unifiziert werden konnten. Urn keine spatere Unifikationsmoglichkeit anderer Formeln auszuschlieBen, wird immer der allgemeinste Unifikator a angewendet. In Erweiterung des Beispiels zur Klauselform pradikatenlogischer Ausdriicke, soli die Aussage: »Es gibt Testkandidaten fur eine Identifizierung als Bakteroid« durch Resolution hergeleitet werden.
4.8 Nichtmonotones SchlieBen
63
Diese zusatzliche Aussage wird formal reprasentiert etwa durch den Ausdruck ::Jz.(testBakteroid(z) ). Wie bei der Resolution ublich, wird der Ausdruck negiert und dann zur Hypothesenmenge hinzugenommen. Mit der Umformung ,'3z.(testBakteroid(z)) zu 'iz.( -itestlsakteroidlzj) ergibt sich nach Klauselbildung die folgende erweiterte Klauselmenge fur die Herleitung: {{,istOrga(I) (x), -igra mnegativ(I) (x), ,sta bf6rmig(I) (x), ,anaerob(I) (x), testBakteroid(I) (x)}, {istOrga(I) (A)}, {Gramnegativ(I) (A)}}, [stabforrnig'{' (A)}, {anaerobt!' (A)}, {,testBakteroid(z)}}
Im Laufe der Resolution werden Unifikationen durch die Substitutionen x f---+ A und z f---+ A vorgenommen. Dadurch ergibt sich, dass samtliche elementare Ausdrlicke, die in der ersten Klausel {,istOrga(I)(x), ,gramnegativ(I) (x), ,stabf6rmig(l) (x), ,anaerob(l)(x), testBakteroid(I) (x)} auftreten, unnegiert und einzeln in einer der folgenden Klauseln vorhanden sind. Dadurch kann aus der erste Klausel durch Resolventenbildungen der Reihe nach jede einzelne elementare Aussage geloscht werden, bis die leere Klausel erzeugt ist.
4.8 Nichtmonotones SchIieBen 4.8.1 Logische Wissensbasen Eine Menge aussagenlogischer oder pradikatenlogischer Ausdriicke bildet in den bisher dargesteIlten Kalktilen den Ausgangspunkt fur die Herleitung von Folgerungen. Eine Folgerung ist aus logischen Grunden immer dann wahr, wenn die Ausdrlicke der Ausgangs- oder Hypothesenmenge wahr sind. Eine solche Ausgangsmenge von Ausdriicken, aus der neue Folgerungen gezogen werden konnen, kann als Wissensbasis verwendet werden. An eine solche Wissensbasis konnen Fragen der Art »Gilt unter Voraussetzung der Hypothesen, dass ...?« gestellt werden. Mit einer Wissensbasis, die aus einer Formelmenge besteht, kann ein Benutzer oder ein anderes Programm mit Hilfe der drei Basisoperationen (TELL, RETRACT und ASK) interagieren: 1. TELL( 4»: Der Wissensbasis wird 4> als neues Wissen mitgeteilt, d. h. der Ausdruck 4> kommt zur Hypothesenmenge hinzu. 2. RETRACT( 4»: Aus der Wissenbasis wird 4> geloscht. 3. ASK( 4»: Die Wissenbasis wird nach der Gtiltigkeit von 4> gefragt, d. h. es wird gepruft, ob sich 4> aus der Wissensbasis folgern lasst. Ublich ist es, zu einer tiber langere Zeit unveranderten Wissensbasis zeitweilig eine Menge zusatzlicher Ausdriicke hinzuzunehmen, die die aktuelle Situation beschreiben. Oft wird diese sogenannte Faktenmenge auf atomare Aussagen ohne Variablensymbole eingeschrankt. In diesem FaIle lassen sich an das System Fragen der Art: »Gilt unter Voraussetzung der Hypothesen und bei Giiltigkeit der Faktenmenge (also in der durch die Fakten beschriebenen Situation), dass ...?
64
4 FormaleGrundlagen - Wissensreprasentation und Inferenz
4.8.2 Monotonie und Nichtmonotonie Unter Verwendung der aussagenlogischen und pradikatenlogischen Kalklile ergibt sich folgendes Bild: Aus einer bestehenden Wissensbasis ~ lasse sich der Sachverhalt cj> folgern. Was geschieht, wenn der Wissensbasis zusatzliches Wissen mitgeteilt wird? Aus ~U {1jf} wird sich nach wie vor cj> folgern lassen: Der ursprlinglich konstruierte Herleitungsbaum oder die erzeugte leere Klausel konnen mit den selben Hypothesen wieder hergestellt werden. Der unglinstigste Fall ware, dass sich mit 1jf ein Widerspruch zu cj> konstruieren lieBe: Da sich aber aus einem logischen Widerspruch alles folgern Iasst (ex falso quodlibet), lieBe sich aus der Wissensbasis nach wie vor cj> folgern (allerdings auch -,cj». In diesem Sinne verhalt sich eine aussagenlogische oder pradikatenlogische Wissensbasis monoton: Falls ~ F cj>, so auch ~ U { 1jf} F cj>. Beim alltaglichen SchlieBen ergibt sich allerdings oft eine andere Situation: Ein neuer Sachverhalt andert das Bild. Wird festgestellt, dass eine Lampe nicht Ieuchtet, so schlieBt man zunachst, dass sie ausgeschaltet ist. Stellt man fest, dass die Birne durchgebrannt ist, sollte man beim Wechseln der Birne nicht mehr ohne weiteres im Vertrauen auf diese Schlussfolgerung in die Fassung greifen. In Truth Maintenance Systems wird versucht, dieser Eigenschaft des alltaglichen menschlichen SchlieBens Rechnung zu tragen, indem das System eine Kontrolle uber die TELL und RETRACTOperationen ausubt, mit denen das Wissen in der Wissensbasis aktualisiert wird. Hierbei bleibt die Wissensbasis und die Anfragenbearbeitung auf dem Boden der Pradikaten- oder Aussagenlogik und der entsprechenden Kalklile. Wichtig ist es, zwischen der TELL( -,cj» und der RETRACT( cj> )-Operation zu unterscheiden. Lag bei TELL( -,cj» der Ausdruck cj> bereits in der ursprlinglichen Wissensbasis vor, so ergibt sich ein Widerspruch und sowohl cj> als auch -,cj> lassen sich folgern - kein echter Gewinn fur die Nlitzlichkeit des Systems. Wird stattdessen cj> zurlickgezogen, so lasst sich weder cj> noch -,cj> folgern. Wurden allerdings vorher bereits Folgerungen unter Verwendung von cj> gezogen und anschlieBend in die Wissensbasis integriert, so mlissen diese zurlickgenommen werden, damit die Wissensbasis konsistent bleibt, falls in einem nachsten Schritt TELL( -,cj» explizit mitgeteilt wlirde. Diese Konsistenzkontrolle wird von verschiedenen Truth Maintenance Systemen auf unterschiedliche Weise unterstlitzt. Eine weitere Moglichkeit mit Nichtmonotonie umzugehen besteht darin, eine neue Schluss- oder Herleitungsfigur zu verwenden: Das Schema fur Schlussfolgerungen in der Default-Logik ist:
cj>:y 1jf
Zu lesen: Die Schlussfolgerung 1jf kann aus cj> gezogen werden solange nicht y gilt. Die genaue Semantik solcher Regeln festzulegen, gibt jedoch nach wie vor Schwierigkeiten auf.
4.9 Weitere formale Logiken
65
4.9 Weitere formale Logiken Die Aussagenlogik und die Pradikatenlogik erster Stufe spielen eine fundamentale Rolle auf dem Gebiet der Wissensreprasentation. Fiir wichtige Reprasentationsformate, beispielsweise das in der Datenbanktheorie wichtige relationale Modell oder fiir semantische Netze und Frames, konnte mit Hilfe der Pradikatenlogik eine genaue Semantik definiert werden. Ansatze wie die Hornlogik oder die Deskriptionslogiken gehen aus der Pradikatenlogik durch Einschrankungen ihres Ausdrucksvermogens hervor, verfugen dafiir aber entweder iiber effizientere Kalkiile oder iiber Entscheidungsverfahren, die in der Pradikatenlogik nicht existieren. Es wurde allerdings bereits erwahnt, dass die Pradikatenlogik erster Stufe nicht zur Formalisierung aller Probleme ausreicht. So erweitert die Pradikatenlogik zweiter Stufe das Ausdrucksvermogen der ersten entscheidend, aber urn den Preis, dass fur die zweite Stufe mit Sicherheit kein vollstandiger und korrekter Kalkiil mehr existiert. Eine andere Form der Erweiterung setzt bei der Semantik pradikatenlogischer Ausdriicke an. Betrachtet wurden bisher die Falle, dass die Giiltigkeit von Ausgangsformeln die Giiltigkeit einer Folgerung in jeder moglichen Interpretation ergibt. Verglichen wird dabei die gemeinsame Giiltigkeit von Hypothesen und Folgerungen in ein und derselben Interpretation (das dann allerdings fur aIle moglichen Interpretationen). Eine veranderte Semantik betrachtet die Giiltigkeit von Formelmengen in unterschiedlichen Interpretationen. Typische Fragen dabei sind: »Ist ein Ausdruck in wenigstens einer Interpretation (in wenigstens einer konstruierbaren Welt) giiltig, wenn die Ausgangsausdriicke in einer bestimmten Interpretationen giiltig sind?« oder »Ist ein Ausdruck in allen Interpretationen giiltig, wenn die Ausgangsausdriicke in einer bestimmten Interpretation giiltig sind?« Zur Formalisierung werden Modaloperatoren ( 0 - »Moglich«, D - »Notwendig« ) eingefiihrt. Sie erweitern die Pradikatenlogik auf der Basis einer Semantik moglicher Welten zur Modallogik.
5 Formale Grundlagen - Neuronale Netze Lernziele • Autbau von ktinstlichen Neuronen und Neurona len Netzen kennen • Starkcn und Schwac hcn von Symbolvcrarbcitungsansatz und kiinstlichcn ncuronalcn Netzen bei der medizinischcn Entschcidungsunterstiitzung vcrglcichcn
5.1 Basiselemente Der konnektionistisehe Ansatz verziehtet auf die symbolisehe Reprasentation von Wissen. Stattdessen wird versueht, die Bauart biologiseher intelligenter Systeme, namentlieh neuronaler Netze, naehzubilden. Dabei stehen Netzzustande nieht mehr symboliseh fur Wissensinhalte. Den zeitweiligen Eigensehaften des neuronalen Netzes ist nieht oder nur mit Mtihe anzusehen, inwiefern sie sieh auf die Problemsituation beziehen. Aus diesem Grunde wird dieser Ansatz aueh subsymbolisch genannt. Kiinstliche Neuronale Netze orientieren sieh an einer stark vereinfaehenden Abstraktion der Funktionsweise nattirlieher neuronaler Netze: Baustein eines solchen Netzes sind ktinstliehe Neuronen, die netzartig miteinander verkntipft sind. Langs der Verkntipfungen fiieJ3t Information.
Ein kiinstliches Neuron (Abbildung 5.1) erhalt mehrere Eingabewerte tiber seine Eingabeverbindungen (input links), aus diesen Eingabewerten ennittelt das Neuron in zwei Sehritten einen Zahlenwert, seine sogenannte Aktivierung. 1m ersten Sehritt werden die Eingaben aufsummiert, wobei der Beitrag jedes Eingabewertes mit einem Gewiehtsfaktor versehen wird (linearer Sehritt). 1m zweiten Sehritt wird der Wert der sogenannten Aktivierungsfunktion fur die zuvor bereehnete gewichtete Eingabesumme ermittelt. Dieser Wert hangt nicht linear von der Eingabe abo Ein typisehes Beispiel fur eine Aktivierungsfunktion ist eine Funktion, die bis zu einer bestimmten Sehwelle null und danaeh eins ergibt. Die dureh das Neuron ermittelte Aktivierung wird tiber die Ausgabeverkntipfungen (output links) an andere Neuronen weitergegeben. Dort ist sie eine der Eingaben, welche dieses Neuron auswertet. Wird die Aktivierung eines Neurons i mit a; und das Gewicht der Eingangsverkntipfung, die von Neuron i zum Neuron j fuhrt durch Wij bezeiehnet, so erhalt das Neuron j von Neuron i ein Eingangssignal Wij . a; . Von allen Neuronen erhalt das Neuron j ein gewiehtetes Gesamtsignal in, := L Wij . a, . Hierbei kann tiber aIle Neuronen des Netzes insgesamt summiert werden, wenn die Gewiehte derjenigen Neuronen, die keine Eingangsverbindung zum Neuron j haben Null gesetzt werden.
5 Formale Grundlagen - Neuronale Netze
68
Axon
Einga ngsve rknupfungen Eingangsg ewichte
-
Ausga ngsve rknupfungen
•
KOnstliches Neuron (Verarbeitungsfunktion)
Abbildung 5.1: Kiinstliches Neuron
Bezeichnet man weiter die Aktivierungsfunktion eines Neurons durch g, so ergibt sich die Aktivierung a j des Neurons j als: (5.1)
5.2 Netztopologien Kunstliche Neuronale Netzwerke konnen aufunterschiedliche Weise gekntipft werden. Eine Verknupfung zwischen zwei Neuronen kann Informationen in beide Richtungen, also sowohl Einals auch Ausgaben vermitteln ( bidirektionale Verkniipjimgen). Wird das ausgeschlossen, spricht man von unidirektionalen Verkniipfungen. Auch im FaIle unidirektionaler Verkntipfungen ist es noch moglich, dass Information (tiber Umwege) an ein Neuron zurtickflieBt, wenn namlich durch gerichtete Verkntipfungen ein Kreis geschlossen wird. Ein solches Netz heiBt rekurrent oder rekursiv. / Werden auch kreisforrnige gerichtete Verkntipfungen ausgeschlossen, ergibt sich einfeed-forward oder vorwdrtsvermittelndes
69
5.2 Netztopologien
Netzwerk. In vorwartsverrnittelnden Netzen ist eine eindeutige Richtung des Informationsflusses vorgegeben. In einem Feed-forward Netz kann noch verlangt werden, dass die Neuronen sich in Ebenen anordnen lassen, so dass Neuronen einer Ebene in Vorwartsrichtung nur mit Neuronen einer einzigen anderen Ebene verknUpft und keine Ruckwartsverknupfungen von Ebene zu Ebene zugelassen sind. Hier f1ieGt Information kaskadierend von der ersten zur letzten Ebene. Die verschiedenen Netztopologien haben entscheidenden Einfluss auf das Leistungsverrnogen der kiinstlichen Neuronalen Netze. Bei rekursiven Netzen besteht die Moglichkeit instabiler oder osziIIierender Netzzustande und von Verarbeitungszeiten, die nicht vorhersagbar sind. Neuronale Netze arbeiten, indem sie die Aktivierung ihrer Neuronen aufeinander abstimmen. Werden Aktivierungen einiger Neuronen vorgegeben, so stellen sich die Aktivierungen aller anderen gemaf der Moglichkeiten der Netzstruktur und gemaf der Eingabegewichtung sowie der Aktivierungsfunktion ein. In feed-forward Netzen wird aus der anfanglichen Aktivierung eindeutig ein stabiles Aktivierungsmuster ermittelt (feed-forward Netze berechnen daher Funktionen, welche die Anfangsaktivierungen eindeutig auf resultierende Aktivierungen abbilden).
··..···..·..·..··..··..·A ..··..·..··..·..·· G
·..·····..·· ··..··X ......................../3
Abbildung 5.2: Anwendung eines Feed-Forward Netzes mit 3-Ebenen Struktur
Beispiel 5.1 Ein Anwendungsszenario fur ein feed-forward Netz mit Ebenenstruktur ist das folgende (Abbildung 5.2): Die Neuronen der ersten Ebene werden anfanglich aktiviert. Das Aktivienmgsmuster dieser Ebene wird dadurch gegeben, dass jedem Eingabe Neuron ein Pixel einer 6 x 9 Schwarz- WeiB-Matrix zugeordnet und als anfangliche Aktivierung eine I fur einen schwarzen und eine 0 fur einen weiBen Punkt gewahlt wird. Das Netz kann Zwischenebenen haben. Die letzte Ebene solI nur 26 Neuronen enthalten, jedem Buchstaben des Alphabets wird genau eines dieser Zielneuronen zugeordnet. Ein solches Netz konnte dem ggf. handschriftlich erzeugten (und dann in 6 x 9 Punkte gerasterten) Bild eines Buchstaben jeweils den zugehorigen Buchstaben zuordnen. Zunachst wird es alIerdings nieht arbeiten, wie erwunscht, sondern einem
5 FormaleGrundlagen- NeuronaleNetze
70
Eingabemuster irgendeinAktivierungsmuster zuordnen. Urndie gewiinschte Zuordnungzu erreichen,rnussen die Eingabegewichte an den einzelnen Neuronen passendeingestellt werden. Diese sind zunachst nicht bekannt. Waren aile moglichen Eingaben (aile moglichen Buchstabenmuster) bekannt, so konnte man zwar die optimalen Gewichte berechnen, stattdessen die Zuordnung zu den Ergebnissen aber auch direkt tabellarisch losen, ohne ein neuronales Netz notig zu haben. Ein entscheidender VorteiI der Neuronalen Netze liegt jedoch gerade darin, die Gewichtewahrendeiner Lernphasedes Netzes inkrementell zu verbessern.
5.3 Lernen 5.3.1 Uniiberwachtes Lernen Der Psychologe D. HEBB stellte 1949 die These auf, dass biologische neuronale Netze Iernen, indem Synapsen zwischen solchen Neuronen, die vermehrt gleichzeitig aktiv sind, verstarkt werden. Bei kunstlichen Neuronen entspricht diesem Vorgang eine Anderung der Eingangsgewichte, die proportional zur gleichzeitigen Aktivierung benachbarter Neuronen ist. Die gleichzeitige Aktivierung lasst sich am einfachsten durch das Produkt der Aktivierungen messen. Nehmen diese nur die Werte 0 oder 1 an, so ist klar, dass das Produkt nur im FaIle der Aktivierung beider Neuronen mit dem Wert I einen Beitrag liefert. Die Anderung der Eingangsgewichte erfolgt beim Hebbschen Lemen in kunstlichen Neuronalen Netzen also dadurch, dass ein verandertes Eingangsgewicht W;j sich aus dem vorhergehenden Gewicht und einem zum Produkt der Aktivierung benachtbarter Neuronen proportionalen Inkrement ergibt als:
,
Wij :=wij+a·ai·aj
Hebbsches Lernen ist eine Form des uniiberwachten Lernens: Die neuen synaptischen Gewichte ergeben sich direkt aus den Zustanden, die das Netz ausgehend von verschiedenen Eingaben annimmt.
5.3.2 Uberwachtes Lernen und Backpropagation Beim iiberwachten Lemen wird die aktuelle Aktivierung eines Neurons mit einem Sollwert verglichen und ein zu dieser Differenz proportionales In- oder Dekrement gebildet. Ublicherweise wird zusatzlich eine Proportionalitat zur Aktivierung des Neurons angesetzt, von welchem das Eingangssignal stammt. 1m FaIle des tiberwachten Lernens ergibt sich daher im einfachsten Fall: , ._
wij . - Wij
+ a· ((ist) ai -
(soIl))
ai
.aj
Eine der am haufigsten verwendeten Formen des iiberwachten Lernens ist die Backpropagation - oder Riickfuhrung - in vorwartsvermittelnden Netzen. Hierbei werden Trainingsbeispiele vorgegeben und das vom Netz produzierte Ergebnis mit dem gewiinschten richtigen Ergebnis verglichen. In einem Riickwarts-Check konnen nun die einzelnen Gewichte im Netz urn einen
5.4 Anwendungsgebiete
71
(durch die Lernrate bestimmten Betrag) nach oben oder unten korrigiert werden, der Tendenz nach so, dass das Ergebnis im zurlickverfolgten Trainingsbeispiel richtiger geworden ware. Die Idee dabei ist es, gewissermaBen eine Strafe fur den Fehler [estzusetren und diese Gesamtstrafe angemessen aufdie beitragenden Eingangsgewichte zu verteilen. Die Rlickflihrung beginnt bei den Neuronen der Ausgabeebene. Hier wird flir jede Eingangsverknlipfung ein Korrekturfaktor (die Ableitung der Aktivierungsfunktion des versorgten Neurons ausgewertet an der Stelle des aktuellen Gesamteingangs - Stichwort: Linearisierung) mit dem aktuellen Fehler (also der Differenz zwischen der geforderten und der tatsachlichen Aktivierung ) multipliziert. Die Korrektur fur die aktuelle Eingangsverknlipfung ist dann noch proportional zur Aktivierung des sendenden Neurons: , :=wij+a·aj·Ai, wij
mit: iA" '.= g'(z'n[') . (a[(ist) _ a,(SOlI)) l
Fiir Neuronen, die nicht in der Ausgabeebene liegen, ergibt sich das Korrekturglied aus der gewichteten Summe der Korrekturen an den Zielneuronen. Die Ausgangsverknlipfungen werden also gewissermaBen riickwarts gelesen zu Eingangsverknlipfungen fiir die zuriickvermittelten Fehler:
Wieder ist der linearisierte Korrekturfaktur proportional zur Ableitung der Aktivierungsfunktion an der Stelle des aktuellen Gesamteingangs am Neuron. Die fur den Lerneffekt notige Korrektur am Eingangsgewicht ist mit Ausnahme dieses rlickverfolgenden Korrekturfaktors wieder genauso wie in der Ausgabeebene:
5.4 Anwendungsgebiete Einer der Hauptvorteile des Ansatzes wurde schon genannt: Fur kunstliche Neuronale Netze existieren Lernalgorithmen, d. h. geeignete Netze passen sich einem Problembereich lernend an, eine problemspezifische Programmierung des Systems entfallt scheinbar. Hier ist sofort einschrankend anzumerken: Fur unterschiedliche Probleme sind verschiedene Netztopologien jeweils gimstiger oder ungunstiger, Allein dieses Problem erfordert Aufwand und Sachkenntnis beim Einsatz kiinstlicher Neuronaler Netze. Der zweite Vorteil des Ansatzes liegt darin, dass Neuronale Netze mit unsicheren und unvolIstandigen Eingaben umgehen konnen: 1m Beispiel des Szenarios zur Handschriftenerkennung ist es moglich, irgendwelche Muster (also auch unvollstandige Buchstaben) als Eingabe zu verwenden. Das Netz wird auch dieses Muster verarbeiten, d. h. klassifizieren. Natlirlich sinkt dadurch die Zuverlassigkeit der Ergebnisse. Generell eignen sich Neuronale Netze gut zum Erkennen von Mustern, aber weniger gut dazu, komplexe Folgerungsbeziehungen zu modellieren.
5 Formale Grundlagen - Neuronale Netze
72
Die Kehrseite sowohl der schrittweisen Annaherung wahrend des Lernvorgangs als auch der Moglichkeit mit unvollstandigen Eingaben umzugehen, ist die niemals vollstdndig gesicherte Zuverldssigkeit der Ergebnisse. Es lasst sich beweisen, dass unter Umstanden wahrend des Trainings eine nicht optimale Einstellung der Gewichte erfolgt und durch weiteres Training nicht verbessert werden kann. Fiir die einfacheren Typen Neuronaler Netze (Feed-forward Netze, die lediglich aus einer Eingabe und einer Ausgabeebene bestehen) wurde zwar gezeigt, dass fur bestimmte Abbildungen der Eingaben auf die moglichen Ausgaben (linear separable Funktionen) durch Lernen erreicht werden kann, dass die Ergebnisse exakt sind, dafur aber aile anderen Abbildungen gar nicht bewaltigt werden konnen. Ein weiterer fiir die Untersttitzung klinischer Entscheidungen wichtiger Nachteil neuronaler Netze besteht in ihrem Mangel an Transparenz: Die jeweils eingestellten Gewichte lassen sich nicht oder nur unter massiven Schwierigkeiten interpretieren: es ist nicht klar, was das Neuronale Netz weiB, d. h. auf was fur Grundlagen seine Entscheidungen getroffen werden (z. B. was fur Eigenschaften von Mustern dazu fiihren, dass diese unterschiedlich klassifiziert werden). Den Medizinern, die ihre Entscheidungen zu verantworten haben, ist im Sinne dieser mangelnden Transparenz nicht klar, auf welcher Grundlage die Entscheidungsempfehlung des Systems zustande kommt und welches Vertrauen oder MiBtrauen sie auf diese Empfehlung setzen konnen.
Hinweise zur weiteren Lektiire FUrdie vertiefende Lektiire eignen sich die folgenden Veroffentlichungen. Berg, M.: Rationalizing Medical Work - Decision-Support Techniques and Medical Practices, MIT Press, Cambridge MA, 1997. Das Buch von BERG behandelt grundsatzlichc Probleme bei der Einfiihrung entscheidungsunterstiitzender Werkzeuge in der Medizin. Seine Starke liegt in sorgfaltigen soziotechnischen Analysen klinischer Anwendungsszenarien und Erfahrungen bei der Einfiihrung entscheidungsunterstiitzender Systeme. Das Buch bezieht nicht Stellung fiir oder gegen bestimmte Methoden; es zeigt stattdessen, wie sich die klinische Praxis durch ihre Einfiihrung im Positiven wie im Negativen andert.
Coiera, E.: Guide to Health Informatics (2nd Edition), Arnold, London, 2003. Taylor, P: From Patient Data to Medical Knowledge - The principles and Practice of Health Informatics. Blackwell Publishing, Oxford, 2006. Die beiden Tite! sind als Einfiihrungen in die Medizinische Informatik konzipiert. Sie setzen sich aber intensiv mit Ansatzen zur computerbasierten Entscheidungsunterstiitzung und Wissensverarbeitung auseinander. COIERA berichtet ausfiihrlich uber entsprechende k!inische Anwendungsszenarien und -erfahrungen. TAYLOR verkniipft auf inspirierende Weise die klinische Dokumentation und das klinische Informationsmanagement mit Ansatzen der Wissensreprasentation, der Klassifikation, der Entscheidungsana!yse und des Data Minings.
Gorz, G. (Hrsg.): Einfuhrung in die kiinstliche Intelligenz. Addison-Wesley, Bonn, Reading (Mas.), 1995.
Hinweise zur weiteren Lekture
73
Dieser Einfiihrungsband enthalt eine Fiille deutschsprachiger Beitragc zu Ansatzen und Methoden der KI. Der DetaiIIierungsgrad und die Verstandlichkeit der einzelnen KapiteI sind unterschiedlich. Neben Texten, die sich zur Erstlekture gut eignen, stehen solche die ihre Qualitaten eher im Sinne der zusammenfassenden DarsteIIung eines TeiIgebiets haben.
Jung, A.: Logik. In: Rechenberg, P., Pomberger, G. Informatik Handbuch. Carl Hanser Verlag, Mtinchen, 1999. Der Handbuchbeitrag bietet eine klare und knappe Ubersicht tiber die Grundlagen der formalen Logik zum Nachschlagen und Wiederholen. Die Begriffseinfiihrungen und -definitionen sind sowohl prazise als auch verstandlich,
Puppe, F.: Einftihrung in Expertensysteme. Springer Verlag, Heidelberg, 1991. Das Buch eignet sich nach wie vor gut als einfiihrender Text zu Expertensystemen in der Medizin. Es enthalt mehrere Abschnitte, in denen insbesondere Probleme der ModeIIierung medizinischen Wissens angesprochen werden und Akquisitionsmethoden dargesteIIt werden.
Russel, S., Norvig, P.: Kunstliche Intelligenz - ein moderner Ansatz (2. Aufl.). Pearson Studium,Mtinchen, 2004. Russel, S., Norvig, P.: Artificial Intelligence - A Modern Approach (2nd Ed.). Prentice Hall International Editions, London, 2003. Den Autoren ist es gelungen eine sowohI verstandliche aIs auch umfassende Einfiihrung in die unterschiedlichen Ansatze der Kunstlichen InteIIigenz vorzulegen. Sie enthalt einpragsamen Beispiele und setzt einen Schwerpunkt beim Umgang mit unsicherem Wissen. Das Buch eignet sich besonders gut zum Selbststudium. Die deutsche Ubersetzung weist einige Schwachen auf, weshalb das englische Original ggf. vorzuziehen ist.
Schnabel, M.: Expertensysteme in der Medizin - Eine Einftihrung mit Beispielen, Gustav Fischer, Stuttgart, 1996. Dieser Text behandelt die wichtigsten Ansatze klassischer Expertensysteme in der Medizin. Sowohl methodische Details der Ansatze aIs auch Besonderheiten des medizinischen Anwendungsgebiets werden dargesteIIt und diskutiert. An einigen SteIIen ist die formale DarsteIIung etwas schwer Iesbar.
Teil II Medizinische Wissensreprasentation und Inferenz
6 Datenbanken und Wissensreprasentation Lernziele • Eignung relat ionaler Datcnbankcn zur Rcprascntation und Analyse von Sachvcrhaltcn einschatzen • Sac hbercichc in Entity-Rclatio nship- Diagrammc n schernatisiercn • Sachbereiche ruittels objekto rientierter Analyse und del' Unified Modelling Language (UML) modellieren • Qucr bczuge zwischen Methodcn des Data Min ings und Ansa tzen zur rechnc rgestlitztcn Wissensverarbeitu ng herslelle n
Einleitung Datenbanken sind aus del' klinischen Informationsverarbeitung nicht mehr wegzudenken. Sie haben eine hohe praktische Bedeutung. Datenbanken ermoglichen einen langfristigen, kontrollierten und systematischen Zugriff auf klinische Daten. Datenbankmanagementsysteme (DBMS) unterstiitzen dabei: • eine Speicherung von Daten, die Redundanzen entweder ganz vermeidet oder diese wenigstens kontrolliert, • den zeitgleichen Zugriff mehrerer Benutzer auf dieselben Daten, • Mechanismen sowohl zur Verhinderung unautorisierter Zugriffe als auch zur Durchfiihrung von Kontrollen del' Datenintegritat. 1m klinischen Kontext dienen Datenbanken del' effizienten Organisation, Erzeugung und Verwaltung groBer Datensammlungen, wie sie regelmafsig beispielsweise schon bei del' Erfassung von Patientenstammdaten anfallen. Die in klinischen Datenbanken abgelegten Daten erfassen klinisch relevante Sachverhalte (Beispiel: »Bei Patient Hans Schmidt wurde am 11.11.2000 eine Appendizitis diagnostiziert« ). Grundsatzlich ist es also moglich, klinische Sachverhalte durch eine Datenbank symbolisch zu reprasentieren. Datenbanken eignen sich daher auch zur Wissensreprasentation. Umgekehrt lassen sich die in einer Datenbank erfassten Sachverhalte auch formallogisch reprasentieren. Datenbanken sind abel' in ihren Moglichkeiten, Sachverhalte zu reprasentieren, beschrankt, Sie erreichen nicht die Ausdrucksstdrke und Flexibilitat z. B. del' Pradikatenlogik. Andererseits werden Datenbankanfragen effizient verarbeitet, wahrend Inferenzen auf del' Grundlage einer kom-
6 Datenbanken und Wissensreprasentation
78
plexen, logikbasierten Wissensreprasentation eine - gelegentlich unakzeptabel hohe - Berechnungskomplexitdt haben konnen. Es ist wichtig, sich tiber die Moglichkeiten und Grenzen der Reprasentation medizinischen Wissens durch Datenbanken Klarheit zu verschaffen: nur so lasst sich klaren, welche Folgerungen zulassigerweise algorithmisch aus einer bestehenden Datenbank gezogen werden konnen, Die Theorie der Datenbanksysteme ist nicht Gegenstand dieses Kapitels. Wichtige Konzepte, wie die Architektur von Datenbanksysternen, Transaktionsmanagement oder Normalformen relationaler Datenbanken werden nicht behandelt. Stattdessen liegt der Fokus auf Aspekten der rechnergestlitzten Wissensverarbeitung. Das Kapitel hat das das Ziel, 1) zunachst die Grundlagen heutiger Datenbankstandards zu skizzieren, urn 2) darauf aufbauend die Tragfahigkeit und die Grenzen von Datenbankmodellen bei der Reprasentation medizinischen Wissens zu beschreiben. Der Abschnitt legt dabei besonderen Wert darauf, 3) den Zusammenhang von Datenbanksprachen und formalen Logiken zu verdeutlichen.
6.1 Relationale Datenbanken Seit Anfang der 1980er sind relationale Datenbanken kommerziell verftigbar und haben sich auf breiter Front in Verwaltung und Wirtschaft sowie speziell auch im Gesundheitswesen durchgesetzt. Der Ansatz zeichnet sich durch ein einfaches konzeptionelles Modell aus, das sowohl effiziente als auch ausdrucksstarke Abfragen zulasst. Das Basiskonzept relationaler Datenbanken ist die Relation. Endliche Relationen lassen sich sehr anschaulich als Tabellen darstellen. Anschaulich bestehen relationale Datenbanken aus einer Menge benannter Tabellen, deren Spaltentiberschriften Attribute fUr die Tabellenzeilen definieren. Die in einer Spalte, also fur ein Attribut, moglichen Eintrage sind in der Regel eingeschrankt auf einen Wertebereich. Dieser Wertebereich wird fur jedes Attribut deklariert. Eine minimale Auswahl von Spalten, deren Eintrage Relationenname Attributenamen Tupel Brioche
Juliette
14.07.1965
06 .06.2000
07.07.2000
H65.9
Pane
Giulio
25 .04.1955
05 .05.2000
06 .05.2000
B33.2
Semmel
Jule
03.10 .1990
08 .08.2000
08 .09.2000
B26.9
Abbildung 6.1: Beispiel fiir eine Datenbanktabelle (Relation) gerade noch ausreichen, jede Zeile der Tabelle eindeutig zu identifizieren, heibt Schliissel fur die Tabelle. In der Praxis fungiert oft eine einzige Spalte, deren Eintrage tabellenweit eindeutig
79
6.1 Re1ationa1e Datenbanken
sind, als Schliissel (z. B. eine Spalte PatientenID). Ein Schliissel fUreine Tabelle besteht also aus mindestens einem der Attribute, welche die Spalten der Tabelle benennen.
SchlOssel
Semmel
Ju le
17.06.1945
03.03.2000
04.03.2000
111.9
Brioche
Juliette
14.07.1965
06.06.2000
07.07.2000
H65.9
Pane
Giulio
25.04.1955
05.05.2000
06.05.2000
B33.2
Semmel
Jule
03.10.1990
08.08.2000
08.09 .2000
B26.9
y
SchlOsselfelder
Abbi1dung 6.2: Beispiel fiir Schlusselattribute
Mittels eines Schliissels ist es moglich, jede Zeile einer Tabelle eindeutig zu identifizieren. Auf diese Weise lassen sich auch Querverweise zwischen Tabellen etablieren: Enthalten die Zeilen einer Tabelle in bestimmten Spalten genau die Eintrage die in den Schliisselattributen einer anderen Tabelle auftreten, so kann einer Zeile der ersten Tabelle jeweils eindeutig eine Zeile der zweiten zugeordnet werden. Die Spalten, welche die Schlusseleintrage einer anderen Tabelle enthalten, heiBen auch Fremdschliissel. Eine relationale Datenbank besteht also aus einer Menge von Tabellen, deren Zeilen auf Zeilen einer anderen enthaltenen Tabelle verweisen konnen, Formal lasst sich das relationale Datenmodell - wie der Name schon sagt - auf der Basis von Relationen einfUhren. Eine Relation ist eine Menge von Tupeln, ein Tupel ist das Element eines Kartesischen Produkts. Bezeichnet man mit dom(A i) die Menge der fUr ein Attribut Ai zulassigen Werte - die Domane (domain) von Ai -, so lasst sich zu einer vorgegebenen Liste (A], ... ,A n ) eine Relation des relationalen Datenmodells als Teilmenge r C;;; dom(A 1 x ... x dom(A n ) definieren. Eine solche Relation ist anschaulich genau eine der oben beschriebenen Tabellen. Ublich ist eine etwas andere formale Beschreibung, die von der Reihenfolge der Attribute absieht. Hierzu bezeichne X eine Menge von Attributen (z. B.: X := {A], ... ,A n }) und dom(X) := UAEXdom(A) die Vereinigungsmenge der jeweiligen Wertebereiche zu den einzelnen Attributen. Danach ist ein Tupel tiber X (also das, was einer Tabellenzeile entspricht) eine totale Abbildung J1 : X ---> dom(X), mit der Zusatzbedingung \fA EX: J1(A) E dom(A). Eine Relation ist eine Menge solcher Tupel tiber einer gegebenen Attributmenge X. Die Reihenfolge der Attribute spielt keine Rolle. In dieser formalen Sichtweise entspricht daher jede einzelne Zeile einer Datenbanktabelle jeweils einer Funktion, welche die Attribute auf Werte des jeweiligen Wertebereichs abbildet. Den Wert zu einem Attribut erhalt man, wenn man ein Tupel J1 an der Stelle des entsprechenden Attributs auswertet, daher die Schreibweise J1 (Ai) E dom(A i).
80
6 Datenbanken und Wissensreprasentation
Falldokumentation Name
Voma me
Gebu rtsdat.
Aufnahm e
Entlassung
ICD
Semmel
Jule
17.06.1945
03.03.2000
04.03.2000
111 .9
8 rioche
Juliette
14.07.1965
06 .06.20 00
07.07.2000
8 33.2
Pane
Giulio
25.04.1955
05 .05.2000
06.05.2000
8 33.2
Semmel
Jule
03.10.1990
08 .08.20 00
08.09.2000
8 26.9
Fremd schliissel
I----I----I---~I---~I---~I----'l ~
Diagnosen ICD
Name
111.9
Hyperte nsive Herzkra nkheit ohne Herzinsu ffizienz
8 33.2
Karditis durch Viren
8 26.9
Mumps ohne Kompl iktion
'-v-" SchWssel
Abbildung 6.3: Beispiel fur Fremdschliissel
6.1.1 Relationenschema Eine gegebene Relation ist in aller Regellediglich eine von vielen verschiedenen Moglichkeiten, Tupel auszuwahlen. Die Menge aller tiber einer gegebenen Menge von Attributen X (und ihrer fest deklarierten Wertebereiche) moglichen Relationen wird auch mit Rel(X) bezeichnet. Zur Reprasentation von Sachverhalten ist es sinnvoII, vorab die Menge der in einer Datenbank zulassigen Relationen einzuschranken. Eine erste Einschrankung ist die Angabe von Wertebereichen zu den Attributen. Dartiber hinaus sind weitere Einschrankungen sinnvoll. Ausgangspunkt sind inhaltliche Vorgaben aus der Realitat, welche durch die Datenbank abgebildet werden sollen, sogenannte Datenabhdngigkeiten. Beispielsweise ist es nicht sinnvoII, dass zwei verschiedene Patienten diesel be Identifikationsnummer in einer Datenbank erhalten. Datenabhangigkeiten lassen sich dadurch ausdrticken, dass eine Abbildung definiert wird, welche jedem Element (sprich jeder Relation) r aus der Menge Rel(X) entweder true oder false zuordnet. Die Kriterien fur eine solche Bewertung beziehen sich jeweils auf eine zu prufende Relation. Man spricht von intrarelationalen Abhdngigkeiten im Kontrast zu interrelationalen Abhdngigkeiten, deren Kriterien sich nur relativ zu mehreren Relationen iiberprufen lassen. Zulassig im Sinne der gewahlten Datenabhangigkeit sind dann lediglich diejenigen Relationen, die auf true abgebildet werden. Zu einer gegebenen Attributmenge X und der Menge moglicher Relationen Rel(X) konnen mehrere Datenabhangigkeiten gleichzeitig eingefordert werden. FUr jede Relation wird die logische Konjunktion der Ergebnisse der Einzelabhangigkeiten gebildet.
6.1 Re1ationale Datenbanken
81
Falldokumentatlon
Name
Vorname
Geburtsdal.
Aufnahme
Enllassun9
Semmel
Jule
17.06.1945
03.03.2000
04.03.2000
6 rioche
Julielte
14.07.1965
06.06.2000
07.07.2000
3
Pa ne
Giulio
25.04.1955
05.05.2000
06.05.2000
4
Semmel
Jure
03.10.1990
08.08.2000
08.09.2000
FalllD
SchlOssel Dlagnosen
FalillD
ICD
ICD
Name
4
8 26.9
626.9
Mumps ohne Kompliktion
3
8 26.9
633.2
Karditisdurch Viren
11 1.9
Hypertensive Herzkrankheil
833.2 833.2
ohne Herzinsuffizienz
SchlOssel
111.9 Fremd -
schlOssal
FremdschWssel
Abbi1dung 6.4: Beispiel fiir eine M:N-Beziehung, die mitte1s einer zusatzlichen Tabelle tiber Fremdschliisse1realisiert wird
Ergibt diese Konjunktion true (d. h. gelten aIle Einzelabhangigkeiten gleichermaBen), so ist die Relation im Sinne der kombinierten Datenabhangigkeiten zulassig. Zur abstrakten Notation einer solchen kombinierten Datenabhangigkeit tiber einer Attributmenge X wird auch das Symbol Lx verwendet. Nach diesen Begriffseinfiihrungen lasst sich nun definieren, was ein Relationenschema im Sinne des relationalen DatenmodeIls ist: Als erweitertes Relationenschema R wird ein Paar aus einer Attributmenge X und einer kombinierten Datenabhangigkeit Lx bezeichnet: R = (X,Lx). Eine Relation, die diesem Schema entspricht - d. h. die lediglich Tupel aus dem Wertebereich enthalt und zulassig im Sinne der deklarierten Datenabhangigkeit ist, wird auch lnstanz der Relation genannt. Eine Menge R von Relationenschemata bildet ein Datenbankformat. So, wie die Menge Rel(X) die moglichen Relationen zu einer gegebenen Attributmenge bezeichnet, solI die Bezeichnung Dat(R) aIle moglichen Kombinationen von Relationen umfassen, in denen zu jedem Relationenschema r aus R jeweils eine Instanz gewahlt wird. lnterrelationale Datenabhdngigkeiten - d. h. solche, die relativ zu verschiedenen Relationen festgelegt werden -lassen sich als Bewertung der Elemente aus Dat(R) mit true oder false auffassen, also als Abbildung (JR : Dat(R) ---+ {true, false}. AIle Elemente, die dabei als true bewertet werden, heiBen Datenbankinstanzen des Datenbankschemas D:= (R,LR)
AIle diese etwas formaleren Bezeichungen haben anschaulich nichts weiter zum Gegenstand als die Definition einer Menge zulassiger TabeIlen, die zusammen eine relationale Datenbank, sprich genauer: die Instanz eines relationalen Datenbankschemas, bilden. Jedes Relationensche-
6 Datenbanken und Wissensreprasentation
82
rna definiert die Spaltenuberschriften und zulassige Eintrage einer Tabelle; ein Datenbankschema definiert die zulassige Kombination von Tabellen innerhalb einer Datenbank.
6.1.1.1 Schliisselabhangigkeiten Eine besonders wichtige Klasse intrarelationaler Datenabhangigkeiten (gleichzeitig auch ein gutes Beispiel fur diese) sind die Schliisselabhdngigkeiten. Zunachst ist zu definieren, was im Sinne des relationalen Datenmodells ein Schliissel ist. Wenn X die Attributmenge in einem Relationenschema ist, so ist ein Schllissel eine Teilmenge der Attributmenge X, mit der folgenden entscheidenden Eigenschaft: Falls beliebige Tupel (d. h. Tabellenzeilen) hinsichtlich aller Attributwerte der Schllisselattribute tlbereinstimmen, handelt es sich immer urn dasselbe Tupel. Oder anders: Mithilfe des Schlussels lasst sich (tiber die Angabe der Attributwerte) ein Tupel der Relation eindeutig identifizieren. Dariiber hinaus solI keine Teilmenge der Schllisselattribute bereits eine solche eindeutige Identifizierung erlauben. Unter Nutzung der oben vereinbarten Schreibweise fur die Einschrankung eines Tupels auf eine Teilmenge von Attributen lassen sich die Bedingungen an einen Schlussel folgendermaJ3en ausdriicken: Fiir eine Attributmenge X und eine Relation r E Rel(X) ist eine Teilmenge K S;;; X genau dann ein Schllissel fiir r, wenn
• 1f/1, V E r : ((/1(K) = v(K)) =} (/1 = v)) • diese Bedingung fur keine echte Teilmenge K'
C K
gilt.
Als Beispiel fur eine intrarelationale Datenabhangigkeit versteht man unter einer Schllisselabhangigkeit (Kurzschreibweise K ----> X) das folgende Kriterium: Sei r E Rel(X) :
(K
---->
X)(r) := {
I, 0,
falls K Schliissel fur r sonst
Unter den interrelationalen Datenabhangigkeiten (also solche zwischen verschiedenen Relationen) sind Inklusionsabhdngigkeiten von besonderer Bedeutung. Auch fur Inklusionsabhangigkeiten sind Teilmengen von Attributmengen wichtig. Hier jedoch werden zwei gleichmachtige Teilmengen aus unterschiedlichen Attributmengen gewahlt. Man wahlt n Attribute aus der Attributmenge der einen und n Attribute aus der Attributmenge der anderen Relation, zwischen denen eine Inklusionsabhangigkeit iiberpriift werden solI.
6.1.2 Logische Semantik Bei der Einfuhrung des Konzepts einer formalen Semantik spielten Relationen bereits eine wichtige Rolle. Zur Erinnerung: Ein n-stelliges Priidikat in der Pradikatenlogik, d. h. ein Symbol p(n) wird im Rahmen ihrer formalen Semantik als eine Relation interpretiert.
Beispiel 6.1 Das Pradikat groesserAls(2) kann als die Menge aller Paare nattirlicher Zahleninterpretiert werden, deren erste grofser als die zweiteist. Eine solcheMenge von Paaren (oderallgemein n-Tupeln) ist eine Relation.
6.1 Re1ationale Datenbanken
83
Nun besteht eine relationale Datenbank gerade aus Relationen. Es ist also naheliegend, eine Verbindung zwischen Logik und relationalen Datenbanken auf die folgende Weise herzustellen: Eine gefUllte Datenbanktabelle ist eine (endliche) Relation. Eine Relation kann als Interpretation eines Prddikats fungieren. Es sollte daher moglich sein, eine Datenbank in eine Menge pradikatenlogischer Ausdrlicke zu »ubersetzen. Gefordert wird dabei, dass die vorhandenen Datenbanktabellen ein Modell dieser Menge von Ausdrlicken ist, also die Konzeptualisierung einer Welt, in der diese Ausdrlicke wahr sind (siehe Abschnitt 4.3.3, S.37). Diese Forderung bestimmt die logischen Ausdrlicke jedoch nicht eindeutig. Es ist naheliegend eine Datenbank wie folgt in eine Menge pradikatenlogischer Ausdrlicke zu libersetzen: Fur jeden Tabellennamen der Datenbank wird genau ein eindeutiges Pradikatssyrnbol gewahlt; jedem Attributwert wird wieder genau eine eindeutige Indiviuenkonstante zugeordnet. Eine Tabelle entspricht dann einer Menge elementarer Aussagen. Jede Zeile lasst sich als eine einzelne Aussage verstehen, in der das Pradikat von den einzelnen Eintragen ausgesagt wird.
Beispiel 6.2 Enthalt eine Tabelle namens Symptomatik mit den Spalten Diagnose und Symptom eine Zeile (Grippe, Schnupfeni, so entspricht diese Zeile dem behaupteten Saehverhalt, dass die Diagnose Grippe das Symptom Sehnupfen hat. Ordnet man der zweispaltigen Symptomatik-Tabelle das zweistellige Pradikat DiagnoseHatSymptom(2) zu, so entspricht dieser Zeile der pradiaktenlogische Ausdruek DiagnoseHatSymptom(2)(Grippe, Schnupfen).
Auf der Basis dieser Herangehensweise kann eine Datenbankinstanz vollstandig in eine Menge logischer Ausdrlicke der Form p(n)(Cj, ... ,c n ) libersetzt werden. Hierbei ist P ein n-stelliges Priidikat und die c., I :::; i :::; n sind die Individuenkonstanten, welche den Attributwerten der Datenbank zugeordnet wurden. Diese naheliegende »Ubersetzungsmoglichkeit« hat den Vorteil, dass sich die Datenbankinstanz Eintrag fUr Eintrag aus der Aussagenmenge vollstandig rekonstruieren Iasst. Trotzdem ist es sachgerecht, zwischen der Menge logischer Aussagen und der Datenbankinstanz zu unterscheiden: Die Datenbankinstanz ist im Sinne der in der ersten Kurseinheit eingeflihrten Sprechweise ein Modell der Aussagenmenge, d. h. eine Welt, in der bei geeigneter Zuordnung von Relationen zu Pradikaten aIle Aussagen erfullt sind.
Selbsttes t 6.1 1m Sinne der eben diskutierten »Ubersctzung« von Datenbank en in den Bereich der fonnalen Logiken: Was ist im Bereich der form a len Logik cn das cin er Datcnb ankt abcl le cn tsprcchcnde Konzept ? Und was ist die Entspre chung eine r Zeile die ser Tabe lle?
6.1.3 Datenbankschema und Erfiillbarkeit Die Auffassung einer Datenbankinstanz als Modell einer Aussagenmenge bekommt praktische Relevanz, wenn das Datenbankschema in die Betrachtung mit einbezogen wird. Die Datenabhangigkeiten, welche in einem Datenbankschema formuliert werden, lassen sich ebenfalls als pradikatenlogische Formeln ausdrlicken.
84
6 Datenbanken und Wissensreprasentation
Beispiel 6.3 SoIl in der ersten Spalte einer Relation »Diagnosen« kein Wert mehr als einmal vorkommen, z. B. bei der Vergabe einer eindeutigen ID, so lasst sich diese Bedingung iibersetzen als \7'x,y, z : Diagnosen(2) (x,y) /\ (y # z) ---+ ,Diagnosen(2) (x,z)
Welchen Nutzen hat in diesem Zusammenhang die Auffassung, dass eine Datenbankinstanz ein Modell ist? Nun ist es sicherlich ein Fehler, wenn ein Datenbankschema Bedingungen stellt, die keine Datenbankinstanz gleichzeitig erfullen kann. Die Identifikation einer Datenbankinstanz als Modell einer Aussagenmenge stellt klar, dass das Qualitatskriterium der Konsistenz fur ein Datenbankschema mit formalen Mitteln tiberprtift werden kann: Ein inkonsistentes Schema entspricht der Situation einer durch kein Modell erfiillbaren Formelmenge. Werden die Bedingungen des Schemas in eine formale Logik iiberfuhrt, fiir die es einen Erfiillbarkeitstest gibt (es eignen sich z. B. bestimmte Untermengen der Pradikatenlogik: die Beschreibungslogiken), dann lasst sich die Schemakonsistenz algorithmisch prtifen.
6.2 Entity-Relationship Diagramme Eine zentrale Aufgabe bei der Erstellung einer Datenbank ist das Aufstellen eines geeigneten Datenbankschemas. Von der Losung dieser Aufgabe hangt der Erfolg des Datenbankprojekts entscheidend abo Eine ungtinstige Wahl des Schemas kann Konsequenzen haben, die von PerformanzeinbuBen bis hin zu einer unvollstandigen oder nicht sachgerechten Erfassung der relevanten Daten fuhren. Korrekturen am Schema wahrend der spateren Datenbanknutzung sind in der Regel auBerst kritisch hinsichtlich der Kosten und der Datensicherheit. Ein geeignetes Datenbankschema muss es erlauben, die zu erfassenden Sachverhalte des Anwendungsgebiets spater konsistent und vollstandig in der Datenbank zu reprasentieren. Die Elemente, die zur Aufstellung eines Datenbankschemas genutzt werden, unterscheiden sich oft von den Konzepten, mittels derer Menschen ein Anwendungsgebiet beschreiben und strukturieren. Anwender erkennen Gegenstande, ihre Eigenschaften, ihr Verhalten und ihre Funktion, wahrend relationale Datenbankschemata nur Tabellendeklarationen und Datenabhangigkeiten enthalten. Urn zwischen diesen unterschiedlichen Welten zu vermitteln, wurden Modellierungssprachen entwickelt. Entity-Relationship-Diagramme (E-R-Diagramm) sind eine solche Modellierungssprache fiir Datenbankschemata. Ein Entity-Relationship-Diagramrn Iasst sich systematisch in ein Datenbankschema ubersetzen, auf der anderen Seite verwendet es Beschreibungsmittel, die den menschlichen Beschreibungskonzepten fur ein Anwendungsgebiet nahe sind.
6.2.1 Basiselemente von E-R-Diagrammen Die zentralen Bausteine eines Entity-Relationship-Diagramms sind • Entitytypen • Attribute • Beziehungstypen.
6.2 Entity-Relationship Diagramme
85
Fall
Abbildung 6.5: Entitytyp mit Attributen
Entitytypen: gebiets.
Ein Entitytyp beschreibt eine Klasse gleichartiger Gegenstande des Anwendungs-
Beispiel 6.4 Patienten haben aIle einen Namen und ein Geburtsdatum. Ihnen wird im Rahmen einer klinischen Betreuung ein Aufnahme- und ein Entlassungsdatum und ein behandelnder Arzt zugewiesen. Der Entitytyp »Fall« (Abbildung 6.5) beschreibt diese strukturellen Gemeinsamkeiten.
Attribute: Im Rahmen einer solchen abstrakten Beschreibung macht es Sinn, jedem Entitytyp eine Reihe von Attributen zuzuordnen, die den anwendungsrelevanten Merkmalen der jeweiligen Gegenstandsklasse entsprechen. Beispiel 6.5 Im FaIle des eben beschriebenen Entitytyps »Fall« waren »Name-, »Geburtsdatum-, »Aufnahrnedatumund »Entlassungsdatum« Attribute.
In einem Entity-Relationship Diagramm werden Entitytypen als Rechtecke und Attribute als Ellipsen dargestellt. Die Rechtecke werden mit der Bezeichnung des Entitytyps beschriftet, die Ellipsen mit den Attributnamen. Ein Entitytyp wird durch Linien mit seinen Attributen verbunden. Beziehungstypen: Sachverhalte setzen oft zwei oder mehrere Objekte eines Anwendungsgebiets in eine Beziehung zueinander. Typen solcher Beziehungen ergeben sich daraus, dass eine bestimmte Art von Beziehung immer nur zwischen Objekten bestimmten Typs bestehen kann. Beziehungstypen verbinden daher zwei oder mehr Entitytypen. Sie stehen ftir Sachverhalte, die Objekte aus unterschiedlichen Klassen betreffen. Beispiel 6.6 Zwischen dem Entitytyp »Fall- und einem zweiten Entitytyp »Arzt« kann der Beziehungstyp »behandeltVon« etabliert werden, durch die einem Patient sein behandelnder Arzt zugeordnet ist. Ein Beziehungstyp
86
6 Datenbanken und Wissensreprasentation
wird durch eine Raute symbolisiert. Die Raute wird mit den Rechtecken der Entitytypen, zwischen denen ein Beziehungstyp besteht, durch Linien verbunden. Ein Beziehungstyp kann auch Attribute haben. Der Sachverhalt einer Behandlung konnte dadurch genauer beschrieben werden, dass an den Beziehungstyp »behandeltvon« die Attribute »Behandlungsdatum- und »Art der Behandlung« geknlipft werden. Dadurch wird in der Modellierung wiedergegeben, dass ein Arzt einen Patienten an einem bestimmten Tag mit eine bestimmte Behandlungsart behandelt (Abbildung 6.6).
Patient
behandeltVon
Arzt
Ehmedatum
Abbildung 6.6: Beziehungstyp mit Attributen
Haufig verbinden Beziehungstypen genau zwei Entitytypen. Dennoch kann es auch vorkornmen, dass noch mehr Entitytypen angebunden werden. Sind n verschiedene Entitytypen durch den Beziehungstyp verknupft, so heiJ3t dieser n-stellig. Beispiel 6.7 Anstatt den Beziehungstyp »behandeltVon« mit den Attibuten »Behandlungsdatum- und »Art der Behandlung« auszustatten, kann die Behandlung als eigener Entitytyp eingeflihrt werden. Eine Behandlung kann die Attribute BehandlungsID, Behandlungsname, Datum und Kosten haben, urn durchgeflihrte BehandlungsmaBnahmen genauer zu erfassen (Abbildung 6.7).
In einem Anwendungsgebiet kann es vorkommen, dass ein Gegenstand bzw. eine Person nur mit ausschlieJ3lich einem anderen Gegenstand/einer anderen Person in einem bestimmten Verhaltnis stehen kann.
Beispiel 6.8 Die Beziehung zwischen einem Bundesburger (tiber 16 Jahren) und seinem gliltigen Personalausweis ist von diesem Typ, d. h. weder hat ein Bundesblirger zwei gliltige Personalausweise, noch gehort ein Personalausweis rnehr als einern Bundesbtirger.
Um diese Eigenschaft einer Beziehung zu bezeichnen, wird der Begriff der Funktionalitdt eines Beziehungstyps eingeflihrt. Die eineindeutige Beziehung zwischen Bundesburgern und gliltigen Personalausweisen fuhrt zur Funktionalitat 1:1. Es treten auch die Funktionalitaten 1:N, N: 1 und M:N auf.
87
6.2 Entity-Relationship Diagramme
Name
Datum
-----.~~
Mai>nahmenlD -,
Kosten
Behandlung
Patient
Arzt
Abbildung 6.7: 3-stelliger Beziehungstyp
BundesbOrger
1--------------j Personalausweis
Abbildung 6.8: Beziehungstyp mit Funktionalitat 1:1
Beispiel 6.9 Ein Patient kann mehrere Blutproben gcben, eine Blutprobe gehort jedoch zu genau einem Patienten (Funktionalitat des Beziehungstyps »gibtBlutprobe: I:N, Funktionalitat des Beziehungstyps »blutprobeVon: N: I). Ein Patient wird in der Regel von mehreren Arzten behandelt, ein Arzt hat mehrere Patienten (Funktionalitat des Beziehungstyps »behandeltVon: M:N).
~
Patient
Blutprobe
N
~,
N
Blutprobe
Patient
Abbildung 6.9: Beziehungstyp mit Funktionalitat I:N bzw. N:1
Eine einfache Moglichkeit, die Funktionalitaten der Beziehungstypen im Entity-RelationshipDiagramm zu erfassen, besteht darin, die jeweiligen Angaben tiber die Verbindungslinien zwischen Entitytyp und Beziehungstyp zu schreiben (siehe Abbildung 6.10).
88
6 Datenbanken und Wissensreprasentation
N
behandeltVon
N
Abbildung 6.10: Beziehungstyp mit Funktionalitat M:N
Eine genauere Charakterisierung der Funktionalitat eines Beziehungstyps erfolgt durch die MinMax-Notation. Hierbei wird die Verbindungslinie zwischen einem Entitytyp und einem Beziehungstyp mit einem Zahlenpaar beschriftet. Die erste Zahl gibt an, wie oft eine Entitat, d. h. ein Objekt dieses Typs mit Objekten des anderen Typs der Beziehung minimal verkniipft sein muss. Die zweite Zahl gibt an wie oft es maximal verknlipft sein darf.
Beispiel 6.10 Fur die Beziehung zwischen Bundesbtirgern tiber 16 und Personalausweisen schreibt der Gesetzgeber eine Funktionalitat vor, die auf beiden Seiten der Beziehung das Zahlenpaar (1,1) enthalt,
Bundesburqer
(1,1)
(1,1)
Abbildung 6.11: Min-Max-Notation: Beziehungstyp mit Funktionalitat (1,1 ):(1,1)
Beispiel 6.11 Bei Reisepassen verhalt es sich anders: Ein Bundesbiirger hat zwar maximal einen gultigen Reisepass, braucht aber keinen zu haben, wahrend jeder gultige Reisepass genau einem Bundesburger auch wirklich gehoren muss. Hier wird also Richtung Bundesbtirger das Paar (0,1), Richtung Reisepass das Paar (l,l) stehen.
Bundesburqer
(1,0)
gOltlgerPass
(1,1)
RelsePass
Abbildung 6.12: Pass beispiel Min-Max-Notation: Beziehungstyp mit Funktionalitat (0,1 ):(1,1)
Die bisher eingeftihrten Bescheibungsmittel von Entity-Relationship-Diagrammen werden verfeinert durch die Moglichkeit zum • Hervorheben von Schltisselattributen • Markieren existenzabhangiger Entitytypen
6.2.1.1 Schliisselattribute und Existenzabhangigkeiten Genau wie flir Tabellenattribute relationaler Datenbanken konnen Attribute von Entitytypen als Schliissel fungieren. Ein Schltissel ist hier eine nicht weiter zu verkleinernde Auswahl von Attri-
6.2 Entity-Relationship Diagramme
89
buten, deren Werte zusammen die eindeutige Identifizierung einer Entitat, d. h. eines bestimmten Objekts des entsprechenden Entitytyps, erlauben. Schllisselattribute werden in E-R-Diagrarnmen dadurch gekennzeichnet, dass ihre Beschriftung unterstrichen wird.
Beispiel 6.12 Fiir den Entitytyp »Fall« bilden die Attribute »Name- und »Geburtsdatum« einen Schlussel (naturlich nur unter der Voraussetzung, dass zwei Patienten gleichen Namens nicht am selben Tag geboren wurden).
In manchen Hillen ist von vornherein klar, dass eine Entitat nur in Abhangigkeit von einer anderen iiberhaupt auftreten kann.
Beispiel 6.13 Klinische Blutproben werden sich immer auf einen Patienten beziehen. Sie ist existcnzabhangig vom Patienten.
In E-R-Diagrammen wird eine solche Existenzabhangigkeit dadurch hervorgehoben, dass der abhangige Entitytyp und die Beziehung, die diesen mit dem existenzbegriindenden Entitytyp verbindet, doppelt umrahmt werden.
6.2.2 Generalisierung und Aggregation In E-R-Diagrammen konnen zwei besondere Beziehungstypen auftreten. Diese Beziehungstypen tragen die Bezeichnung Is-a und Part-of. Das Besondere an diesen Beziehungstypen ist, dass ihnen zwei Modellierungsprinzipien entsprechen: • Generalisierung und • Aggregation Die Generalisierung dient dazu, auf Typebene eine grofsere Ubersichtlichkeit zu erzeugen und die Attribute von Entitytypen rnoglichst kompakt und redundanzfrei zu erfassen. Durch Generalisierung werden allgemeinere Entitytypen zu spezielleren in Beziehung gesetzt. Der dabei verwendete Beziehungstyp wird mit Is-a bezeichnet. 1st ein Entitytyp durch Is-a mit einem (allgemeineren) Entitytyp verbunden, so sind alle Objekte, die unter ihn fallen, gleichzeitig auch Objekte des allgemeineren Entitytyps. Attribute, die an den allgemeineren Typ gebunden sind, werden im E-R-Diagramm nur dort notiert. Dennoch sind diese Attribute auch gleichzeitig Attribute des spezielleren Typs. Diese Vereinbarung wird als Vererbung aufTypebene bezeichnet. Da der Is-a-Beziehungstyp eine besondere Rolle innerhalb einer E-R-Modellierung spielt, wird ihm ein neues Symbol, das Rechteck, zugeordnet.
Beispiel 6.14 Zwischen einem Entitytyp »Person« mit dem Attribut »Namen« und dem Entitytyp »Patient« wird eine Is-a Beziehung etabliert. Dieser Modellierung entspricht die Sachlage, dass alle Patienten einer Klinik immer auch Personen sind. Im Diagramm wird das Attribut »Name- nicht mehr bei Patient, sondern nur noch bei Person angebunden. Eine erste Vereinfachung und Strukturierung des Schemas ergibt sich daraus, dass auch alle Ante Personen sind, der Entitytyp »Arzt« wird also ebenfalls durch Is-a an den Typ Person gebunden und das Attribut »Namen« nur dort angebunden.Das Attribut »Namen« wird also nun zentral sowohIfur den
90
6 Datenbanken und Wissensreprasentation
Hand
1
/\
/IS-A\
/ I \
~ Abbildung 6. I3: Is-a Beziehungstyp
Typ »Patient« aIs auch fur den Typ »Arzt« durch den Entitytyp »Person- zur Vcrfugung gestellt. Bei groBen Diagrammen erieichtert die hierarchische Organisation von Entitytypen dariiber hinaus die Ubersicht.
Eine Generalisierung kann so erfolgen, dass die Untertypen den gesamten Bereich abdecken, der durch den allgemeineren Typ abgesteckt ist: Die Menge aller Objekte vom allgemeineren Typ lasst sich durch die Vereinigung der Objektmengen der spezielleren Typen vollstandig rekonstruieren. In diesem Falle liegt eine vollstiindige Spezialisierung vor. Eine Generalisierung kann auBerdem so erfolgen, dass die spezielleren Entitytypen untereinander keine Objekte gemeinsam haben. Die Objektmengen zu allen Untertypen sind disjunkt. In diesem Faile liegt eine disjunkte Spezialisierung vor.
6.2.3 Aggregation Auch das Modellierungsprinzip der Aggregation dient dazu, E-R-Diagramme zu strukturieren und tibersichtlicher zu machen. Eine Aggregation fligt einen tibergeordneten Entitytyp aus seinen Teilen zusammen. Verwendet wird hierzu der Beziehungstyp Part-of. Auch die Aggregation flihrt -tiber Teile von Teilen - zu hierarchischen Strukturen innerhalb eines E-R-Diagramms. Beispiel 6.15 Die Verwendung der Aggregation ist insbesondere in einem Gebiet wie der Anatomie sinnvoll, da hier die Teil-Ganres-Beziehung umgangs- wie fachsprachlich von jeher eine entscheidende Rolle spielt (z. B. ergibt sich die Anordnung anatomischer Begriffe »Fingerknochen - Finger - Hand - obere Extremitat« aus der Teil-Ganzes-Beziehung).
Partitive Beziehungen spielen bei der Organisation medizinischen Wissens insofem eine grosse Rolle, als diese oft der anatomischen Struktur des Korpers folgt. Fiir die E-R-Modellierung ist die Verwendung der Aggregation vorteilhaft, weil Attribute zielgenau bei untergeordneten Entitytypen auftreten, anstatt in groBer Zahl und ungegliedert an einem aggregierten Entitytyp angebunden zu sein. Der Beziehungstyp Part-of wird durch eine Raute mit der fettgedruckten Bezeichnung »part-of« hervorgehoben (s. Abbildung 6.14).
6.2 Entity-Relationship Diagramme
91
Abbildung 6.14: Part -of- Beziehungstyp
Selbsttest 6.2 Stellen Sie ei n E-R-Mo de ll zu fo lgcnde n Sac hvcrha lten au f: Einc Viruscrkrankung ist eine Krankhcit sentit at, Ein lCD-Code codiert ge nau eine Krankheitsent itat. Zu einer Kran kheitsentit at kann es u. U. meh -
rere lCD -Cod es gebe n, die diese Kran kheit sentitat cod iere n, man chm al ist auch kein Code vorha nde n. Attribute si nd fur Krankh eitsen titat: Na me; fllr Viruserkrankung: min. Inkubation szeit , max. Inkub ati onszei t; fiir lCD-Code: Code, lCD-Version .
6.2.4 E-R-Diagrarnrne und relationale Datenbankschernata Den zwei grundlegenden Bausteinen der E-R-Diagramme (Entitytyp und Beziehungstyp) steht auf der Seite der relationalen Datenbankschemata lediglich ein Konzept gegeniiber: das der Tabelle, d. h. Relation. Daher mussen sowohl die Entitytypen als auch die Beziehungstypen in Tabellendeklarationen transformiert werden, wenn aus einem E-R-Diagramm ein Datenbankscherna generiert werden solI. Die Umsetzung der Entitytypen ist klar: Die Typbezeichnung wird zum Tabellennamen, die Attribute werden zu den Tabellenattributen, die Eigenschaft einer Attributmenge, ein Schliissel zu sein, bleibt erhalten. Der Wertebereich muss den Attributen gesondert zugewiesen werden. Die Umsetzung von Beziehungstypen kann zunachst so erfoIgen, dass fur jeden Beziehungstyp eine Tabelle angelegt wird, deren Attribute jeweils die - ggf. bei Gleichheit umbenannten - Schliissel aller angebundenen Entitytypen zusammen mit den originalen Attribute des Beziehungstyps sind. Es ist von der Funktionalitat des Beziehungstyps abhangig, welche Schliissel sich fiir die resultierende Tabelle im Datenbankschema ergeben. Bei N:M-Beziehungstypen wird der Schliissel der Tabelle fur den Beziehungstyp durch die Schliisselattribute aller angebundenen Entitytypen gebildet. Einfacher ist der Fall fur die Funktionalitaten 1:N und N: 1. Hier fungieren jeweils die Schliisselattribute des mit der Bewertung N angebundenen Entitytyps als neue Schliissel. Bei der Funktionalitat I: 1 konnen die Attribute eines der angebundenen Entitytyps als SchliisseI gewahlt werden.
92
6 Datenbanken und Wissensreprasentation
Patient
- - - - - - - - - - - - - - - - - -
PatKey
Na me
Gebdat
Aufnahme
Entlassung
Abbildung 6.15: Schema Umsetzung eines Entitytyps in eine Relation
Patient
_____
I
--------------1'__ N
Patient Pa tKe y
Blutprobe
_'
Blutprobe BPKe y
BPKey
Abbildung 6.16: Schema Umsetzung eines Beziehungstyps in eine Relation
Dieser erste Schemaentwurf kann anschlieBend noch verfeinert werden. Dabei fallen Tabellen weg, die zur Modellierung von Beziehungstypen verwendet wurden. Dies geschieht, indem Tabellen mit dem gleichen Schllissel zusammengefasst werden: Die fehlenden Attribute der einen Tabelle werden dabei in die Tabellendeklaration der anderen aufgenommen. 1m FaIle der Funktionalitat N:M ist keine solche Zusammenfassung moglich. Ein Is-a-Beziehungstyp zwischen zwei Entity-Typen wird dadurch modelliert, dass der allgemeinere Typ in eine Relation transformiert wird. Ftir den spezielleren Typ wird eine Relation generiert, die lediglich die nicht geerbten Attribute enthalt. Eine Entitat des spezielleren Typs wird in der Datenbank so reprasentiert, dass 1) sich die Attributwerte Zll den geerbten Attributen in der Relation fur den allgemeineren Typ befinden, 2) die Attributwerte Zll den nicht-geerbten Attributen in der Relation fur den spezielleren Typ enthalten sind und 3) die beiden Datensatzen in beiden Relationen denselben Schltissel erhalten. Die Informationen tiber eine Entitat des spezielleren Typs werden also tiber zwei Tabellen verteilt und mittels gleicher Schltissel zusammengefuhrt. Das irnpliziert, dass sich fiir jedes Tupel der spezielleren Relation auch ein Tupel
6.2 Entity-Relationship Diagramme
Patient
93
N
M
Am
behandellVon ~
8
Datum
Art
Abbildung 6.17: Schema Umsetzung eines komplexen Beziehungstyps in eine Relation (N:M Funktionalitat und Relationship-Attribute)
G
~ G
~
q
I
.
;;2
L
~au5.2lloo
06.nS.2000
033.2
s.nmel
Jure
03.10.199:l
06.08.2lloo
08.n9.2000
82 6.9
ICO 11 1 9
Name Hyper1anE-ive
826 9
HJ3f2~l'"8f'I khei1
otI nll Hfl t7 IMlJffl7 IA!'\7
S3:J 2
Ku ~ , (j !S
PduIJ~:Ii
d urch V. e n
ctmc KomI:'U;a:ioo
......... Name
voma rre
Gebd al
Aufnahml!J
Er Classurag
ICD
Diag.lCD
5''''....'
Jute
17.0&.1945
0303.2000
04 .03.2000
111.e
111.'9
Brioc/1e
Juliette
14.07.1965
06 os.zooo
0 7.0 7.2000
833.2
111.9
Oiag.Ncmc H)'fJ'II'rtif!onSIWl H9 f'2kran khftll
choe
I t(,'fLl r'l~ rrw(,..,l.
H )' pI!l'ten~ tW'I
HftI7 Krankh MI
ohnc Ih.. rlln~ rrlli t."'l. Hypertef'lstve HerzlUankh8l1
Pane
G ji,JIl()
25.04_1955
osos.zooo
06.0S.200n
833.2
111.9
Semmel
Jure
03.10.1990
0008.2000
08.09.200n
82 6.9
111.9
Semmel
Jure
11.06_1945
D300 .2Ooo 04.03.200n
111.!$
B33 .2
8nocne
Ju liette
14.01. 1965
06 06.2QOO
0 1.07 _2000
833_2
8 33 .2
KarcMlS d ;JK:h V'fM
Pa ne
Gh.JIho
25 .04 _1955
[}5 05.2000
OB.OS.2000
633 _2
833 2
Kardl1:s d;JKh Vlrl!ln
OhM H M7 ,n !WfflTlMU'
HYP'ertensl'o'(l HorzlU"anKheil OhM H flf7t n ~Jl"tl:11 flf'17
Kar(frtos dlJdl Vlren
8''''....'
Jure
03 . 10. 1990
08 08.2000
OB_O!il2000
8 2Et9
833.2
Kardits d...ch V,ren
Sen....,
Jule
17.06 . 19-15
0303.2000
&I.03 .200n
111.9
826.9
Mumps c hoe Komplbtion
Brioche
Julier..e
14 .07. 1965
06 OO.:rOOO 07.07.200n
833 .2
826.9
Mumpl'- o hoe Komplilc:ttion
Pane
GiiJIio
25 .04 _1955
OSOS.2llOO
OO.06200n
83 3.2
t:l26 .9
Mumpl'-OhM KompllcaUon
",,,, ,
Jure
03 . 10. 19'90
08 08 .1000
08 _09-:'000
1\26_9
H76 .9
......mps chee KompllcaUon
...
Abbildung 6.23: Beispiel Kartesisches Produkt
dennoch erwahnt: Bei einem Join werden wie im Faile des Kartesischen Produkts die Zeilen beider Ausgangstabellen zu neuen verlangerten Zeilen kombiniert. Hier jedoch wird nicht jede Zeile der einen Tabelle mit jeder anderen kombiniert. Kombiniert werden nur Zeilen, die in bestimmten Werten iibereinstimmen (Abbildung 6.24).
---Semmel
Julo
11.0 6 .194 5
03.03.2OC 0
0< .03.2000
Junette
14 .07 .1965
06 .OS.2OC0
0 7.07. 20 0D
6 33.2
Pane
Ciulo
2 5.04 .195 5
05 .05 .2OC0 06 .05 .20 0D
1l33.?
Semmel
Jule
0 3.10 .1900
08. 08. 2OC0
6 26.9
08 .09 .200D
Name
111.9
HypertensivC' Hcrzkrankncit ohne Hef1ins uffilienl
111.9
Bnc che
Dlagnosen
ICD
633.2
Kard ltrs l1urchViren
926 .9
Mumps ohlle KomplikaUon
....a.Name
vomame
Gt:tOOltscJed.
Aurnnhme
EnUal»u:'lg
ICD
Oiagll()Sg :"l .Narn,y
Semmel
Jule
1] .06.1945
03.03 .2000
04 .03 .200D
111.9
Hypertensive Herzkr ankhet; ohr-c Hcrzinsufflzicnz
Brioche
Jul eue
14. 07 .19 65
06.06.2000
07 .07.2000
833.2
Karc'ilis du rch Viren
Pane
Giulio
25.04 .1955
05.05.2000
06 .05.2000
8 33 .2
Karc:iltsdurch Viren
Semmel
Jule
03. 10 .1900
08.08 .2000
08 .09.2 00D
826.9
Mumpsohne KomplJktion
----
Abbildung 6.24: Beispiel Join
98
6 Datenbanken und Wissensreprasentation
SQL: select Name, Vorname, Gebdat, Aufnahme, Entlassung, Diagnosen.ICD, Diagnosen.Name from Falldokumentation, Diagnosen where Diagnosen.ICD Falldokumentation.ICD Datalog: query(7)(n,s,x,u,v,w,z) :- Falldokumentationl'v(n.s.x.u.v.w), Diagnosen' / 0
@.L /
/
~ursachtDirekt(V
•
\
_ -- - - - _
0--- - -
AssoziierteDiagnose(x.y)
0 efUndUng(x·y0
_ )
Abbildung 6.28: Beispiel Rcgclabhangigkcitcn der Datalog Regelbasis
Selb sttest 6.S Gegeben sind die lolgcnde n Datalog-Regeln: Vcrursac ht(2)(x,y) : - VcrursachtDirckt(2)(x,y) Verursacht (2)(x, z) : - Vemrsacht (2) (x,y), VerursachtDirekt(2) (y, z) Ermitteln Sie (manuell) die intensio nale Datenbank zum in Abb ildung 6.27 gegebenen Beisp iel.
Datalog-Ausdrlicke konnen aile Operatoren der relationalen Algebra darstellen. Die Ubersicht der Operatoren in Abschnitt 6.3.2 (S. 94 ff.) enthielt bereits die entsprechenden Datalog-Forrneln. Urn die Mengendifferenz simulieren zu konnen, ist es dabei allerdings notig, im Regelrumpf Negationen von Priidikaten zuzulassen. In Absehnitt 7.2.1 werden Regeln als Hornklauseln eingeflihrt. In Hornklauseln ist die Moglichkeit von Negationen im Regelrumpf nieht gegeben. Aueh bei Datalog-Ausdrlieken sind hinsiehtlieh der Verwendung von Negationen Einschrankungen zu maehen: Ein Datalog-Ausdruek mit negiertem Pradikat im Rumpf des Ausdrueks, lasst sieh genau dann im Sinne einer Mengendifferenz sinnvoll auswerten, wenn die Relation zum negierten Pradikat bereits erzeugt ist. Dann namlich kann das Vorhandenseinjedes ihrer Tupel in einer anderen Relation ausgesehlossen werden oder es konnen diese Tupel aus einem Ergebnis geloscht werden. Ist das negierte Pradikat einer Regel abhangig von Kopf der Regel, so kann zum Zeitpunkt der Auswertung dieser Regel nieht davon ausgegangen werden, dass die Relation zum negierten Pradikat bereits vollstandig erzeugt wurde, denn die aktuelle Anwendung der aktuellen Regel konnte die Relation noeh erweitern. Abhangigkeiten dieser Art lassen sieh an einem Abhiingigkeitsgraph leieht als Zyklen ablesen. Der Abhangigkeitsgraph wird genauso aufgebaut, wie im Fall ohne Negationen, wobei negierte Pradikate genau so behandelt werden, als seien sie nieht negiert. Definition 6.2 (Stratifizierte Datalog-Regelmengen) Eine Menge von Datalog-Regeln, in denen keine Abhangigkeit eines negierten Pradikats im Rumpf der Regel von Regelkopf auftritt, heiSt stratifiziert. Zulassig sind nur stratijizierte und sichere Datalog-Regelmengen. Das Datalog-Konzept zeigt, wie sieh Aspekte der regelbasierten Wissensverarbeitung mit relationalen Datenbanken verbin-
103
6.5 Data Mining
den lassen. Kommerzielle Datenbanken unterstutzen Datalog bislang nicht. Neuere Versionen des SQL-Standards (ab SQL-1999) erlauben allerdings rekursive Abfragen.
6.5 Data Mining Durch Data Mining versucht man, zusatzliches Wissen zu gewinnen, welches implizit in den in einer Datenbank erfassten Sachverhalten enthalten ist. Typische Aufgaben des Data Mining sind das Finden von Assoziationen und die Klassifikation von Sachverhalten.
Beispiel 6.19 In einer Datenbank, in der Angaben zur Medikation und zum Therapieverlauf gesammelt sind, findet sich in allen Fallen, in denen zwei Praparate gleichzeitig gegeben werden, eine deutliche Verschlechterung des Patientenzustands. Das Wissen, das sich aus diesen Sachverhalten gewinnen Iasst, ist der Verdacht auf eine Unvertraglichkeit der Praparate.
Neues Wissen
~SSi f'k.tiOns.rg.bniSS.
{~
Ass oztauonsmus te r
Data Mining
!Retevanler Au~niU
~
f ~
aus dem Data Warehouse
Datenbenx en
Flache Dateien
Abbildung 6.29: Beispiel Schema Knowledge Discovery in Databases
Data Mining im engeren Sinne ist ein Teilschritt bei der Entdeckung neuer Zusammenhange in Datenbanken (knowledge discovery in databases). Diese wird heute vielfach als ein mehrstufiger Prozess beschrieben. Abbildung 6.29 zeigt eine schematische Ubersicht tiber diesen Prozess.
Ein erster Teilschritt besteht in der Integration verschiedener Datenquellen in einem Data Warehouse. Hierunter wird ublicherweise eine Datenbank verstanden, in der Daten aus operationalen
104
6 Datenbanken und Wissensreprasentation
Datenbanken eines Unternehmens oder einer Institution ubertragen werden. Operation ale Datenbanken sind diejenigen, die im standigen Routinebetrieb genutzt und gepflegt werden. Ihre Nutzung fur aufwandige Analyse-Aufgaben ist aus den folgenden Grunden ungUnstig: • In der Regel ist nur wenig Spielraum fUr rechenintensive Analysen, ohne dass es zu Performanz-EinbuBen im Routinebetrieb kommt. • Die laufende Aktualisierung der Daten kann zu Zugriffs- oder gar Konsistenzproblemen bei der Analyse fUhren. • Die operationalen Datenbanken sind aus Grunden des Zugriffs oft ortlich verteilt und konnen hinsichtlich ihres Schemas variieren. Mittels geeigneter Programme, die die Selektion und Ubermittlung der Daten aus den verteilten operational en Datenbanken tibernehmen, wird der Datenbestand eines Data Warehouse regelmaBig aktualisiert.
Zeit
............
••
.... u.
J~
.......
So. c..
Prapar llfe
Abbildung 6.30: Beispiel Datacube
FUr Analysezwecke wurden das Relationskonzept, also der Ansatz, zweidimensionale Tabellen zur Reprasentation von Sachverhalten zu verwenden, erweitert zum Konzept der mehrdimensionalen Datenkuben (data cubes). In einem Datenkubus werden die Einzeldaten nicht in das zweidimensionale Raster der Tabellenfelder eingetragen (Dimensionen: Zeile und Spalte), sondern in Felder die bezogen auf drei oder mehr Achsen eingeordnet sind. Beispiel 6.20 Es sollen aus mehreren Kliniken (K I, K2, K3, K4) die Abgabe von Medikamenten durch die Hausapotheke im Jahresverlauf verglichen werden. Ein geeigneter Datenkubus ware 3-dimensional und enthielte aus jeder Klinik eine Tabelle. Jede Tabelle enrhalt fiir jedes der vorgehaltenen Praparare eine Spalte und fiir jeden Monat eine Zeile. In einem Tabellenfeld wird die abgegebene Menge eines Praparats im jeweiligen Monat notiert. Im Datenkubus werden die Tabellen gewissermaBen hintereinandergestellt. Auf diese Weise sind variable Vergleichsmoglichkeiten gegeben: Die Gesamtmenge fiir ein Praparat, einen Monat und iiber aile Kliniken kann ebenso ermittelt werden, wie der Durchschnittsverbrauch zu einem Praparat in einer Klinik iiber das ganze Jahr. D. h. es kann entlang einer oder mehrerer Achsen projeziert (slice-and-diceOperationen) und zusammengefasst werden (roll-up, drill-down).
6.5 Data Mining
105
Das Data Mining im engeren Sinne nutzt zwar entsprechend aufbereitete Daten und verfugbare Operationen zur weiterftihrenden Analyse, ist aber unabhangig von der Organisation der verfugbaren Daten im Data Warehouse, d. h. Data Mining Algorithmen lassen sich eben so auf eine einzelne Tabelle einer beliebigen relationalen Datenbank anwenden.
6.5.1 Data Mining - Basismethoden Ein zentrales Anliegen des Data Mining besteht darin, regelhafte Zusammenhange in den Ausgangsdaten zu finden und durch Assoriationsregeln zu beschreiben Beispiel 6.21 Bezogen auf eine Tabelle Kornplikationsfalle mit den Spalten Klinik, Diagnose, Komplikation konnte beispielsweise geprufr werden, ob es in bestimmten Kliniken bei bestimmten Diagnosen regelhaft zu Komplikationen kommt.
Beim Ermitteln regelhafter Zusammenhange in einer Tabelle wird mindestens eines der Attribute zum Zielattribut. Dies bedeutet, dass fur die Werte des Zielattributs bzw. der Zielattribute eine mehr oder minder regelmalsige Abhangigkeit von den Werten anderer Attribute der Tabelle gepriift werden soIl.
Beispiel 6.22 FUr die Komplikationsfalle des letzten Beispiels ist das Attribut Komplikation das Zielattribut. Kann es die beiden Werte Ja oder Nein annehmen, so wird z. B. gepriift, bei welchen Werten von Klinik und Diagnose - sprich: in welchen Kliniken und bei welchen Diagnosen - in der Regel das Auftreten einer Komplikation bejaht wird.
Eine Assoziationsregel hat formal die folgende Form: ([Xl, ... ,Xn,z] E R AXI ekj A ... Axmekm)
---> kzieleWziel
Hierbei gilt m ::; n. Die Regel verkntipft daher einen Teil der Werte in einer Tabellenzeile mit dem Wert kziel des Zielattributs z. Ftir den Platzhalter konnen Vergleichsoperatoren stehen wie =, -I-::;?-, . Eine Kurzdarstellung dieser Assoziationsregel ist:
e
Im Allgemeinen wird eine Assoziationsregel nicht fur die gesamte Tabelle gelten, sondem fur einzelne Tupel falsch sein und fur andere wahr. Die Wichtigkeit einer so gewonnenen Regel wird durch zwei MaBzahlen bestimmt • Konfidenz • Trager. Werden die Werte der Zielattribute Wj, ... , Wn im Sinne von Teiltupeln kurz durch (Z) und die Werte der Ausgangsattribute kj, ... ,km durch (A) bezeichnet, so ist die die Konfidenz der Assoziationsregel definiert als: conf( (A) =? (Z)) '= _ca_rd_(--=:{T_u---,-p-,--el_,_di_e---,-(A---,)_u_n,---d---,-(Z---,)_e_n_th-,-al,---te_n-,--,--}) . card( {Tupel die (A) enthalten})
106
6 Datenbanken und Wissensreprasentation
Die Funktion »card/)« ermittelt die Kardinalitat einer Menge, d. h. bei endlichen Mengen die Anzahl ihrer Elemente. Fur aIle Tupel, die zwar die Ausgangsattribute mit den durch die Regel geforderten Werten besetzt haben, nicht aber die Zielattribute, ist die angenommene Assoziationsregel falsch (vgl. Normierung der Subjunktion, Abschnitt 4.4.2, S. 38). Die Konfidenz misst also, bis zu welchem Grade eine Assoziationsregel in Ubereinstimmung mit den Daten ist. Als Trager (support) wird das folgende Verhaltnis bezeichnet: /)) card({Tupel,die (A) und (Z) enthalten}) / ) support ( \A =} \Z := ------'---'------,----,-----,------'----,---------'----,--------:-:--'--'-card( {aIle Tupel der Relation} ) Der Trager bewertet, welcher Bruchteil der gesamten verfugbaren Daten fur das Bestehen der Assoziationsregel spricht. Eine Assoziationsregel kann in allen Fallen wahr sein, aber sich nur auf einen einzigen Datensatz einer umfangreichen Tabelle sttitzen. Ein solcher Befund spricht gegen die Annahme einer Regel mit hoher Relevanz. Um durch Data Mining relevante Ergebnisse zu erzielen, werden iiblicherweise Selektionskriterien fur ermittelte Assoziationsregeln aufgestellt. Die Angabe von Grenzen, unterhalb derer die Werte von Trager und Konfidenz nicht fallen durfen, ist ein niitzliches Kriterium fur eine solche Auswahl.
6.5.2 Data Mining und Methoden der Wissensverarbeitung 1m Buchabschnitt zum Umgang mit unsicherem Wissen werden verschiedene Methoden vorgestellt, die inzwischen auch im Rahmen des Data Minings Bedeutung erlangt haben. An dieser Stelle solI daher nur eine kurze Ubersicht gegeben werden Bisher wurde Data Mining als Ermittlung von Assoziationsregeln dargestellt. Aus einer nur leicht veranderten Blickrichtung zeigt sich, dass Data Mining Techniken auch verstanden werden konnen als eine Generierung von Klassifikatoren: Ausgangspunkt ist auch hier die Auszeichnung eines Zielattributs (u. U. auch mehrerer). Die moglichen diskreten Werte des Zielattributs bzw. geeignete WertintervalIe definieren Klassen. Beispiel 6.23 Die Patienten, bei denen einen Komplikation auftritt und die Patienten, bei denen keine Komplikation auftritt konnen als zwei Klassen verstanden werden.
Die Frage, welche Werte der Ausgangsattribute damit verbunden sind, dass ein Datensatz einer Klasse zuzuordnen ist, stelIt eine Klassifikationsaufgabe dar. Ein automatischer Klassifikator ist ein Systemmodul, das ein gegebenes Eingangsmuster (z. B. die Werte der Ausgangsattribute) einer Klasse zuordnet. Ein sehr einfaches Beispiel fur Klassifikatoren sind Entscheidungsbaume. Sie werden in Abschnitt 7.1 (S. 120) systematisch eingefuhrt. Bezogen auf das Data Mining besteht ein Entscheidungsbaum aus mehreren aufeinander folgenden Fragen. Jede Frage bezieht sich auf ein Ausgangsattribut. Die Antwort ist jeweils der aktuelIe Wert dieses Attributs im gegebenen Eingangsmuster. Sind aIle Fragen durchlaufen, so gibt der Entscheidungsbaum genau eine der moglichen Klassen, sprich einen der moglichen Werte des Zielattributs zuriick.
107
6.5 Data Mining
Entscheidungsbaume konnen induktiv aus Beispieldatensatzen ermittelt werden und zwar immer so, dass alle Beispieldatensatze richtig klassifiziert werden (mit moglichen weiteren Testdatensatzen muss das nicht so sein). Besonders kompakte Entscheidungsbaume ergeben sich unter Berlicksichtigung des Informationsgewinns, der durch die Frage nach einem Ausgangsattruibut jeweils noch zu erzielen ist. Abschnitt 7.1.2.2 (S. 123) fiihrt die entsprechenden Konzepte ein. Entscheidungsbaume sind qualitative Klassifikatoren: Die Eingabemuster bestehen aus den diskreten Werten der Ausgangsattribute, die fur verschiedene Eigenschaften stehen.
6.5.2.1 Probabilistische Methoden zur Ermittlung von Assoziationsregeln Die bei der Bewertung von Assoziationsregeln verwendeten Mal3e der Konfidenz und des Tragers haben eine statistische Interpretation: Die Konfidenz schatzt die bedingte Wahrscheinlichkeit P((Z) I(A)) der vorgegebenen Werte der Zielattribute bei gegebenen Werten der Ausgangsattribute. Der Trager schatzt die Wahrscheinlichkeit P((Z) n (A)) dafur, dass die Werte der Zielattribute und die der Ausgangsattribute gemeinsam auftreten. Selbst bei hohen Werten fur Trager und Konfidenz kann eine Assoziationsregel irrefuhrend sein, insofern, als die Werte der Ausgangsattribute die Werte der Zielattribute nicht implizieren. Ein statistisches Mal3 fur die Abhangigkeit von Gr613en voneinander ist die Korrelation. Dieses Mal3 kann auch dazu verwendet werden, die Abhangigkeit der Werte der Zielattribute von denen der Ausgangsattribute zu bewerten: P(A nB) corr(A,B) := P(A) 'P(B)
Die in dieser Formel auftretenden Wahrscheinlichkeiten konnen durch die Zahl der Datensatze, die entsprechende Attributwerte enthalten, relativ zur Gesamtzahl der Datensatze geschatzt werden.
6.5.2.2 Quantitative Klassifikation Bei quantitativen Entscheidungsmodellen wird die Entscheidungssituation durch quantifizierte Messwerte fiir bestimmte Eigenschaften beschrieben. Sie lasst sich daher allgemein als ddimensionaler Merkmalsvektor x E lRD reprasentieren. Die Zuordnung von Eingangsmuster und Klassen wird bei quantitativen Ansatzen durch eine Entscheidungsregel r(x) vorgenommen, die einem Merkmalsvektor eine der verfligbaren Klassen k E K zuordnet. Oft wird die Entscheidungsregel dadurch definiert, dass eine Diskriminantenfunktion g : lRD x K ---+ lR vorgegeben wird. Fiir einen gegebenen Merkmalsvektor ist dann diejenige Klasse zu wahlen, fur welche die Diskriminantenfunktion den gr613ten Wert annimmt:
Xf---> r(x):=
argmax kEK
{g(x,k)}
6 Datenbanken und Wissensreprasentation
108
Typische Ansatze fur die Diskriminantenfunktion sind: lineare Funktioncn in x (z. B.: g(x,k) = 'f..~=l akd' (Xd + akO), quadratische Funktionen in x oder Neuronale Netze. Statistische Ansatze verwenden zum Aufstellen der Diskriminantenfunktion die a-priori Wahrscheinlichkeiten der Klassen p(k) und die bedingten Wahrscheinlichkeitcn p(xlk) des Auftretens eines Merkmalsvektors unter der Voraussetzung, dass eine bestimmte Klasse vorliegt. Nach der Bayesschen Formel (s. Abschnitt 8.7, S. 177) lasst sich mittels dieser Grolien die bedingte Wahrscheinlichkeit fur eine Klasse bei gegebenem Merkmalsvektor p(klx) berechnen. Die Bayessche Entscheidungsregel besagt, dass idealerweise diese bedingte Wahrscheinlichkeit als Diskriminante zu maximieren ist: rsaye.l(x):=
argmax kEK
{p(klx)}
In statistischen Ansatzen wird versucht, die in diese Entscheidungsregel eingehenden Wahrscheinlichkeiten bzw. Verteilungen realistisch zu modellieren. Allgemeine quantitative Ansatze zu Klassifikation passen die Diskriminante (teils durch Lernverfahren) an die entscheidungsrelevanten Sachverhalte an.
6.5.2.3 Support Vector Machine Support Vector Machine ist die Bezeichnung einer quantitativen Klassifikationsmethode. Sie
wurde in den letzten Jahren mit wachsendem Erfolg auch auf medizinische Daten angewendet. Als Anwendungsfeld eignen sich besonders Untersuchungs- oder Forschungsmethoden, die viele quantitative Daten erzeugen (wie z. B. Microarray-Untersuchungen zur Genexpression [PYYD08] [CSD+08] oder Daten aus der biomedizinischen Signalverarbeitung [CAT07]).
o 0 0 000
°
0
0
cO 0 0 0 °0
co o
°0
°0 0 00 0 0
..·.. . . .: . ..... · .. ·.. •
°
0°
°
e.,
°0°°0 0 00
• e••
°
0
o
°80
8\0.0 ...• •,. 0
0
Q:l o
. -
.
.:
••
• , ••
r:-0~
Abbildung 6.31: Linear separierbare Punktmenge (linkes Diagramm) vs. nieht linear separierbare Punktmenge (reehtes Diagramm) Das Klassifikationsverfahren nutzt Trainingsfalle. Quantifizierbare Eigcnschaften dieser Trainigsfalle werden als Vektoren in einem mehrdimensionalen Vektorraum rcprasentiert. Jeder Trainigsfall wird so auf einen Punkt in diesem Vektorraum abgebildet. FUr die Trainingsfalle ist geklart, zu welcher Klasse ein Fall jeweils gehort. Es werden nun (Hyper-)Ebenen gesucht, welche
6.6 Objektorientierte Datenmodelle
109
die Punkte trennen, die zu den verschiedenen Klassen gehoren. Support Vector Machines wahlen diejenigen Ebenen, die den grofsten »Korridor« zwischen den getrennten Punktmengen und der Trennebene freilassen. Die Lage dieser Ebene hangt dann nur von denjenigen Trainingsfallen ab, die ihr am nachsten liegen (den Support Vektoren). Damit die verschiedenen Klassen durch Ebenen getrennt werden konnen, mussen die Klassen (bzw. die Trainingsfalle) linear separierbar sein (Abbildung 6.31). Oft besteht aber keine lineare Separierbarkeit. Urn die Anwendung der Klassifikationsmethode auch auf diese Faile auszudehnen, gibt es die Moglichkeit, die Dimension des betrachteten Vektorraums zu erhohen. In beliebig hoch dimensionierten Vektorraumen lassen sich die Trainingsfalle immer linear separieren, nur entsprechen die zusatzlich eingefiihrten Dimensionen keinen beobachtbaren Eigenschaften mehr. Die trennenden Hyperebenen mussen anschlieliend wieder in den niedriger dimensionierten Vektorraum zuriicktransformiert werden, wo sie keine Ebenen, sondern allgemeine Hyperflachen bilden. Die nach Abschluss des Trainings resultierenden Hyperflachen ordnen neue Faile - sprich: neue Eigenschaftsvektoren - den vorgegebenen, trainierten Klassen zu.
6.5.2.4 Rough Sets Rough Sets sind ein Ansatz, Mengen qualitativ beschriebener Objekte aus einer Grundmenge durch andere Mengen ggf. grab zu definieren. Diese anderen Mengen partitionieren eine Ausgangsmenge. Jede Partition entspricht einer Aquivalenzklasse hinsichtlich bestimmter Eigenschaften ununterscheidbarer Objekte. Statt mit nur einer Partitionierung z. B. zu einem Attribut zu arbeiten, kann eine Zielmenge ebenso auch durch mehrere Partitionierungen beschrieben werden. Auf dieser Basis lasst sich ein MaE definieren, das wieder die Assoziationstarke zwischen einem Zielattribut und mehreren Ausgangsattributen bewertet. Der Ansatz wird in Abschnitt 8.5 (S. 167) eingefiihrt.
6.5.2.5 Fuzzy Sets Die bisher betrachteten Assoziationsregeln haben den Nachteil, dass auch im Faile kontinuierlicher Werte, diskrete Werteintervalle den Ausgangspunkt der - qualitativen - Beschreibung durch Regeln bilden. Fuzzy Sets erlauben es, statt scharfer Werteintervalle unscharfe Kategorisierungen zu verwenden. Fur diese existieren dennoch quantitative Beschreibungsmittel: die charakteristischen Funktionen von Fuzzy Mengen. Der Ansatz wird in Abschnitt 8.4 (S. 161) eingefUhrt.
6.6 Objektorientierte Datenmodelle Objektorientierte Datenmodelle haben sich im letzten Jahrzehnt weitgehend durchgesetzt. Bei der Entwicklung von Datenbankschemata treten inzwischen objektorientierte Klassendiagramme oft an die Stelle der Entity-Relationship-Diagramme.
110
6 Datenbanken und Wissensreprasentation
Es gibt viele Griinde fur diesen Erfolg: Objektorientierung in der Softwaretechnik unterstlitzt die Modularisierung von Programmen und die Wiederverwendung von Programmmodulen. Hierzu tragt insbesondere das Prinzip der Vererbung bei, wodurch - grob gesagt - allgemeine Datentypen ihre Eigenschaften auf spezielle iibertragen. Dasselbe Prinzip ist auBerdem ein machtiges und dazu intuitives Mittel der systematischen Organisation von Softwareprojekten und Programmbibliotheken. Ebenfalls zur besseren Modularisierung, aber auch allgemein zu einer Verbesserung der Programmqualitat tragt das Prinzip der Kapselung bei: Daten konnen nicht von beliebiger Stelle eines Programms gelesen und verandert werden, sondern sind zur Laufzeit in Objekten verkapsell. Prirnar stehen seine Daten nur denjenigen Operationen zur VerfUgung, die ein bestimmtes Objekt ausfuhren kann. Erst in zweiter Linie kann explizit deklariert werden, welche Zugriffsrechte andere Objekte auf diese Daten haben. Ein weiterer wichtiger Grund fur den Erfolg des Ansatzes ist die Objektorientierung im Sinne eines Modellierungsprinzips. Dieses Modellierungsprinzip weist starke Parallelen zu Ansatzen der Wissensreprasentation, insbesondere zu dem durch MINSKY eingefUhrten Konzept der Frames, auf. Es werden daher an dieser Stelle bereits die Grundkonzepte auch der objektorientierten Wissensreprasentation eingefuhrt, die im entsprechenden spateren Abschnitt dieser Lerneinheit dann aufgegriffen werden.
Objektorientierte Datenbanken ubemehmen das Konzept der Objektorientierten Programmierung und erganzen es urn die systematische Zugriffsverwaltung, eine dauerhafte Speicherung und die strukturierte Abfrage von Objekten. Ein entscheidender Vorteil objektorientierter Datenbanken ist deshalb auch die Moglichkeit einer fast nahtlosen Integration von Datenbank und (objektorientiertem) Anwendungsprogramm. Wegen der Nahe der objektorientierten Modellierung zu frame- bzw. objektorientierten Wissensreprasentationsformaten lassen sich objektorientierte Datenbanksysteme als Plattform umfangreicher Wissensbanken nutzen. Sie verbinden auch hier die allgemeinen Vorteile einer Datenbank mit einer einfachen und flexiblen Anbindung von Systemmodulen zur Wissensverarbeitung. Allerdings haben sich objektorientierte Datenbankmanagementsysteme (OODBMS) als technische Plattform bisher nicht durchgesetzt. Stattdessen existieren fur viele objektorientierte Programmiersprachen ausgereifte Spezifikationen und implementierte Frameworks, die es erlauben den Zustand von Objekten in einer relationalen Datenbank zu speichern. Aus Sicht des objektorientierten Programms bleibt dabei die relationale Struktur der Datenspeicherung verborgen. Der Zugriff auf die Objekte erfolgt, als wiirden diese in einer Objektorientierten Datenbank gespeichert. Insofern lohnt sich der Blick auf die Prinzipien objektorientierte Datenmodellierung auch unter dieser Voraussetzung.
6.6.1 Grundbegriffe der Objektorientierung 1m Rahmen eines objektorientierten Modells entspricht ein Objekt einem einzelnen Gegenstand des Interesses in dem Weltausschnitt, der durch das Modell abgebildet werden solI. Synonym wird ein Objekt auch eine Instanz genannt, Zur Modellierung der Merkmale von Gegenstanden
6.6 Objektorientierte Datenmodelle
111
dienen Attribute eines Objekts. Ein Objekt, das fur einen Patienten steht, konnte daher die Attribute Namen, Vornamen, Geburtsdatum, Gewicht haben. An einem Gegenstand werden Auspragungen von Merkmalen wahrgenornmen, z. B. der Wert des aktueII gemessen en Gewichts eines Patienten. Analog nehmen die Attribute eines Objekts Attributwerte an. Ein Attribut ein und desselben Objekts kann zu unterschiedlichen Zeiten verschiedene Attributwerte annehmen. Urn das sicherzusteIIen hat ein Objekt eine Objektidentitdt, die unabhangig von den Attributwerten besteht. Hierin liegt ein entscheidender Unterschied zu den Moglichkeiten der relationalen ModeIIierung: Andert sich in einer relationalen DatenbanktabeIIe der Wert eines Schlusselattributs, so existiert keine kontinuiertliche Identitat des Datensatzes mehr (Naturlich kann dennoch durch Einftihrung eines zusatzlichen Attributs, das durch die Datenbankanwendung wie eine Objekt-ID verarbeitet, bzw. geschutzt wird, eine Identitat simuliert werden. Sie ist aber nicht Teil des ModeIIierungsansatzes). Ein Objekt verfugt tiber Methoden zur Verarbeitung von Daten. Die Daten eines Objekts, d. h. die Werte seiner Attribute/lnstanzvariablen konnen nur durch die Methoden manipuliert werden, tiber die das Objekt verfugt. Dies ist das Prinzip der Kapselung. Es kann durch dezidierte Freigabe von Datenbereichen aufgeweicht werden (Deklaration von Instanzvariablen als public oder protected). Einer Menge von Gegenstanden mit denselben Merkmalen im Weltausschnitt entspricht eine Klasse im objektorientierten Modell. Eine Klasse gibt den Objekten, die ihr zugeordnet werden, ihre Attribute vor (nicht jedoch deren Werte), sie gibt auBerdem die Methoden vor, tiber die jedes zugeordnete Objekt verfugen soIl.
Beispiel 6.24 Ein Objekt der Klasse Patient konnte daher tiber ein Attribut »Geburtsdatum- und tiber ein Attribut »Gewicht« verfligen. Die Werte von »Gewicht« werden sich in der Regel andern. Zusatzlich kann die Methode »Alter- implementiert sein. Mit der Methode »Alter- wurde jeweils unter Rtickgriff auf die Systemzeit automatisch das aktuelle Alter des Patienten berechnet und stlinde fur Abfragen zur VerfUgung.
Patient
-Vorname : String -Nachname : SIring -Geburtsdatum : Date +aktc eliesAlterO : Intege -,
Klassen
»"
"....... ,
-,
- - -- - - -- -- - - ~- -- - -- - ~- - -- - -- - -- ---
Instanzen
""
,,"
-, -,
,,
,.----""-----,
,-------"----.,
Patient1: Patient
Patien t2: Patient
Vom ame : String = Jute Naclmarne : String = Semmel Ge burtsdatum : Date = 17.06.194
-Vom ame : String = Jule -Nachr-ame : Siring = Sem01t!'1 -Geburtsdalum : Dale = 03.10.199
Abbildung 6.32: Die Klasse Patient und zwei zulassige Instanzen dieser Klasse
112
6 Datenbanken und Wissensreprasentation
Zwischen Klassen kann eine generische Beziehung deklariert werden: Eine Klasse wird dabei zur Spezialisierung einer anderen Klasse erklart. Die speziellere Klasse erbt die Attribute und Methoden der allgemeineren. Die Attribute und Methoden der allgemeineren Klasse stehen daher Objekten der spezielleren Klasse zur Verfligung (Vererbung). Methoden konnen durch die speziellere Klasse iiberschrieben werden, d. h. die speziellere Klasse kann unter demselben Methodennamen ein anderes Verhalten implementieren als die allgemeinere tUberschreibens. Eine Klasse verfligt nur tiber die eigenen und die von allgemeineren Klassen geerbten Attribute und Methoden, nicht tiber die ihrer Unterklassen.
Beispiel 6.25 Die Klasse »Patient« kann als Spezialisierung der Klasse »Person« modelliert werden. Die Attribute »Name" »Vomame- »GebDatum« sowie die Methode »Alter« konnen dann in der Klasse »Person« deklariert und auf »Patient« vererbt werden. Die Klasse »Patient« kann dann ein weiteres (patientenspezifisches) Attribut z. B. »stationarer.Aufenthalt« erhalten. Durch die generische Beziehungen zwischen Klassen ergibt sich eine Klassenhierarchie. Zwischen Klassen bestehen aber weitere Beziehungen. Sie ergeben sich daraus, dass als Werte von Attributen Objekte derselben oder anderer Klassen erlaubt sind. 1m Rahmen der Attributdeklaration werden daher Assoziationen zwischen Klassen etabliert. Auf der Ebene der Objekte entstehen Verweisstrukturen, in denen ein Objekt tiber eines seiner Attribute ein anderes Objekt referenziert. Die Daten des referenzierten Objekts werden dabei nicht kopiert sondern stehen systemweit einmal zu Verfligung. Ein entscheidender Vorteil fur die entstehenden Modelle ist ihre Unilokularitdt: Informationen zu einem Gegenstand der Wirklichkeit werden im Modell an genau einem Ort reprasentiert, namlich im entsprechenden Objekt. Andern sich bestimmte Eigenschaften, so miissen Anderungen an den Attributwerten lediglich dort vorgenommen werden und gelten sofort auch aus der Perspektive aller anderen Objekte, welche das Ausgangsobjekt referenzieren.
Beispiel 6.26 Der stationare Aufenthalt eines Patienten kann als Objekt einer Klasse »Fall« modelliert werden. Diese enthalt die Attribute fur das Aufnahme- und Entlassungsdatum und die Entlassungsdiagnose sowie einen Verweis auf den Patienten, der stationar behandelt wurde. Ein im Modell bereits bekannter Patient kann mehrerenFallen zugeordnetwerden(urnmehrmalige stationare Behandlungen zu modellieren). Andert sich der Nachname(z. B. durch EheschlieBung), so ist diese Anderungwegender Objektidentitatund mittels der Referenzierung auf ein einzige Objekt in allen Fallen wirksam. Assoziationen zwischen Klassen konnen einseitig sein (Beispiel: Ein stationarer Aufenthalt referenziert eine Diagnose als Entlassungsdiagnose) oder wechselseitig (Beispiel: Ein Patient referenziert seine stationaren Aufenthalte und diese verweisen jeweils zuruck auf den Patienten). Fur beide Typen von Assoziationen ist die Modellierung von Kardinalitiiten sinnvoll, wie sie bereits im Entity-Relationship-Modell eingeflihrt wurde. Hierzu wirdjeweils bezogen auf jede an einer Assoziation teilnehmende Klasse notiert, wieviele Objekte dieser Klasse minimal und maximal durch ein Objekte der jeweils anderen Klasse referenziert werden konnen.
Beispiel 6.27 Es ist sinnvoll zu fordern, dass mindestens eine Entlassungsdiagnose fur jeden stationarenAufenthalteines
6.6 Objektorientierte Datenmodelle
113
Patienten gestellt wird und auch gegebenenfalls mehrere zulassig sind. Ein Fall sollte mindestens einen Patienten referenzieren, aber auch nicht mehr aIs diesen.
Aus den Klassen, ihren Hierarchien und Assoziationen wird im Rahmen einer objektorientierten Analyse ein Schema fur den betrachteten Weltausschnitt aufgebaut. Die Beziehungen und Eigenschaften von Gegenstanden im Weltausschnitt sowie deren Verhalten bildet dann ein objektorientiertes Modell, das aus Objekten zu diesen Klassen besteht. Das konkrete Modell heibt Instanziierung des Schemas. Das Verhaltnis des Schemas auf der Ebene der Klassen zu seinen moglichen Instaziierungen entspricht exakt dem Verhaltnis eines relationalen Datenbankschemas zu den moglichen Datenbankinstanzen, also den tatsachlich angelegten Tabellen. In einer objektorientierten Datenbank iibernimmt das Klassenschema daher die Rolle des Datenbankschemas und seine Instanziierungen sind die konkreten Datenbanken, die diesem Schema genUgen. Klasse n
Objektorientiertes Datenbankschema
Zulassige Datenbankinstanzen
Abbildung 6.33: Objektorientierte Datenbanken: Datenbankschema und Datenbankinstanzen
6.6.2 Objektorientierte Analyse und Schemaentwurf In Abschnitt 6.2 wurde die Entity-Relationship-Modellierung (E-R-Ansatz) als Methode zum strukturierten Schemaentwurf fur relationale Datenbanken eingefUhrt. Bereits hier traten mit Entitytypen und Beziehungstypen Modellierungselemente auf, die starke Gemeinsamkeiten mit den eben zur objektorientierten Modellierung eingefuhrten Klassen und Assoziationen haben. Der E-R-Ansatz lasst jedoch die Integration von Objektverhalten und Objekteigenschaften nicht angemessen modellieren. FUrdie objektorientierte Analyse und die Schemamodellierung erlangten Anfang der I990er Jahre eine Reihe methodischer Ansatze grofsere Bekanntheit und Verbreitung. Die wichtigsten Vertreter sind der Ansatz von Booch [Boo94], Coad und Yourdon [CY91] sowie OMT [RBP+91]. Sie verfiigen uber unterschiedliche graphische Notationen und weichen in einigen Modellierungselementen voneinander abo Inzwischen hat sich in der Praxis des Software-Engineerings die Unified Modeling Language (UML) auf breiter Front durchgesetzt [BRJ97]. UML definiert U. a. eine graphische Notation zur objektorientierten Datenmodellierung. Eine systematische Einfuhrung in UML wiirde den Umfang dieses Buches sprengen. Stattdessen soli beispielhaft die Anwendung einiger durch UML bereitgestellten Beschreibungsmittel gezeigt werden. UML-Klassendiagramme stellen Beschreibungsmittel fiir Klassen und Instanzen;
6 Datenbanken und Wissensreprasentation
114
ihre Eigenschaften und Beziehungen zur Verftigung. Eine Klasse wird mit ihren Attributen und Methoden dargestellt. Die Darstellungen von Instanzen enthalten die Angabe der zugehorigen Klassen, wiederholen deren Attributstruktur und Methoden und geben zusatzlich Attributwerte der einzelnen Attribute an. UML kennt - wie schon das Entity-Relationship Modell- die besonderen Beziehungen der Generalisierung und der Aggregation. Die durch einen Pfeil symbolisierte Generalisierung stellt fest, dass eine gegebene Klasse die Unterklasse einer bestimmten anderen ist. 1m Sinne der objektorientierten Modellierung kommt es zur Vererbung der Attribute und Methoden der Oberklasse auf die Unterklasse, das durch generische Verknupfungen aufgespannte Netz entspricht der Klassenhierarchie. Wie in E-R-Modellen kann auch in UML zwischen einer disjunkten und einer nicht disjunkten Spezialisierung unterschieden werden. Die Aggregation - also die Beziehung eines Ganzen zu seinen Teilen - kann zwischen Klassen etabliert werden. Eine Klasse »Patientenakte« kann dabei z. B. »Arztbriefe« als Teile enthalten. UML unterscheidet zwischen normaler und kompositioneller Aggregation. Bei der normalen Aggregation konnen Teile des gleichen Typs hinzukommen oder wegfallen. Beispiel: Einer Patientenakte kann ein weiterer Arztbrief hinzugeftigt werden. Bei einer kompositionellen Aggregation ist das nicht moglich. Beispiel: Das gesunde Herz eines Menschen besteht immer aus linker und rechter Vorkammer und linker und rechter Hauptkammer. Neben den Klassensymbolen sind die Assoziationssymbole die wichtigsten Bausteine von UML Diagrammen. Sie bestehen aus einer Linie zwischen den Klassen, bei der jeweils auf der Seite einer angebundenen Klasse die Kardinalitat und der Name der Beziehung aus Sicht der Ausgangsklasse notiert ist. Person -Vorname : String -Nachname : String -Geb" ~ sdatu m : Date +aktuellesAlterO : Intege
y/ '
I Patient
Palienl
--1.. 1 0..n Sta tionBc hand
Fall Fall -Aufnahme : Data -Entlas sunq : Da te
1..1
"Oa ue rStationAufenttla ll() : Inlege
1..n ~
Enlla ssDiagn
Diagnose
·Diag nosennarne : Stri n ~ -ICD : String
Abbildung 6.34: Objektorientiertes Schema (UML Notation)
6.6 Objektorientierte Datenmodelle
liS
Beispiel 6.28 Konnen von einem Objekt der Klasse Patient null oder mehrere Objekte der Klasse Fall als stationare Behandlungen des Patienten referenziert werden, so steht auf der Seite der Klasse Fall die Angabe a... n fiir die Kardinalitat und die Bezeichung der Rolle des Falls (StationBehand). In Abbildung 6.34 ist ein Schema in der graphischen Notation von UML dargestellt, das die in den vorausgehenden Beispielen erwahnten Beziehungen zwischen den Klassen Person, Patient, Fall und Diagnose modelliert Abbildung 6.35 zeigt eine mogliche Instanziierung dieses Schemas. Wie bereits beschrieben, entspricht das Schema auf Klassenebene dem Datenbankschema einer objektorientierten Datenbank und das Schaubild mit den Instanzen stellt die Objekte und ihre wechselseitigen Referenzierungen in einer moglichen Datenbankinstanz graphisch dar.
Patlent 1: Patient Pa tient
-Vom ame : Slring =Jule -Nachoame : String =Semmel ·Geb urtsdatum : Dale = 17.06.194
L
EntJassDiagn 111.9: Diag nose
,---------,
Station8chand
Fall l : Fall
Diagnosenn ame : St1ing = Hyper!. HK o. Insult ICD : String ~ 111.9
Fall
·Aufnahmc : Dale = 03.03.2000 ·Enllassung : Dale = 04 .03.20 00
Fall
+DauerS tationAuf enl haIIO : Integ e
EntJassDiagn
-
StationBehand rr:
- ,EntiassDiagn
833.2: Diag no se
,---------,
Fa1l2: Fall
Diagnosenn ame : St1ing = Karditis durch Yire ICD : SIring = B33.2
Patient2 : Pat ient
-Vomame : String - Jule -Nachname : Siring =Semm el ·Geburtsdatum : Date = 0 3.10.199(
Patient
-Aulna hme : Date = 06.06.2000 ·Entlassung : Date - 07 .07.2000 +DauorS tal ionAuf onthaltO : lntogo
Station Behand
Fall
l
Fa1l3: Fall
Fall
Patient 3: Pat ient -v om ame : String = Juliene -Nachname : String =Brioche ·Geburtsdatu m : Date = 14.07.196
-Aulnah me : Date = 05.05.2000 -Entiass ung : Date = 06 .05.2000 Patient
+DauerStal ionAufenthaIIO : Inleg e
.
StatJonBchand
I
EntlassOiagn
StationBehand Paticnt4: Patient
-Vomame : String =Giulio -Nachnarne : String =Pane -Geb urtsd atum : Date = 25.04.195
J
enl PaU
8 26.9: Diag nose -Di agnosennam e : String = Mumps o . Komplik
· ICD : String = B26.9
Fa1l3: Fall ·Aufnahmc : Dal e = 08 .08 .2000 ·Entiassung : Dale = 08 .10.2000 +Dau erStationAufenl haIIO : Intege
Patient
Abbildung 6.35: Instanziierung des Schemas (UML Notation)
116
6 Datenbanken und Wissensreprasentation
Sclbsttcst 6.6 Noticren Sic in UML-Notation: Eine anatom ische Loka lisation hat als Attribu t ei nen Sno rncd-Codc. Das
Herz ist eine anatornische Region. Teile des Herzens (im Sinne anatomischer Substrukturen) sind der linkc und der rcch tc Vorhof und die linkc und die rechte Herzkam mcr. Eine Kardit is hat die Loka lisat ion
Herz,
6.6.3 Objektorientierte Datenbanken - Persistenz und Retrieval Die dauerhafte Verfligbarkeit (Persistenz) von Daten und einen strukturierten Zugriff auf diese muss ein Datenbankmanagmentsystem auch fur objektorientierte Datenbanken sicherstellen. In relationalen Datenbanken werden Datensatze (records) in die Tabellen eingetragen, urn sie persistent zu machen, oder dort geloscht. Auch in objektorientierten Datenbanken konnen Objekte dezidiert als persistente Objekte eingeftigt werden. In diesem Faile ist das Objekt per Deklaration persistent. Dariiber hinaus besteht aber auch die Moglichkeit, Objekte an bereits persistente Objekte anzuhangen (genauer: eine Referenz von einem persistenten Objekt auf eine weiteres anzulegen). Auch solche Objekte sind persistent, allerdings in Abhangigkeit vom referenzierenden Objekt. Diese Art der Persistenz wird auch Persisten: durch Erreichbarkeit genannt. Alle Objekte, die sich tiber Referenzen von einem dezidiert persistenten Objekt aus erreichen lassen, sind in diesem Sinne ebenfalls persistent. Wird nun jede Verkntipfung eines Datenbankobjekts mit einem anderen persistenten Objekt geloscht und ist dieses nicht selbst dezidiert als persistent eingefligt worden, so ist es zwar unter Umstanden noch fiir einige Zeit in der Datenbank vorhanden, kann aber jederzeit durch sogenannte garbage collection geloscht werden. Eine garbage collection entfernt global alle nicht mehr referenzierten und nicht per Deklaration persistenten Objekte. Ahnlich verhalt es sich beim kontrollierten Zugriff auf Datenbankobjekte: Mit der Object Query Language (OQL) existiert ein Industriestandard fur eine strukturierte Abfragesprache, der dem SQL-Standard in der Welt der relationalen Systeme entspricht. Neben der Abfragesprache gibt es aber auch die Moglichkeit, die Referenzen zwischen den Objekten zu nutzen, urn ausgehend von einem Objekt gezielt weitere angebundene Objekte aufzusuchen. Diese Art des Retrievals entspricht ganz den Bewegungen eines Lesers in einem Hypertextdokument, der dort tiber Verweise von Seite zu Seite gelangt. Ein solches Objekt-Retrieval wird deshalb auch als Navigation bezeichnet.
6.6.4 Objektrelationale Datenbanken AbschlieSend noch ein eher praktisch orientierter Nachtrag: Eine Zwischenstellung zwischen dem relationalen und dem objektorientierten Ansatz nehmen die objektrelationalen Datenbanksysteme ein. Eine objektrelationale Datenbank besteht wie eine relationale aus einer Menge von Relationen (Tabellen). Zusatzlich kann aber fur ein Tupel (d. h. eine Tabellenzeile) eine Art Objektidentitdt deklariert werden, d. h. die Moglichkeit, die Zeile selbst unabhangig von ihren aktuellen Werten dauerhaft und eindeutig identifizieren zu konnen. Abstrakte Datentypen vertreten die Stel-
6.6 Objektorientierte Datenmodelle
117
Ie der Klassen, erlauben also eine Deklaration inhaltlich zusarnmengehoriger komplexwertiger Attribute. Die Einfuhrung von stored procedures erlaubt die Ausflihrung komplexer Datenverarbeitungsschritte unter der Regie des Datenbankmanagementsystems. Die stored procedures sind allerdings unabhangiger von den Daten als die Methoden, die in objektorientierten Datenbanken direkt den Objekten bzw. deren Klassen zugeordnet sind. Die Bedeutung objektrelationaler Ansatze liegt darin, dass die einflussreichsten und am Markt bestens positionierten Datenbankhersteller inzwischen objektrelationale Systeme anbieten und dass die Integration objektrelationaler Ansatze in vorhandene relationale Datenbestande vergleichsweise leichter zu bewerkstelligen ist, als eine Migration einer relationalen Datenbank in eine rein objektorientierte.
6.6.5 Grenzen: Schemaverifikation und Inferenz Die Frage nach der logischen Konsistenz eines Datenbankschemas wurde bereits angesprochen. Eine soIehe Konsistenzprlifung ist insbesondere bei umfangreichen Schemata mit generischen Beziehungen (d. h. mit dem Is-a-Beziehungstyp) wichtig, da den Datenbankentwicklern dort Unstimmigkeiten leicht entgehen konnen. Wie oben beschrieben ist ein Erfiillbarkeitstest ein geeignetes Mittel, die Schemakonsistenz zu uberpriifen, geht aber tiber die Standardfunktionalitat von Datenbanksystemen deutlich hinaus und verwendet Methoden der logikbasierten Wissenverarbeitung. Als weiteres Feld, in dem Datenbanktechniken und Wissensverarbeitung ineinander iibergehen, erwiesen sich rekursive Anfragen an Datenbanken und regelbasierte Schlussfolgerungen aus Datenbankeninhalten. Erst die Einflihrung logikbasierter Abfragesprachen, wie insbesondere Datalog, stattet relationale Datenbanksysteme mit einer Schlussfolgerungsfahigkeit im engeren Sinn aus. Der aus Effizienzgrunden gewahlte Horn-Kalkiil schrankt dabei die Ausdrucksstarke auch dieser Ansatze ein. Die Prinzipien objektortientierter Datenbanken und insbesondere der objektorientierten Modellierung eines Weltausschnitts wurden in den vorausgehenden Abschnitten ebenfalls skizziert. Wie im Faile der relationalen Datenbanken wurde dabei nicht die Perspektive der Datenbanktheorie oder die der technischen Implementierung von Datenbankmanagementsystemen eingenommen. Stattdessen wurde der Modellierungsaspekt betont. Es bestehen in diesem Bereich groBe Uberschneidungen zu etablierten Wissensreprasentationsformaten und selbstAkquisitionsmethodologien. Der objektorientierte Ansatz eignet sich hervorragend, Sachverhalte innerhalb eines relevanten Weltausschnitts in ein Modell zu uberfuhren. Zu den Starken aus Sicht der Wissensmodellierung gehort, dass solche Modelle groBe Nahe zu menschlichen Begriffsbildungen aufweisen. Fachexperten konnen Objekte ihres Fachbereichs identifizieren, deren Eigenschaften beschreiben, Objekte zu Klassen zusammenfassen und klassenspezifische Methoden benennen. Insbesondere in der Medizin sind tiefe Klassenhierarchien ein wichtiges Strukturierungsmittel fUr die Konzepte oder Begriffe eines Bereichs. Teil-Ganzes-Beziehungen spielen ebenfalls eine wichtige Rolle. Urn das Bild objektorientierter Datenbanken als Form der Wissensreprasentation abzurunden, waren nun die logische Semantik objektorientierter Modelle und die Moglichkeiten einer kal-
118
6 Datenbanken und Wissensreprasentation
kiilbasierten Verarbeitung des Modellwissens zu klaren. Angesichts der recht machtigen Beschreibungsmittel einer objektorientierten Modellierung ist es nicht verwunderlich, dass sich hier Schwierigkeiten auftun. Am weitesten auf dem Weg einer formallogischen Konstruktion objektorientierter Modellierungsansatze sind die Beschreibungslogiken gekommen. Diese werden im spateren Abschnitt zu praxisrelevanten Reprasentationsformaten eingefuhrt (Abschnitt 7.4, S. 134).
7 Spezielle Reprasentationsformate und Inferenzstrategien Lernziele • Spezielle Wissen srep rasent ationsfor rnate und ihre Anwe ndung in der Medi zin kenn en • Nut zun g strategischer Komponent en wisse nsve rarbeitende r System e und ihre fachli che BegrUndung verstehen
Einleitung Formale Logiken bilden die Grundlage der symbolischen Wissensreprasentation und -verarbeitung. Ein Inferenzverfahren sollte in der Medizin nur eingesetzt werden, wenn seine logische Korrektheit und moglichst auch seine vollstandigkeit gezeigt ist. Frtthere ad-hoc-Ansatze boten keine entsprechende Garantie ihrer Zuverlassigkeit. Auch war teilweise unklar, welche Bedeutung ihre symbolischen Konstrukte hatten. In der praktischen Anwendung haben formale Logiken Nachteile. Pradikatenlogische Formeln direkt zur Eingabe eines umfangreichen Wissensmodells zu verwenden, ist muhsam, fehleranfallig und erfordert hohen Einarbeitungsaufwand. Die Syntax ist sehr f1exibel. Das ist vorteilhaft fiir die Ausdrucksstarke. FUr die Pflege einer Wissensbasis kann es sehr nachteilig sein: Die Verwendung vieler unterschiedlicher syntaktischer Konstrukte machen eine Wissensbasis unubersichtlich. Die Vollstandigkeit erfasster Sachverhalte des Anwendungsgebiets, mogliche inhaltlich fehlerhafte Schlussfolgerungen oder gar Modellierungsfehler lassen sich nicht oder nur mit grofster Muhe detektieren. Repriisentationsformate solien gegen diese Probleme helfen. Sie stell en eine begrenzte Auswahl an Bausteinen fUr ein Wissensmodell zur VerfUgung. FUr jeden Baustein ist festgelegt, wie er in eine formale Logik zu iibersetzen ist. Reprasentationsformate sind also praktische Stellvertreter fur Ausdriicke einer formalen Logik. Die Ausdrucksmittel sind begrenzt und iiberschaubar, In der Regel sind die verwendetem Symbole leichter zu erlernen und besser zu le sen, als die logische Syntax. Rcprascntationsformatc reduzieren oft die Ausdrucksmachtigkcit: Nicht alles, was in der zugrundeliegenden formalen Logik notiert werden kann, lasst sich auch mit dem neuen Format ausdriicken. Beispiel 7.1 Das wohl bekannteste Reprasentationsformat ist die Regel. Eine regelbasierte Wissensbasis beschrankt die Eingabe von Sachverhalten auf regelhafte Zusammenhangc. Regeln geben - fast wie ein Formular - eine
120
7 Spezielle Reprasentationsformate und Inferenzstrategien
Form fur das Wissen vor, das erfasst wird: Die Vorgabe erzwingt die Angabe von Voraussetzungen und die Angabe einer Folge. Diese Folge tritt dann ein, wenn aIle Voraussetzungen erftillt sind. Die Verwendung solcher stereotypen Bausteine erleichtert die Erfassung von Wissensinhalten: Es ist erstens den Fachexperten intuitiv klar, was ein regelhafter Zusammenhang bedeutet; sie konnen daher versuchen ihr Wissen in diese Form zu bringen. Es gibt zweitens kein Problem mit einer komplizierten Syntax, die VOl' del' Wissenseingabe zu lernen ware. Auf del' Basis des Regelformats kann z. B. eine graphische Benutzeroberflache mit formularahnlichen Eingabemasken implementiert werden. Das Regelformat hat Nachteile, die durch wieder andere Reprasentationsformate vermieden werden: Regeln konnen zu »spaghetticode-artigen« Wissensbasen fuhren. Sachverhalte, die ein bestimmtes Objekt betreffen sind dann als Regeln, die sich wechselseitig zur Voraussetzungen haben, an vollig verschieden Orten del' Wissensbasis angelegt.
Praxisrelevant sind VOl' allem die folgenden Reprasentationsformate: • • • • •
Entscheidungsbaume Regeln Semantische Netze Objektorientierte bzw. framebasierte Formate Kombinierte Ansatze aus objektorientiertem Format und Regeln, wobei die Wissenbasis in unterschiedliche Bereiche fur diese Formate gegliedert ist.
Im Folgenden sollen die Grundlagen diesel' Formate beschrieben werden.
7.1 Entscheidungstafeln und -diagramme Mediziner nutzen Diagramme oder tabellarische Zusammenstellungen, urn komplexe Kriterien abzufragen oder Entscheidungen systematisch zu treffen. In del' Medizin sind solche Entscheidungsdiagramme unter unterschiedlichen Namen bekannt: z. B. »Algorithmus«, »Flowchart«, »Entscheidungbaum«. Manche diesel' Diagramme modellieren zusatzlich zu Entscheidungen auch Vorgange. Sie enthalten dann zeitliche Aspekte. Darum soil es an dieser Stelle nicht gehen. Entscheidungsdiagramme, die keine zeitlichen Aspekte enthaIten, sondern Kriterien ftir eine Entscheidung abfragen, lassen sich auf logische Entscheidungsbaume zuriickfuhren. Diese sind ein einfaches und wirkungsvolles Reprasentationsformat fur Wissen.
7.1.1 Entscheidungstafeln Ein Schritt auf dem Weg zur Systematisierung von Entscheidungen besteht darin, die Einzelkriterien zu sammeln, die zu Entscheidungen fiihren. Solche Einrelkriterien (microdecisions) sind (nach [vM97]): 1. Bedingungen der Form x C wird zerIegt in {A ----> C,B ----> C}. Die Regelbank ist als Konjunktion aller enthaltenen Regeln aufzufassen: deshalb flihrt eine solche Ersetzung zu einer logisch aquivalenten Regelbank. Regeln sind fiexibler als Entscheidungsbiiume oder Entscheidungstabellen. Jeder Entscheidungsbaum lasst sich aber problemlos in eine aquivalente Regelbank iibersetzen. Die zu einem Entscheidungsbaum aquivalente Regelmenge erhalt man so: FUrjeden Entscheidungsweg, der in einem Entscheidungsbaum von der Wurzel bis zu einem Blatt fuhrt, wird eine Regel erzeugt. AIle auf dem Weg »passierten« Werte fur Entscheidungskriterien bilden die Konjunktion im Bedingungsteil der Regel, das Entscheidungsergebnis (Blatt) wird zur Folge (»dann« -Teil). Kompakte Entscheidungsbaume fuhren dabei zu kiirzeren Regeln und kleineren Regelmengen. Es lohnt sich also, zunachst kompakte Baume zu konstruieren. 7.2.1.2 Verallgemeinerter Modus Ponens
Die bekannteste Methode, urn aus einer Regelbank Schlussfolgerungen zu generieren, ist der Modus Ponens. Eine Schlussfolgerung im Modus Ponens entspricht der folgenden Argumentationsstrategie: »Wir wissen, dass irnmer, wenn A der Fall ist, auch B der Fall ist. Nun ist klar, dass A vorIiegt. Also muss auch B der Fall sein.«. Formal Iiegt hier die folgende korrekte Schlussfigur vor: Der Modus Ponens ist seit der Antike als formale Schlussfigur bekannt (genutzt wird er vermutlich schon sehr viel langer). Das vielleicht prominenteste Beispiel fur einen Schluss im Modus Ponens ist der Satz »AIle Menschen sind sterblich, Sokrates ist ein Mensch, also ist Sokrates sterblich«. Allerdings ist die Schlussfigur hierbei modifiziert: Die Regel wird ja in allgemeiner Form vorgegeben ( »Alle Menschen ...« ) und dann auf den besonderen Fall angewendet. Geeignete pradikatenlogische Ausdriicke fur die Pramissen sind: Mensch(I)(Sokrates) und \/x: Mensch(1) (x) ----> Sterblich(l)(x)
Will man die anfangs verwendete einfache Form des Modus Ponens nutzen, dann ist die allgemeine Regel \/x : Mensch(1) (x) ----> Sterblich(l) (x) fur den Speziaifall zu formulieren: Mensch(1) (50krates) ----> Sterblich(1) (Sokrates). Das Binden der Variablen sorgt daftir, dass aus der allgemeinen Regel eine Einzelfallregel wird. Ziel des Ersetzens von Variablen ist es, die Bedingungen
7.2 Regeln
127
der Regel mit den gegebenen Pramissen in Ubereinstimmung zu bringen. Danach erst ergibt die Anwendung der einfachen Schlussfigur das Ergebnis Sterbl ich (1) (Sokrates). Bereits bei der Einfuhrung der Resolutionsmethode in Abschnitt 4.7.2.2 (S. 61) spielte die Unifikation pradikatenlogischer Ausdrlicke eine wichtige Rolle. Beim verallgemeinerten Modus Ponens kommt sie wieder ins Spiel: Gibt es eine gemeinsame Substitution e unter der jeweils paarweise die Ausdrlicke 4>i, 4>[ identisch werden (symbolische Notation: SUBST( e; M = SUBST( e; 4>/)), so ist auch die folgende Schlussfigur korrekt:
Lassen sich also die 4>i durch eine geeignete Substitution in Ubereinstimmung mit den Voraussetzungen 4>[ der Regel bringen, kann die Folgerung 4>n+ 1 gezogen werden. Dabei ist aber im gefolgerten Ausdruck 4>n+ 1 diesel be Variablensubstitution zu wahlen. Als Unifikator wahlt man fur e diejenige Substitution, welche die geringsten Einschrankungen an die Variablen macht. 1m Beispiel des Sokrates besteht die Substitution einfach darin, dass die Variable x durch die Individuenkonstante Sokrates ersetzt wird urn die Ausdrlicke Sterblich (1) (Sokrates) und Sterblich(l) (x) identisch zu machen. Mithilfe des verallgemeinerten Modus Ponens lassen sich effizient Schlussfolgerungen aus einer Regelbasis ziehen. Die Regelbasis muss dazu - wie beschrieben - aus Hornklauseln bestehen. Die Effizienz wird daher erkauft durch Einschrankungen bei der Ausdruckmachtigkeit. Nicht jeder Sachverhalt lasst sich in eine Regel fassen, die ausschlieBlich positive (d. h. nicht negierte) Pramissen hat. Ein Ausdruck der Form ,a /\ f3 --+ r ist bereits bereits nicht mehr zulassig. Aus diesem Grund ist der verallgemeinerte Modus Ponens kein vollstandiger Kalkul fur die Pradikatenlogik.
7.2.2 Regelverarbeitung Ein Programm kann den generalisierten Modus Ponens auf zwei unterschiedliche Weisen als Schlussverfahren verwenden, wenn eine Regelbasis vorhanden ist und Fakten eingegeben werden (Abbildung 7.2). 1m ersten Fall (Vorwiirtsverkettung) nutzt eine Implementierung den Modus Ponens, urn ausgehend von Fakten (gegeben als Einzelaussagen, d. h. atomare Satze) unter Verwendung von Regeln weitere Sachverhalte zu erschlieJ3en. Das Programm produziert daher Aussagen. 1m zweiten Fall (Riickwiirtsverkettung) ist der Ausgangspunkt ein anderer: Hier ist eine bisher unbestatigte Aussage vorgegeben mit dem Ziel, sie zu bestatigen. Das Programm nutzt Regeln, aus denen sich diese Aussage folgern Iasst, urn notige Voraussetzungen abzuklaren. 7.2.2.1 Vorwartsverkettung Bei der Vorwiirtsverkettung (Abbildung 7.3) ist eine Menge von Aussagen vorgegeben. Diese stellen bestatigte Fakten dar. Sie konnen also als gliltig vorausgesetzt werden. Es werden nun aIle Regeln gesucht, deren Pramissen (negierte atomare Satze der Hornklausel) durch die Fakten
7 Spezielle Reprasentationsformate und Inferenzstrategien
128
~~~ - - - - - - - - - - - - - - -
Fa/fffm
Q§]
RI')
>~
~
PI' I. T('I
>~
~
CI'), Pix)
>~
~
Clx). Iq y)
>~
L
_
Abbildung 7.2: Regelbasierte Wissensverarbeitung: Ausgangspunkt sind die in der Regelbank enthaltenen Regeln und vorgegebene Einzelaussagen (Fakten).
vollstandig gegeben sind. Die aus der Regel zu folgernde Aussage (der nicht negierte Satz der Hornklausel) wird dann zur Menge der bestatigten Fakten hinzugenommen. Durch die neu zur Fakten
Alct/vlerte Reg eln
~ - - - - - - ~
1- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Folgerungen ~------- I
1 I 1 I
1 1
fTiAil-.~ 1/ '
•
~/ : ,j
I
I
I
f"TiBil-
/
L
RIA)
: 1
"" R(A)
1 1
>~
CIA)
I I I
R(B)
P(B). T(B)
1/ 1
.0
1 1
R(B)
1
> fSii)l
CIB)
1 1
1
I
Q{B), P(B) ~I'_t-:!-~-------------L-~~~~ >~ ~
1
Z(BI
_
L
:
--'
Abbildung 7.3: Vorwartsverkettung: Die Bedingungen (Pramissen) der Regeln sind aIs Blockpfeile symbolisiert, die auf den bedingten Ausdruck (atomarer Satz im »Dann-Teil« ) zeigen. Eine gerichtete Verbindunge zwischen zwei Regeln zeigt an, dass erst die Auswertung der Regel, bei der diese Verbindung startet, dazu fuhrt, dass die Bedingungen der anderen erfiiIlt sind.
Faktenmenge hinzugekommene bestatigte Aussage kann der Fall eintreten, dass eine Regel, deren Vorausssetzungen bisher nicht erfullt waren, dann doch fUr weitere Folgerungen verfUgbar wird. Die Faktenmenge wachst so lange, bis es keine Regel mehr gibt, a) fur die aile Voraussetzungen erflillt sind und b) welche neue Aussagen als Fakten bestatigt. Ist dieser Punkt erreicht, beendet sich das Verfahren. Es hat dann aile Aussagen produziert, die sich aus den gegebenen Fakten unter Anwendung der Regeln folgern lassen.
7.2 Regeln
129
7.2.2.2 Rilckwartsverkettung Die Riickwdrtsverkettung (Abbildung 7.4) geht umgekehrt von einem atomaren Satz aus, der bestatigt werden soil. Das Verfahren produziert also keine Folgerungen, sondern pruft Voraussetzungen. Gesucht werden zunachst aIle Regeln, aus denen sich - ggf. nach Substitution von Variablen - die zu priifende Aussage folgern lasst, Die Bedingungen (Pramissen) dieser Regeln miissen dann ebenfalls iiberpriift werden. Auch fur jede dieser Bedingungen wird versucht Regeln zu finden, aus denen sie sich herleiten lasst. Das Verfahren wird iteriert. Lassen sich keine Voraussetzungen mehr durch Regeln produzieren, mussen Fakten direkt bestatigt werden. Das kann durch Benutzerinteraktion geschehen oder durch Abgleich mit einer vorab eingegebenen Faktenmenge. Die Ruckwartsverkettung bestatigt oder verwirft also Behauptungen oder Hypothesen auf der Basis vorliegender Fakten. AJ 0,6
/ BSSOZfieftPathozustand
Ao=~ ) 'SSOZ'ertP'~
\
.ssoziie~e Diagnose
des Sehnervs ' \
Perimotria: Bogenformlg er
Geslchlsle ldauslall
/
verors' 1
----
( ) Gesichlsleldzerfall
assozjierte Diagnose
U
Weilwink elgl aukom
Abbi1dung 7.7: Semantisches Netz (Ausschnitt aus der CASNET Wissensbank)
als zweistelliges Priidikat auffassen. Beispielsweise wiirde bei dieser Ubersetzung eine mit »gehortZu« bezeichnete Kante zwischen den mit »Abschnitt« und »Kapitel« bezeichneten Knoten iibersetzt in den pradikatenlogischen Ausdruck gehortZu(2) (Abschnitt, Kapitel). Diese Ubersetzung ist zwar naheliegend, sie reicht aber im Aligemeinen nicht aus. Ublicherweise entsprechen den Knoten des Netzes inhaltlich gar nicht einzelne Gegenstande des Fachgebietes, sondern Begriffe (d. h. im Sinne einer extensionalen Semantik: Mengen - siehe Abschnitt 4.6.2 S.52). In den weitaus meisten semantischen Netzen treten bestimmte Arten von Kanten (s. u.) auf. Urn deren Bedeutung richtig zu erfassen, reicht ebenfaIIs die oben vorgeschlagene Ubersetzung nicht aus: • Kanten, fur generische Beziehungen: Sie reprasentieren die Beziehung eines spezielleren zu einem aligemeineren Begriff ( »Grippe ist eine Infektionskrankheit« ) • Kanten, fUr partitive Beziehungen, d. h. fur Teil-Ganzes-Beziehungen • Kanten, fur Assoziationen zwischen Begriffen (z. B.: »ist Differenzialdiagnose von« ) Bei Ubersetzungen, welche die logische Semantik solcher Netze adaquat wiedergegeben, konnen Knoten nicht langer durch Individuenkonstanten iibersetzt werden. Stattdessen iibersetzt man einen Knoten mit einem einstelligen Pradikat. Eine generische Beziehung lasst sich dann wie folgt ausdriicken: \Ix: (K;~~m(x) ---+ Kt~)(x)). Dabei ist K;:'~m der Knotenbezeichner des Aus-
7.3 Semantische Netze und Frames
133
gangsknoten und Kt~) der Knotenbezeichner der Zielknotens. Genau solche Ausdriicke entstehen auch, wenn objektorientierte oder framebasierte Reprasentationsformate pradikatenlogisch iibersetzt werden soIIen (siehe Abschnitt 7.4, S. 134 ff.). Die erste Generation semantischer Netze verwendete keinen KalkiiI. urn Folgerungen aus dem Netz zu ziehen. Abfragernoglichkeiten bestanden jeweils im Verfolgen von Verkniipfungen. Kritisiert wurde die nicht hinreichend geklarte logische Semantik dieser Netze. Es wird nach wie vor an Ansatzen gearbeitet, semantischen Netzen, welche generische und partitive Beziehungen enthalten, eine befriedigende logische Semantik zu geben und einen Kalkiil fur diese Netze zu entwickeln.
7.3.2 Objektorientierte Wissensreprasentatlon Die menschliche Wahrnehmung wird stark durch Erwartungen gesteuert: Das Schltisselloch einer neuen Tiir wird man z. B. zunachst unterhalb der Klinke suchen. Solche Erwartungen fugen sich zu Stereotypen, d. h. konstanten Mustern, die bei der Wahrnehmung vorausgesetzt werden. »Punkt, Punkt, Komma, Strich - Mondgesicht« deutet auf ein Stereotyp bei der Wahrnehmung von Gesichtern hin: Unabhangig von Farbe, Form und exakter Lage gehen wir davon aus, dass Augen Nase und Mund zu einem Gesicht dazugehoren. Eine fehlende Nase provoziert in der Regel einen Uberraschungseffekt. Das stereotype Muster gibt ein Schema fur die individueIIen Aspekte einer Wahrnehmung vor: Augenfarbe und -form, Lange der Nase, Form der Lippen etc. fassen wir als individueIIe Auspragungen aIIgemeiner Merkmale auf. Bei einem Bericht tiber eine neue Situation, reicht es oft aus, die entscheidenden Abweichungen vom Stereotyp aufzuzahlen. Zusammen mit den Erwartungen erganzen sie sich zu einem Bild, das zur Orientierung ausreicht. Ausgehend von solchen Uberlegungen schlug M. MINSKY das Konzept der Frames vor [Min75]. Frames dienen als Reprasentationsformate fur stereotype Situationen. Das Konzept weist groBe Parallelitaten zur objektorientierten Modellierung auf, die sich teils unabhangig, teils beeinflusst durch MINSKYS Ansatz entwickelte. Anders als in der objektorientierten Programmierung haben Frames keine Methoden. Abgesehen davon gibt ein Frame zunachst ein Schema von Attributen (Slots) vor - genau wie eine Klasse im objektorientierten Modell - das dann mit Attributwerten (Values) gefiillt wird. Die Prinzipien der objektorientierten ModeIIierung wurden bereits im Abschnitt zu den objektorientierten Datenbanken dargestellt (Abschnitt 6.6.2, S. 6.6.2). MINSKYS Verdienst besteht darin, die Bedeutung von Stereotypen fur die Wissensreprasentation erkannt und betont zu haben. Er beschrieb die folgenden Verwendungsmoglichkeiten von Frames: • Wiedererkennen bzw. Wiederfinden stereotyper Sachlagen • Durchfuhren von Handlungsablaufen in stereotypen Situationen • Abfrage von Merkmalen und Eigenschaften von Objekten Die objektorientierte Wissensreprasentation hat den Vorteil, deutlich strukturierter zu sein, als beispielsweise ein regelbasierter Ansatz. Eine objektorientierte Wissensbasis modeIIiert ja gera-
134
7 Spezielle Reprasentationsformate und Inferenzstrategien
de die relevanten Gegenstande und ihre Beziehungen innerhalb eines Sachgebietes. Man spricht auch davon, dass der Ansatz die Chance zu einer strukturerhaltenden Abbildung eines Sachgebietes bietet. Eine kalki.ilbasierte Wissensverarbeitung ist allerdings durch die bisher dargestellten Aspekte des Ansatzes nicht gegeben. Sie setzt voraus, dass die logische Semantik der Frames bzw. der Klassen und Objekte geklart wird. Eine solche Klarung erfolgte durch zwei Ansatze: die Default Logiken und die Beschreibungslogiken. Default Logiken erlauben die kalkulmalsige Behandlung von Normalfall und Ausnahme. Der Ansatz wurde in der medizinischen Wissensverarbeitung nicht nennenswert eingesetzt. Die Beschreibungslogiken bieten Methoden zur Konsistenzprlifung von Wissensbanken und Verfahren, die Subsumptionsbeziehung zwischen Konzepten ( »A ist alIgemeiner als B« ) zu berechnen. Sie sind praxisrelevant: Umfangreiche medizinische Klassifikationen wurden mithilfe von Beschreibungslogiken formatisiert; Beschreibungslogiken sind das formale »Arbeitspferd« der ontologiebasierten Wissensakquisition und -reprasentation, die seit Jahren eine zentrale Rolle in der Forschungsdiskussion spielt (siehe Abschnitt 11.1, S. 216).
7.4 Beschreibungslogiken Beschreibungslogiken (DL - Description Logics) schlieBen einige, bisher offengebliebene Liikken. Zur Wiederholung folgt eine Zusammenfassung der Punkte, an denen sich Hinweise auf die spatere Behandlung von Beschreibungslogiken finden: • Hinsichtlich der Datenbankschemata fur relationale Datenbanken blieb offen, wie gepriift werden kann, ob ein Schema liberhaupt eine mogliche Datenbankinstanz haben kann. Es wurde darauf hingewiesen, dass die Beantwortung dieser Frage auf einen Erfidlbarkeitstest fur die Schemadefinition hinauslauft. • Bei Entity-Relationship-Modellen stellte sich die Frage nach der logischen Semantik der Is-a-Relation. • Bei semantischen Netzen wurde darauf hingewiesen, dass es problematisch ist, den Knoten eines Netzes lediglich aIs Individuenkonstante aufzufassen. Insbesondere, urn die Semantik der unterschiedlichen Kantentypen adaquat widergeben zu konnen, ist es notig die Knoten als einstellige Prddikate zu verstehen und einer Kante zwischen den Knoten K5~;)m und Kt~) die folgende logische Semantik zu geben: Vx: (K5~~m(x) ----> Kt~)(x)). Diese Idee wird in Beschreibungslogiken weiterverfolgt. • Hinsichtlich objektorientierter Reprasentationsformate stellt sich wiederum die Frage nach der genauen Iogischen Semantik einer Klassendefinition sowie nach der Bedeutung der Vererbung und der Beziehung zwischen einer Klasse und ihren Instanzen. • Genauso, wie bei Datenbankschemata fur relationale Datenbanken, ist auch fiir solche von objektorientierten Datenbanken die Frage der Schemakonsistenz (im Sinne der Erfiillbarkeit des Schemas) wichtig.
7.4 Beschreibungslogiken
135
Beschreibungslogiken - frtiher haufiger auch unter den Bezeichnungen Terminologische Logiken oder Frame-Sprachen gefuhrt - stellen ein methodisch tragfahiges Fundament zur Behandlung dieser offenen Punkte dar. Die Familie der Beschreibungslogiken entwickelte sich sowohl aus den semantischen Netzen als auch aus der framebasierten Wissensreprasentation. Urn Missverstandnisse zu vermeiden: Die Beschreibungslogiken sind - anders als der Name suggeriert - keine prinzipiell neuen Logiken, die etwa zur Aussagenlogik oder Pradikatenlogik hinzukamen. Eine Beschreibungslogik ist ein Ausschnitt aus der Pradikatenlogik. Aus praktischen Grtinden wird eine neue Syntax eingefuhrt, die Ausdrlicke dieser Syntax lassen sich aber jederzeit und vollstandig in die pradikatenlogische Syntax tibersetzen. Allerdings konnen in Beschreibungslogiken - erkauft durch eine geringere Ausdruckstarke - Fragen algorithmisch beantwortet werden, fur die es in der Pradikatenlogik kein effizientes oder tiberhaupt kein Berechnungsverfahren gibt.
KL-ONE. In der Geschichte der Beschreibungslogiken spielte KL-ONE eine Pionierrolle. Dieser Wissensreprasentationsansatz unterscheidet zwischen einer terminologischen Ebene (T-Box) und der assertionalen Ebene (A-Box) ein. Die T-Box spielt eine analoge Rolle wie das Datenbankschema zu einer Datenbank. Sie fungiert als Schemaebene und strukturiert die A-Box durch Konzeptdefinitionen und Integritatsbedingungen vor. In der A-Box sind die individuellen Objekte eines Fachgebiets und ihre wechselseitigen Beziehungen modelliert.
7.4.1 Konzept und Rolle Ein typisches Einsatzfeld fiir eine Beschreibungslogik zeigt das folgende Beispiel:
Beispiel 7.3 Eine Wissensbasis soIl Faehwissen zu Infektionskrankheiten abbilden. Dazu gehort die Definition einer Infektionskrankheit: »Ein Infekt ist eine Erkrankung, die dureh Erreger hervorgerufen wird«, AuBerdem werden Saehverhalte zu Erregern erfasst, z. E.: »Ein Virus ist ein Erreger«, »H5NI ist ein Virus«, SehlieBlieh wird Wissen zu einzelnen Krankheiten formuliert: »Die gefahrliche Vogelgrippe wird dureh H5Nl hervorgerufen«.
Eine geeignete Beschreibungslogik kann diese Sachverhalte abbilden. In den meisten Beschreibungslogiken lasst sich algorithmisch prufen, ob eine Wissensbasis logisch konsistent (d. h. tiberhaupt erfullbar) ist. AuBerdem besteht dann die Moglichkeit aus dem obigen Beispiel zu folgern: »Die gefahrliche Vogelgrippe ist eine Infektionskrankheit«. Das einleitende Beispiel erlaubt es, die Basisbausteine von Beschreibungslogiken zu illustrieren. Die Satze »Ein Virus ist ein Erreger« und »H5NI ist ein Virus« enthalten die Begriffe »Virus«, »Erreger«, »H5NI«. In der Terminologie der Beschreibungslogiken bezeichnet man diese als Konzepte (concepts). Ein solches Konzept steht fur Klassen bzw. Mengen von Gegenstanden (die Viren, die Erreger, die Viren vom H5NI Stamm). Konzepte eignen sich zur formalen Reprasentation verschiedener bereits erwahnter »Modellbausteine«: • Entity- Typen
7 Spezielle Reprasentationsformate und Inferenzstrategien
136
• Klassen in objektorientierten Ansatzen • Knoten semantischer Netze In der Syntax von Beschreibungslogiken werden Konzepte durch einfache, mit einem GroBbuchstaben beginnende Zeichenketten (Konzeptbezeichner) symbolisiert (z. B.: Infekt, Virus, Erreger, H5Nl). Der Satz »Ein Virus ist ein Erreger« stellt fest, dass das Konzept Virus eine Spezialisierung des Konzepts Erreger ist. Jedes Virus ist auch ein Erreger. In Beschreibungslogiken driickt man diesen Sachverhalt formal so aus: Virus r;;; Erreger. Dabei tauscht die Syntax etwas dariiber hinweg, dass es sich bei einem Konzept im logischen Sinne nicht urn ein Individuum handelt. Die genaue Bedeutung des Satzes »Ein Virus ist ein Erreger« ist ja, dass alles, was als Virus bezeichnet wird, immer auch als Erreger zu bezeichnen ist. Im Sinne der Pradikatenlogik: \Ix : (virus(1) (x) ----+ erreger(1) (x)). Konzepte sind also nach ihrer logischen Bedeutung einstellige Priidikate. Deren extensionale Semantik ist eine Menge (vgl. Abschnitt 4.6.4, S. 54). Eine Rolle (role) in einer Beschreibungslogik entspricht einem zweistelligen Pradikat, Auch hierbei lasst man die Klammersymbole und die Angabe der Stelligkeit weg. Rollen treten in besonderen syntaktischen Ausdriicken auf, den Rollenrestriktionen. Die genauere Definition dieser Ausdriicke folgt unten. An dieser Stelle soli lediglich ein Beispiel gegeben werden. Beispiel 7.4 Der Satz »Eine Infektionskrankheit ist eine Erkrankung, die durch Erreger hervorgerufen wird« lasst sich in einer Deskriptionlogikwie folgt ausdrucken: Infekt C;;; Erkrankung n vhatll rsache.Erreger Der Teilausdruck VverursachtVon.Erreger ist eine Rollenrestriktion. Sie bedeutet sinngemall, dass alles, was als Ursache eines Infekts in Frage kommt vorn Typ Erreger ist (d. h. unter den Begriff Erreger fallt). Eine systematischeErIauterungder eben verwendeten Syntax geben die nachsten Abschnitte. In Beschreibungslogiken dienen bestimmte Ausdrlicke dazu, Konzepte zu beschreiben. Solche Ausdrucke heiBen Konzeptdeskriptionen Die Syntax von Beschreibungslogiken ersetzt, wie beispielhaft bereits gezeigt, pradikatenlogische Ausdriicke durch etwas pragnantere Forrnulierung. Die verschiedenen Beschreibungslogiken unterscheiden sich in der Auswahl syntaktischer Regeln (Konstruktoren) fur die Deskriptionen.
7.4.1.1 Rollenrestriktionen Neben der Konjunktion, Disjunktion oder Negation von Konzepten sind Rollenrestriktionen die wichtigsten Konstruktionselemente fur Konzeptdeskriptionen. Es gibt zwei verschiedene Typen von Rollenrestriktionen: \1- und 3-Rollenrestriktionen. Eine Rolle verkniipft jeweils Paare von Objekten. Unter Umstanden ist es charakteristisch fur ein Konzept, dass eine bestimmte Rolle aile Objekte, die unter dieses Konzept fallen ausschlieBlich mit Objekten verkniipft, welche unter ein bestimmtes anderes Konzept fallen.
7.4 Beschreibungslogiken
137
Beispiel 7.5 Als Ursache eines Infekts konncn nur Erreger fungieren. Eine derartige einschrankende Bedingung hat pradikatenlogisch die Form
Vx,y: Infekt(i)(x) /\hatUrsache(2)(x,y) --+ Erreger(i)(y) Die Menge alles dessen, was durch Erreger verursachtwird, grenzt daher den Begriffsumfang des Konzepts Infektionetwas ein. Diese Menge ist gegebendurch {xIVy: hatUrsache(2) (x,y) --+ Virus(i)(y)} Rollenrestriktionen dienen dazu, solche Mengen zu definieren. In den bisherigen Beispielen trat die v-Rollenrestriktion auf. In Veraligemeinerung der entsprechenden Beispiele haben \1Rollenrestriktionen die folgende Form: \lR:C Hierbei ist Rein RolIen- und C ein Konzeptsymbol. Die extensionale Semantik dieses Ausdrucks ist wie am Beispiel abzulesen: {x[\ly : R(2) (x,y) ----> C(i) (y)}. Eine andere Moglichkeit zur Eingrenzung eines Konzepts ist die Forderung, dass jedes seiner Objekte zu mindestens einem Objekt eines anderen Konzepts in einer bestimmten Beziehung steht.
Beispiel 7.6 Zur Falldokumentation fur einen stationaren Patienten gehorr eine Aufnahmediagnose. Diese Bedingung hat die Form Vx3y : Fall(l) (x) /\ umfasst(2) (x,y) /\ Aufnahmediagn'{' (y) Die Menge alles dessen, das durch mindestenseine Aufnahmediagnose dokumentiertwird, ist:
{xl3y : dokumentiertDurch(2) (x,y) /\ Aufnahmediagn'L' (y)} Fiir solche Rollenrestriktionen steht in Beschreibungslogiken die foIgende abktirzende Schreibweise: 3R:C Hierbei ist wieder Rein RolIen- und C ein Konzeptsymbol. Die extensionale Semantik dieses Ausdrucks ist (wie am Beispiel abzulesen): {xI3y: R(2) (x,y) /\C(1)(y)}
7.4.1.2 Konzeptdefinitionen Eine Konzeptdeskription wird aus Konzept- und Rollensymbolen sowie zulassigen Konstruktoren gebildet. Das logische Pendant zu einer Konzeptdeskription ist eine Formel mit genau einer freien Variablen. Das ist sinnvoIl, da Konzepte ja durch einstellige Pradikate reprasentiert werden sollen. Eine beschreibungslogische Definition setzt eine vorhandene Konzeptdeskription D mit einem weiteren Konzept C in Beziehung. Dabei kann deklariert werden, dass die Bedeutung von C, sprich: die Menge aller unter C fallenden Objekte, identisch ist mit der Bedeutung von D. Eine solche vollstdndige Definition wird syntaktisch abgektirzt aIs:
C=D
138
7 Spezielle Reprasentationsformate und Inferenzstrategien
5'lLC- Konstrukt
Pradikatenlogisches Pendant
Semantik
C
C(I)(x)
C Y r;;;; ~Y'
CnD
c(I) (x) 1\ c(1) (x) c(1)(x) VC(I)(x) -'C(1) (x) R(2)(x,y) Vy: (R(2) (x,y) ---+ c(1)(y)) ~y: (R(2) (x,y) 1\ c(1) (y))
(C9' n DY!) r;;;;
CUD
-,c R VR.C ~R.C
(C Y
uu
~,Y
Y ) r;;;; ~,Y
~,Y'\CY'
gY' r;;;;
~Y' X ~Y'
{x IVy: ((x,y) E RY' ---+ (y E CY'))} {xl~y: ((x,y) E gY' 1\ (y E C Y ) )}
Tabelle 7.1: Ubersicht tiber Syntax und Semantik von 5UC
Die logische Semantik dieser Definition ist: Vx: C(1)(x) ---+ D(1)(x). Stattdessen konnen auch unvollstandige Definitionen deklariert werden. Konzepte, die derart definiert werden, heiBen primitive Konzepte. Die Menge der Objekte, die unter ein primitives Konzept fallen, ist eine Teilmenge der Objektmenge der definierenden Deskription. Die Iogische Semantik ist dann: Vx: C(I)(x) ---+ D(1)(x). AIs Definition eines primitiven Konzepts verwendet man die foIgende Syntax: C~D
Eine Menge soIcher Konzeptdefinitionen bildet die T-Box einer beschreibungslogischen Wissensbank. Die Beschreibungslogik 5'lLC (Attributive Language with Complements) ist weithin bekannt und dient vielen weiteren Beschreibungslogiken aIs gemeinsame Grundlage. Die syntaktischen Bausteine der Sprache sind in Tabelle 7.4.1.2 zusammengefasst. C,D stehen flir Konzeptbezeichner oder Konzeptdeskriptionen, R ist ein Rollenbezeichner, yJ eine Interpretationsfunktion, ~,Y' Menge von Individuen des Fachgebietes und C§ die Individuenmenge, die in der Interpretation yJ unter das Konzept C fallen (C Y r;;;; ~j').
7.4.2 Beschreibungslogische Inferenzen Viele Deskriptionslogiken stellen Kalktile zur Verfugung, welche die folgenden Fragen beantworten: • 1st ein Konzept allgemeiner/spezieller als ein anderes? (Subsumptionstest) • 1st eine Konzeptdeskription erfullbar? (Erfullbarkeitsstest) Einc Dcskription D 1 ist gcnau dann alIgcmcincr aIs cine zwcitc D2, wcnn D{ r;;;;
Dr.
In den ersten beschreibungslogischen Wissensreprasentationsystemen nutzte man struktureIIe Inferenzverfahren fur den Subsumptionstest: Dabei vergleicht der AIgorithmus zwei Formeln hinsichtlich ihrer syntaktischen Struktur, urn daran abzulesen, ob ein Konzept aIIgemeiner aIs ein anderes ist. Das Hauptproblem bei diesem Ansatz ist, dass die verwendeten struktureIIen Verfahren oft nicht vollstandig sind.
7.4 Beschreibungslogiken
139
Aktuelle Systeme nutzen mehrheitlich einen anderen Weg: Sogenannte Tableau-Algorithmen priifen die Erfiillbarkeit von Konzeptdeskriptionen und fiihren den Subsumptionstest darauf zuruck. Dass es in vielen Deskriptionslogiken moglich ist, die Erfiillbarkeit algorithmisch zu tiberpriifen, ist ein entscheidender Vorteil gegeniiber der (ausdruckstarkeren) Pradikatenlogik. Was hat nun die Erfullbarkeit mit der Subsumption zu tun? Urn herauszufinden, ob eine Deskription D] allgemeiner ist als eine zweite D2 untersucht man die kombinierte Deskription:
Falls sich -,v2 UD] in keinem Modell erfiillen lasst, heiBt das, dass --- unabhangig von der jeweiligen Interpretation der Formel--- nichts, was nicht unter den Begriff D2 fallt, gleichzeitig unter den Begriff D] fallen kann. Positiv ausgedriickt: Alles, was unter den Begriff D2 fallt, muss immer auch unter den Begriff D] fallen --- und das ist genau der Fall der Subsumption (D2 ist spezieller als D]).
7.4.2.1 Tableau-Algorithmen Der Erfullbarkeitstest mittels Tableau-Algorithmen liefert einen korrekten und vollstdndigen Subsumptionstest. Fiir viele Beschreibungslogiken steht ein solcher Tableau-Algorithmus zur VerfUgung. Allerdings ist der Rechenaufwand abhangig von den syntaktischen Konstruktionen der jeweiligen Logik. Die (hier nur grab zu skizzierende) Idee hinter einem Tableau-Algorithmus ist, ein minimales Modell fur einen Ausdruck zu konstruieren. Diese minimale Modell muss aile Bedingungen erfullen, die durch die jeweilige Konzeptdeskription gegeben sind. Beispielsweise muss bei einem Ausdruck D n C mindestens ein Element in der Schnittmenge derjenigen Mengen enthalten sein, die als Interpretation von D und C dienen. Die Konstruktion erfolgt sehr anschaulich durch den Aufbau von Deskriptionsbaumen oder graphen. Ftir den Ausdruck D n C besteht der Deskriptionbaum aus einem einzigen Knoten, dem eine Menge von Knotenbezeichnern zugeordnet wird. Die Bezeichnermenge notiert Bedingungen, die an den Knoten gestellt werden (im Beispiel ergibt sich {D,C} als Bezeichnermenge). Zunachst enthalten die Bezeichnermengen u. U. noch komplexe Ausdrucke, diese werden aber durch den Algorithmus so lange zerlegt, bis am Ende nur noch einzelne elementare Konzeptbezeichner enthalten sind, die ggf. noch negiert sein konnen (,-Symbol). Trifft der Algorithmus auf eine ::3-Rollenrestriktion, so verlangert sich der Graph urn einen Knoten und eine Kante. Dieser Kante wird der entsprechende Rollenbezeichner als Kantenbeschriftung zugewiesen, dem Knoten der in der Restriktion auftretende Konzeptbezeichner. \i-Rollenrestriktion fugen u. U. zusatzliche Knotenbezeichner bei Knoten hinzu, die tiber eine passende Kanten angebunden sind. Tritt bei der Konstruktion der Fall ein, dass in der Bezeichnermenge eines Knotens derselbe Konzeptbezeichner einmal negiert und einmal unnegiert auftritt, zeigt das eine Kollision (Clash) von Bedingungen an: Das Element musste in einem Modell sowohl zu einer Menge als auch zu ihrem Komplement gehoren. Daher bedeutet ein Clash, dass die untersuchte Konzeptdeskription nicht erfullbar ist. Abbildung 7.8 zeigt die Deskriptionbaume fur die Formeln \ihat.D n::3 hat.C
7 Spezielle Reprasentationsformate und Inferenzstrategien
140
Deskription A
o I
T hat
8
{C. D}
Deskription B
~
8{C} hat •
Deskripl ion C
Clash
"'-.. macht
b {~C}
Abbildung 7.8: Deskriptionsbaume zu den Deskriptionen: Vhat .D n :Jhat .C (Deskription A), v macht ., C n :Jhat.C (Deskription B) und :Jhat. , C n :Jhat.C (Deskription C) (Deskription A), 'v' macht .-, C n :J hat.C (Deskription B) und :Jhat. -, C n :Jhat.C (Deskription C). Nur fUr den letzten Fall ergibt sich eine Kollision in den Bedingungen . Nur in einfachen Beschreibungslogiken lasst sich der Test in Polynom ialzeit durchftihren . In den meisten Fallen ist der ErfUllbarkeit stest mindesten s ein NP-hartes Probl em. Bei der An wendung in der Praxis hat sich - glUcklicherweise - herau sgestellt , dass selbst dann der Berechnungsaufwand fUrden ungun stigsten Fall in vielen umfan greichen und praxisrelevanten Wissensbasen nicht anfallt, Das liegt daran , dass die in der Wissensbasis enthaltenen Deskripti onen oft einfac h aufgebaut sind und nicht aIle theoretisch moglichen kritischen Kombinationen von Konstruktoren ausschopfen. Sowo hl Entity-Relation ship-M odelle als auc h obj ekto rientierte Schemata lassen sich in eine geeig nete Beschreibungslogik libersetze n. Abgesehen von der gege benenfalls problematischen Perform anz cles Algorithmus ist diese r Sachverhalt glinstig fUr die Verwendbarkeit von E-RMode llen bzw. von objektorientierten Moclellen zur Wissensreprasentation: • Beschreibungslogiken erlauben es, die form ale Sem antik von E-R-Modellen, semantischen Netzen und von objektorientierten Schemata anzuge ben . • Beschreibungslogiken erlauben es, ein objektorientiertes oder relationales Datenbankscherna bzw. eine entsprechend e Wissensbasis auf Schemakonsistenz d. h. auf Erfullbarkeit zu testen. In einer beschreibungslogischen Wissensbank kann man auch die Konsistenz cler A-B ox (Absch nitt 7.4 , S. 135) in Bezu g auf das in der T-Box gegebene Schema testen. Weitere Verfahren , sogenannte Nicht-Standard-Inle renzen konstruieren z. B. fUr einen in cler A-Box reprasenti erten Sac hverhalt das kleinste Konzept (Leas t Common Sub sumer), unter das dieser Sachverhalt fallt, So lasst sich bei der Wissensakqu isition aus Beispielen ein allgc mei nes konzeptuelles Schema konstruiere n.
Selhsttest 7.3 Was isl der entscheidende Nachteil vieler gangiger struktureller Subsumptionsalgorithmen gegenuber Tableau-Vcrfahren, in denen der Subsumptions- auf einen Erflillbarkeitstcst zuruckgefiihrt wird?
7.4 Beschreibungslogiken
141
7.4.3 Reprasentation medizinischer Terminologien Beschreibungslogiken eignen sich vor allem zur Reprasentation medizinischer Klassifikationen und Terminologien. Entsprechende Ansatze stellen eine Abkehr von sogenannten enumerativen Terminologien dar. Eine enumerative Terminologie ist eine Sammlung medizinischer Fachbegriffe, in der jedes Konzept ein Eintrag fur sich ist. Diese Eintrage konnen in z. B. hierarchische Beziehungen zueinander gesetzt werden, abgesehen davon aber sind sie unabhangig. Das bedeutet, dass etwa die Eintrage »Konjunktivitis« und »Bakterielle Konjuktivitis« als zwei unterschiedliche Zeichenketten behandelt werden. Mit Hilfe von Beschreibungslogiken lassen sich
Osteoporesis caused by Post-Meno-pausal Change
Fracture of Femur
Whicl, -Definition
Fracture of Femur caused by Osteoporesis caused by Post-Menopausal Change
Sanktion Ebene der Vorslellbarkeil Sanktion grammatische Ebene Sanktion fachliche Ebene
I
Subsumption per Deklaration
Subsumption per Inferenz
...
t
Which-Definition .
Konzept-Definition
Abbi1dung 7.9: Subsumption und Sanktionen bei der Reprasentation medizinischen Termino1ogien in GALEN nach [RBG+97]
142
7 SpezielleReprasentationsformate und Inferenzstrategien
stattdessen konsistente kompositionelle Terminologien definieren. Dabei geht es darum, Begriffe mittels formaler Definitionen zu konstruieren. Ein solches Vorhaben ist das europaische Verbundprojekt GALEN (Generalized Architecture for Languages, Encyclopedias, and Nomenclatures in Medicine) [RBG+97]. Ein Beispieleintrag der GALEN Terminologie ist die folgende Definition: Th roatl rritation=( Irritationfld hasS pecificLocation. OroPharynx)
GALEN verwendete ursprlinglich einen strukturellen Algorithmus zum Test auf Subsumption. Mit FaCT (Fast Classification of Terminologies) [Hor971 entstand im Umkreis des GALENProjekts jedoch dann ein auf Tableauverfahren basierendes Wissensreprasentationssystem. Im ursprlinglichen GALEN-System wurde versucht, die logische, zum Teil auch die inhaltliche Konsistenz der Wissensbasis durch einen besonderen Kontrollmechanismus zu unterstiitzen. In GALEN ist in diesem Zusammenhang von Sanktionsmechanismen die Rede. Der GALEN Wissenbasis wurde hierfur eine Mehrebenenstruktur gegeben. Konzeptdeskriptionen auf den unteren Ebenen sind nur dann zulassig, wenn eine allgemeinere Konzeptdeskriptionen auf hoherer Ebene die einzelnen Konstruktionselemente (insbesondere die verwendeten Rollenrestriktionen) sanktioniert, d. h. erlaubt. Abbildung 7.9 zeigt einen Ausschnitt aus der GALEN Wissensbasis. Eine Konzeptdeskription fur einen Bruch mit der Lokalisation Femur (Fracture n 3hatLoc.Femur) ist darin nur zulassig, weil auf der libergeordneten Ebene sanktioniert wird, dass ein Bruch als Lokalisation einen Knochen hat und weil der Femur per Deklaration ein Knochen ist. GALEN unterscheidet entsprechend der Allgemeinheit derjenigen Ebene, durch welche die Sanktionierung erfolgt, die folgenden Stufen: die allgemeine, die grammatische und die medizinisch-inhaltliche Sanktionierung, Beschreibungslogische Ausdrlicke werden auch verwendet als Ausgabeformate bei der computerlingistischen Analyse medizinischer Texte. Sie dienen dann dazu, die Semantik natiirlichsprachlicher Ausdrlicke formallogisch zu erfassen [HRS99].
Selbsttest 7.4 Formulieren Sie in ALC-Syntax die Definition von "Osteoporosis caused by Postmenopausal Change« (als Primitives Konzept), Gehcn Sic dazu von Abbildung 7.9 aus: Lcsen Sic dicjenigcn allgcmcincrcn Konzepte ab (Subsumption per Deklaration), die rnittelbaroder unmittelbar zur Definition vorauszusetzen sind. Dcfinicrcn Sic auch dicsc. Vcrwcndcn Sic (anstcllc dcr Sanktionicrung) V-Rollcnrcstriktioncn bci der Definition von Konzepten der oberen Ebenen.
7.4.4 Web Ontology Language Beschreibungslogiken haben inzwischen hohe praktische Bedeutung gewonnen. Sie spielen eine Schltissclrollc bci dcm Vcrsuch, die Bedeutung von Wcbinhaltcn maschincnlcsbar zu crschlicBcn. Darauf zielt die Initiative des Semantic Web, die maBgeblich durch den Erfinder des World Wide Web, T. BERNERS-LEE, vorangetrieben wurde. Das Semantic Web ist jedoch nur ein - allerdings prominentes - Beispiel fur das weite Feld der ontologiebasierten Wissensreprasentation und -verarbeitung. Auf Ontologien geht der Abschnitt 11.1 (S. 216 ff.) genauer ein. An dieser Stelle genligt der Hinweis darauf, dass Ontologien die
7.5 Arden Syntax
143
Begri ffe eines Fachgebiete s und ihre wechselseitigen Beziehun gen formal beschreiben. Die Ontologie so11 dabei sowohl durch Menschen verstanden und moglichst zuverlassig interpretiert werden als auch einer algorithmischen Verarbeitung zugang lich sein. Irn Kontext des Semanti c Web wurde die Ontology Web Language (OWL) eingeflihrt. OWL basiert auf XML , ist also eine Auszeichnungssprache, in der die charak teristischen Tags auftreten (vergleichbar mit HTML-Tags). Sie ist inzwischen durch das World Wide Web Consortium (W3C) als Web-Standard verabschiedet. Historisch entstand OWL aus den Ansatzen DARPA Agent Ma rkup Language (DAML) und Ontology Inference Layer (OIL). Die logische Semantik von OWL ist durch eine Beschreibun gslogik definiert. Daher konnen auch fur OWL korrekte und vollstandige Erfli11barkeits- und Subsumpti onstests berechnet werden.
7.5 Arden Syntax Die Anfang der 1990er Jahre entwickelte und durch die ASTM (America n Society for Testing and Materials) standardisierte Arden -Syntax ste11t den Versuch dar, wiederverwendbare Module zur Reprasentation medizinischen Wissens zu definieren . Die Kosten flir den Aufbau medizinischer Wissensbasen sind hoch. Die Moglichkeit , einm alig erfasstes und modular reprasentiertes Wissen zu einer neuen anwe ndungsgerechten Wissensbank zu kombini eren , verspricht deshalb hohen Nutzen. Ein zweites Ziel bei der Definition der Arden-Syntax war es, die Anbindung wissensverarbeitender Funktionalitat an Patientendat enbanken und andere klinische Datenbanken ausdriicklich zu unterstiitzen. Die Ziele, die mit der Arden-Syntax verfolgt wurden, sind hochgesteckt. Offensichtlich ist vor a11em die Modularisierung medizinischen Wissens hochst problem atisch. Am Beispiel einer Regelbasis lasst sich das leicht ablesen: Zwar enthalt eine regelbasierte Wissensbank ihre einzelnen Regeln im Sinne von Bausteinen, entfernt man aber Regeln aus der Wissensbasis, so ist die Gefahr sehr groB, dass das Gesamtverhalten des auf dieser Wissensbasis arbeitcnden EntscheidungsunterstUtzungssystems unangemessen ist. Die Regeln repras entieren erst in ihrer Kombination und relativ zur verwendeten Inferenzmethode das relevante medizinische Wissen. Basisbausteine der Arden -Syntax sind die Medical Logic Modules (kurz MLM). MLM sind framcartig strukturiert: Ein MLM enthalt eine Reihe von Attributcn (Slots), deren Auspragungen bzw. Eintrage ein konkretes Modul definieren. Die MLM-Sl ots sind in Kategorien eingeteil t: der Maintenance Category, der Library Category und der Knowledg e Category. Die Maint enance -Kategorie enthalt slots mit Angaben, die zur Pflege der Wissensbank und zur Anderungskontroll e genutzt werden. So erhalt ein MLM einen Titel, Angaben zum verantwortlichen Autor und zur Institut ion innerhalb derer das MLM entwickelt wurde, die Angabe des Erste11ungsdatums und des Freigabezustands (z. B. in Erprobung, im Routinceinsatz). In der Library-Kategorie finden sich Angaben zum Zweck des MLMs, ein erklarender Hinweis zur Funkti on und Schlagworte, die die Suche nach passenden MLM unterstiitzen. Zur Reprasentation medizinischen Wissens dienen die Slots der Knowledge-Kategorie. Der Type-Sl ot erlaubt eine genauere Spezifizierung der Art der Wissensverarbeitung durch das MLM.
144
7 Spezielle Reprasentationsformate und Inferenzstrategien
Malnt&n anee :
title:
I
InstJtutJon:
I
dale:
I I
validation:
I
author:
I I I I I Library
pUrpo se:
I
I I I I
ElI:planat io n: I
keywords: Citations:
I I Knowhl'clge
evoke :
I I I
logiC.:
I
acUon :
I
type: data:
I I I I I
end :
Abbildung 7.10: Arden-Syntax: Frame-Slot Struktur der Medical Logic Moduls (MLM)
Der evoke-Slot bezeichnet den Ausloser (Trigger) der MLM-Verarbeitung. Bei der datengetriebenen Verarbeitung ist dieser ein Eintrag oder eine Anderung in einer klinischen Datenbank. Der data-Slot definiert die Verkntipfungen des MLM mit den ins klinische Informationssystem eingebundenen Datenbanken. Auch der im Evoke-Slot eingetragene Ausloser wird hier auf konkrete Datenbankfelder bzw. -zustandsanderungen abgebildet. AuJ3erdem werden die lokalen Variablen der nachfolgend im logic-Slot gegebenen Entscheidungsregeln im data-Slot mit Datenbankfeldern verkntipft. Die Syntax der Eintrage des data-Slots orientiert sich an SQL-Abfragen. Die Arden-Syntax stellt auch Ausdrticke zur Definition von Zeitbeztigen zur Verftigung. Der logic-Slot verwendet die im data-Slot definierten Variablen in Zuweisungs-, Vergleichsund Bedingungsausdrticken. Die conclude-Anweisung entspricht der Ubergabe eines boolschen Rtickgabewertes (»wahr«, »falsch«) und ftihrt zum Ende der Verarbeitung der im logic-Slot gegebenen Anweisungen. Ist der Rtickgabewert »wahr«, so wird die im action-Slot deklarierte Anweisung durchgefiihrt - in der Regel ist das die Ausgabe einer Kurzmitteilung oder der Aufruf eines weiteren MLM. Medical Logic Modules verftigen tiber keinerlei Fahigkeiten zur Verarbeitung des enthaltenen Wissens. Die Arden-Syntax stellt (wie schon der Name sagt) lediglich eine standardisierte Syntax dar. Urn MLMs zur Wissensverarbeitung einsetzen zu konnen, mtissen Parser fur die MLM und Verarbeitungsalgorithmen fur die Slot-Eintrage der Kategorie Knowledge zusatzlich zur Verftigung stehen.
7.5 Arden Syntax
145
maintenance: title: institution: author: date: validation: library: purpose: explanation:
keywords: citations: knowledge: type: data:
evoke: logic: action:
Penizillin Allergie ;; Universitatsklinikum GieBen " Dr. H.U.Prokosch, Dr. G. Hripcsak " 20.8.1993 ;; testing ;;
Oberprufung auf eine Penizillin Allergie ;; Diese MLM wird aktiviert, wenn ein PenizillinPraparat verordnet wird. Falls der Patient eine Penizillin- Allergie hat, wird eine Warnung ausgegeben ;; Penizillin; Allergie ;;
data-driven ;; Penizillin_Verordnung := event{ Arzneiverordnung where Wirkstoff Penicillin}; Penizillin_Allergie :~ read last {select Allergie from Allergie_Tab where Wirkstoff_Klasse = Penizillin}; ;; Penizillin-Verordnung ;; if exist (Penizillin_Allergie) then conclude true; endif; ;; write "Achtung Patient hat Penizillin-Allergie" "
end:
Abbildung 7.11: Arden-Syntax: Beispiel fur ein Medical Logic Modul (MLM) nach [PWKD94]
Eintrage der data-Slots werden durch diese zusatzlichen Systemkomponenten vorverarbeitet und z. B. als SQL-Anfragen an klinische Datenbankmanagementsysteme weitergereicht. Die Resultate der Datenbankanfragen werden den entsprechenden lokalen Variablen zugewiesen. Die Eintrage der logic-Slots werden im Sinne einer Programmiersprache interpretiert (unter Umstanden auch vorkompiliert) und abgearbeitet. In einen logic-Slot konnen kurze Testanweisungen, aber eben auch langere Programme eingetragen werden. Spates tens dann ist die gewahlte Form der Wissensreprasentation nicht mehr deklarativ, sondern prozessural mit allen Nachteilen, die das fur die Transparenz und die Wartbarkeit der Wissensbasis hat. Es ist zwar klar, was die Eintrage des logic-Slots bewirken, wenn sie als Programm auf die verschiedenen moglichen Eingabedaten angesetzt werden (d. h. der logic-Slot hat eine geklarte operationale Semantik). Weit weniger klar ist, was das Programm im Sinne der Modellierung medizinischen Wissens bedeutet (d. h. die logische Semantik der logic-Slots ist unter Umstanden ungeklart). Eine weitere Schwierigkeit, die mit der Arden-Syntax verbunden ist, ist die Frage, ob die angestrebte Modularisierung und Wiederverwendbarkeit einzelner Module tatsachlich erreichbar ist: Problematisch ist die jeweilige Anpassung der data-Slot Eintrage an die in einer anderen Umgebung verfugbaren Datenquellen ebenso, wie die separate Verwendung von MLM, die in ihrem action-Slot den Aufruf anderer MLM auslosen.
146
7 Spezielle Reprasentationsformate und Inferenzstrategien
Die Arden-Syntax hat sich in der klinischen Routine nicht flachendeckend etablieren konnen. Nach wie vor sehr aktuell sind aber die Zielsetzungen, bei denen die Spezifikation der ArdenSyntax begann: die Modularisierung wissensverarbeitender Funktionalitat, die Wiederverwendbarkeit und die Integration in das klinische Informationssystem.
7.6 Systemarchitektur und Strategiekompontenten Inferenzkomponenten wissensbasierter Systeme operationalisieren einen logischen Kalkiil. Ein Kalktil dient der Generierung logischer Folgerungen aus einer Wissensbank und einer gegebenen formal reprasentierten Faktenmenge. Abgesehen davon, dass Inferenzkomponenten Ableitungsstrategien wie die Vorwarts- oder Ruckwartsverkettung nutzen, legt eine Inferenzkomponente kein inhaltlich motiviertes Vorgehen bei der Problemlosung fest. Auf der anderen Seite ist bei der Losung medizinischer Probleme oft ein Vorgehen sinnvoll, das inhaltlichen Gesichtspunkten folgt. Beispiel 7.7 Zu den diagnostischen Kriterien einer Erkrankung konnen Symptome zahlen, die im Rahmen der Anamnese erhoben werden, auBerdem aber auch Befunde, die mitte1s aufwandiger und gegebenenfalls sogar risikobehafteter Untersuchungen erhoben werden. Im Sinne der Logik einer diagnostischen Abklarung kommt es auf die Reihenfo1ge der Eingabe entsprechender Daten nicht an. Fur den Patienten kann es aber entscheidend sein, dass zunachst nur die Symptome erhoben werden und erst sparer die weiteren Untersuchungen durchgefuhrt werden. Andererseits kann ein bereits bestehender Verdacht auf eine bestimmte Erkrankung es notig machen, dass Untersuchungen vorgezogen werden, urn moglichen Gefahren rechtzeitig begegnen zu konnen.
r-------------------------------------------------~
Graphische Benutzerschniltstelle
Akquisitionskomponenl e
_ _11_ Slralegisches Modul
-
Erklarungsmodul
_ _I Inferenzkomponente
Wissensbank
L
_
Abbi1dung 7.12: Komponenten eines medizinischen Expertensystems
Solche Vorgehensstrategien sind medizinisch motiviert. Soli ein wissensverarbeitendes System sie unterstiitzen, so ist es notig, strategisches Wissen eigens zu operationalisieren und wahrend
7.6 Systemarchitektur und Strategiekompontenten
147
der Wissensverarbeitung zu nutzen. Medizinische wissensbasierte Systeme wurden daher teilweise mit einer Strategiekomponente ausgestattet, die von Wissensbasis, Inferenzkomponente oder Erklarungskornponente unterschieden ist und speziell die Unterstlitzung inhaltlich motivierter Praferenzen flir das Vorgehen bei der Problemlosung iibernimmt. Eine Systemarchitektur fiir ein medizinisches Expertensystem, das explizit die Nutzung von Vorgehensstrategien ermoglicht zeigt im Uberblick Abbildung 7.12.
7.6.1 Strategisches Wissen in Med1 Das Expertensystem Medl wurde 1983 entwickelt, urn die Diagnostik solcher Erkrankungen zu unterstlitzen, die Brustschmerz als Leitsymptom haben. Ein Dialog mit dem System beginnt bei Ubersichtsfragen. Die gegebenen Antworten werden durch vorwartsverkettende Regelverarbeitung ausgewertet und gegebenenfalls durch zusatzliche Fragen erganzt. Am Ende dieses Schrittes steht eine Menge von Verdachtsdiagnosen. Wahrend der Verdachtsgenerierung werden Hinweise auf das positive Vorliegen oder den Ausschluss der Diagnose quantitativ nach einem Punktesystem bewertet. Dieses Vorgehen erlaubt es, die erzeugten Verdachtsdiagnosen nach positivem Gewicht zu ordnen. Die am hochsten bewertete Hypothese dient in einem zweiten Schritt der
Anfangsbeschwerden
Standarduntersuchungen
Anforderung zusatzficher Symptome
Verdachtsgenerierung
Verdachtsuberprufunq
Differentialdiagnostik
Abbildung 7.13: Diagnostische KontroIIstrategie nach [Pup91] Problemlosung als Ausgangspunkt fur eine weitere diagnostische Abklarung. In die Bewertung gehen auBer den Gewichten aus der Herieitung auch zusatzliche Gewichte ein, die die besondere Gefahrlichkeit einzelner Diagnosen reprasentieren, welche dann mit hoherer Prioritat weiterverarbeitet werden. Die diagnostischen Abklarung der ausgewahlten Verdachtsdiagnose erfolgt mittels riickwartsverkettender Regelverarbeitung. In diesern Schritt werden potentiell aIle Bedingungen fur die Verdachtsdiagnose gepriift und ggf. abgefragt. Da das schnell aufwandig werden kann und im FaIle
148
7 Spezielle Reprasentationsformate und Inferenzstrategien
der Ablehnung der Verdachtsdiagnose daher unglinstig ware, wird immer nach der Abarbeitung bestimmter Rege1gruppen mit der dann verfligbaren zusatzlichen Information eine Neubewertung von Verdachtsdiagnosen vorgenommen und unter Umstanden eine andere Verdachtsdiagnose zum Ausgangspunkt der riickwartsverkettenden Abklarung genommen. Die Strategie des diagnostischen Vorgehens, auf der dieser Systemansatz basiert, zeigt im Uberblick die fo1gende Abbildung.
Selbsttest 7.5 Was sind die zwci Hauptzielc, die dureh die Eint1ihrung der Arden-Sy ntax vcrfolgt wurde n?
Selbsttest 7.6 Wodureh w ird in Med I die Erhebung yon Sympt omen/B efunde n cingcs chrankt?
Hinweise zur weiteren Lektiire Balzert, H.: Lehrbuch der Software Technik. Spektrum Akademischer Verlag, Heidelberg, 1996. Das Lehrbuch eignet sich insgesamt ausgesprochen gut als Grundlage zum Selbststudium. FUr den vorliegenden Buchabschnitt relevant sind die Abschnitte Basiskonzepte 2 (Einflihrung in die EntityRelationship-Modcllicrung), Basiskonzepte 3 (zu Grundbegriffen der Objektorientierung), Datenbanken, Relationale Datenbanken, Objektorientierte Datenbanken und OOD (Objektorientiertes Design).
Balzert, H.: Lehrbuch der Objektmodellierung: Analyse und Entwurf. Spektrum Akademischer Verlag, Heidelberg 1999. Auch das Lehrbuch der Objektmodellierung eignet sich durch seine klare Darstellung sehr gut zurn Selbststudium. Es ist eine sinnvolle Erganzung der Abschnitte zur objektorientierten Wissenreprasentation und zu objektorientierten Datenbanken.
Bibel, W., Holldobler, S., Schaub, T.: Wissensreprasentation und Inferenz: Eine grundlegende Einflihrung. Vieweg- Verlag, Braunschweig, 1993. Dieses Buch fuhrt gut lesbar und umfassend in das Gebiet der Wissensreprasentation und in die klassischen Reprasentationsformate ein.
Han, 1., Kamber, M.: Data Mining - Concepts and Techniques. Morgan Kaufmann Publishers, San Francisco, 2001. Das Buch beschreibt die Grundkonzepte des Data Minings ausfuhrlich und gut verstandlich. FUreine auch formal etwas tiefer gehende Beschaftigung mit dem Thema ist es nur bedingt geeignet.
Heuer, A.: Objektorientierte Datenbanken - Konzepte, Modelle, Standards und Systeme. Addison-Wesley, Reading MA, Bonn, 1997. Kemper, A., Eickler, A.: Datenbanksysteme - Eine Einflihrung. Oldenburg-Verlag, Mimchen, 1999.
Hinweise zur weiteren Lektiire
149
Beide Biicher bieten umfassende Einblicke in die theoretischen und praktischen Grundlagen relationaler und objektorientierter Datenbanksysteme.
Russel, S., Norvig, P: Klinstliche Intelligenz - ein moderner Ansatz (2. Aufl.), Pearson Studium,~linchen,2004.
Russel, S., Norvig, P.: Artificial Intelligence - A Modern Approach (2nd Ed.). Prentice Hall International Editions, London, 2003. Die EinfUhrung in die Kiinstliche Intelligenz von RUSSEL und NORVIG wurde bereits am Ende des ersten Buchabschnitts empfohlen. Dieser Text eignet sich auch zur Begleitung des vorliegenden Abschnitts sehr gut, da er insbesondere die gangigen Reprasentationsformate ausfuhrlich beschreibt.
Schnabel, M: Expertensysteme in der Medizin - Eine Einflihrung mit Beispielen, Gustav Fischer, Stuttgart, 1996. Auch auf das Buch von SCHNABEL wurde bereits im ersten Buchabschnitt hingewiesen. Relevant im inhaltlichen Rahmen dieses zweiten Buchabschnitts sind die Kapitel zu den klassischen Reprasentationsansatzen fur medizinisches Wissen.
Teil III Entscheidungsunterstiitzung unter Unsicherheit
8 Verarbeitung unsicheren medizinischen Wissens Lernziele • Ursachc und Tragwcitc von Unsichcrhcit und Unscharfc im mcdizin ischc n Wisscn cinschatzen • Mathcmatischc Bchandlun g von Wahrschcinlich kcit vcrstchcn • Ansatz, Starken und Schwachen wichtiger Meth oden zum algorithmischen Umgang mit unsch arfem bzw. unsicherem Wissen kennen
8.1 Unsicheres Wissen in der Medizin Medizinisches Wissen ist oft unschiirfer oder unsicherer als technisches oder mathematisches Wissen. Das erschwert seine rechnergestiitzte Reprasentation und Verarbeitung. Hauptgriinde fur diese Schwierigkeiten sind die Kornplexitat biomedizinischer Prozesse und die Individualitat der Patienten. Die Medizin hat spezielle begriffliche Instrumente geschaffen, die versuchen, dem Gegenstandsbereich gerecht zu werden. Dieses Instrumentarium weist eine charakteristische Unscharfe auf.
Beispiel 8.1 Der folgende Text geht von typischen Beschreibungsmerkmalen fur einen Krankheitsverlauf aus, nennt dann aber sofort untypische Ausnahmen: Abweichend von diesemtypischen Krankheitsverlauf gibt es jedoch immer wiederSubarachnoidalblutungen, nach denen sich kein Meningismus einstellt unddie PatientenauBer plotzlichen Kopfschmerzen kein weiteres Krankheitsgefiihl haben. (zitiert nach lPoe72J, S. 244» Aus Patientensicht kommt es auBerdem bei Krankheits- oder Heilungsprozessen weniger auf die messbaren physiologischen oder pathophysiologischen Parameter an. Den Patienten geht es vielmehr urn die Auswirkungen auf ihre Lebensqualitat, Neben einer (moglichst exakten) Definition von Diagnosen auf der Basis pathologischer und pathophysiologischer Kriterien ist daher auch die Krankheitsphdnomenologie wichtig. Sie beschreibt, wie Krankheitsprozesse in Erscheinung treten und von Arzt und Patient wahrgenommen werden. Weitere Quellen von Unsicherheit ergeben sich aus der praktischen VerfUgbarkeit von Informationen und Wissen im klinischen Arbeitsalltag. Diese Aspekte haben zwar nichts mit prinzipiellen Kennzeichen medizinischen Wissens zu tun, ihre Auswirkungen sind aber dennoch durchschlagend und oft unvermeidlich:
154
8 Verarbeitung unsicheren medizinischen Wissens
• Zum Zeitpunkt einer medizinisch notwendigen Entscheidung liegen klinische Daten und Befunde manchmal noch nicht vollstandig vor. Unter Umstanden wurden sogar fehlerhafte Daten erhoben. • Auch nach dem aktuellen Stand der Wissenschaft sind viele biomedizinischen Vorgange nicht vollstandig verstanden, entsprechendes Grundlagenwissen ist dann nicht verftigbar, • Medizinisches Wissen wird standig aktualisiert (wie bereits erwahnt: Die biographische Datenbank Medline zahlt derzeit 2.000-4.000 neue Fachartikel pro Tag). Medizinische Verantwortungstrager haben - auch angesichts des Zeitdrucks in der klinischen Routine - Schwierigkeiten, ihr Wissen systematisch auf dem aktuellen Stand zu halten. Dadurch kann es dazu kommen, dass neues und altes Wissen inkonsistent vermischt werden. Die rechnerbasierte Reprasentation und Verarbeitung medizinischen Wissens steht daher vor der Aufgabe, Methoden fur den Umgang mit Unsicherheit und Unschiirfe zu nutzen. Speziell fur die medizinische Wissensreprasentation entstanden die Gewissheitsfaktoren und die DempsterShafer-Theorie. Bekannte allgemeine Ansatze sind die Fuzzy Logic und die Rough Sets. Und schlieBlich bieten die Wahrscheinlichkeitstheorie oder Modallogiken einen mathematisch soliden Rahmen fur den Umgang mit Unsicherheit.
8.2 Certainty-Faktoren Einer der ersten Ansatze zum Umgang mit unsicherem medizinischen Wissen waren die Gewissheitsfaktoren (certainty factors). Der Ansatz entstand im Rahmen des MYCIN-Projekts [Sho76], also bereits fur eines der fruhen klassischen Expertensysteme in der Medizin. Er wurde sparer verallgemeinert [DHN97]. Ausgangspunkt der Gewissheitsfaktoren sind Regeln. Medizinisches Wissen wird zunachst in Form regelhafter Zusammenhange reprasentiert, Diese sind aber zu starr, urn Unsicherheiten angemessen abzubilden.
Beispiel 8.2 »Wenn ein Organismus gramnegativ ist und stabformig ist und anaerob ist, dann ist er ein Bakteroid«. Diese Regel gibt den tatsachlichen medizinischen Sachverhalt nicht angemessen wieder, denn nicht immer ist ein gramnegativer, stabformiger und anaerober Organismus auch ein Bakteroid.
Deshalb fugten die Entwickler von MYCIN jeder Regel einen Wert y aus dem Intervall [- I , I] hinzu: den Gewissheitsfaktor. Der Gewissheitsfaktor einer Regel bewertet, wie stark sich die Gewissheit fur die Konklusion (Dann-Teil) der Regel erhoht oder erniedrigt, wenn die Prarnissen (Wenn-Teil) der Regel zutreffen. Positive Gewissheitsfaktoren erhohen die angenommene Gewissheit, negative verringern sie. 1m Folgenden symbolisiert Y(p >C) den zu einer Regel P ----> C gehorigen Gewissheitsfaktor. Innerhalb des Intervalls [-1,1] besteht freie Auswahl fur die Gewissheitsfaktoren: Sie unterliegen keinen weiteren formal en Konsistenzbedingungen - inhaltlich soIl die Wissensbasis naturlich die medizinischen Sachverhalte angemessen abbilden. Y(p~C)
+ Y(p~~C)
E [-1; 1]
insb. erlaubt:
-I- 1
(8.1 )
8.2 Certainty-Faktoren
155
Aueh einzelne Aussagen (Fakten) erhalten Gewissheitsfaktoren (Notation: Y(A»)' Diese driicken aus, mit welcher Sieherheit man annimmt, dass der entspreehende Saehverhalt zutrifft.
8.2.1 MYCIN Propagationsverfahren FUr MYCIN wurden Propagationsverfahren implementiert. Deren Ziel ist es, eine resultierende Gewissheit von Folgerungen zu bereehnen. Dazu definiert man die folgende Bewertung fur Sehlussfolgerungen im Modus Ponens: 1st Y(P) der Gewissheitsfaktor fur die Pramissen und Y(P--+C) der Gewissheitsfaktor der verwendeten Regel, so bezeiehne Y(C!P) die Gewissheit dafur, dass C vorliegt, wenn P mit der Gewissheit Y(P) vorliegt. Y(C!P) := max(O, Y(P») . Y(P--+C)
Der Maximum-Term sorgt dafur, dass sieh bei einer negativen Gewissheit der Pramisse der Gewissheitsfaktor dureh die Sehlussfolgerung nieht erniedrigt. Diese Festlegung erfolgt in Analogie zu dem logisehen Prinzip »ex falsum quodlibet (aus Falsehem kann Beliebiges gefolgert werden)«, das aueh Normierung der Subjunktion (Absehnitt 4.4.2, S. 38 ff.) zu Grunde liegt (false ---+ true ist true). Was nun noeh fehlt, sind Kombinationsregeln fur zusammengesetzte logisehe Ausdriicke, die in der Pramisse einer Regel auftreten konnen. AuBerdem ist noeh zu definieren, was im Fane mehrerer Regeln gesehehen soli, die denselben »Dann-Teil« haben. Die folgende Auflistung enthalt aile Definitionen, die MYCIN fur die Propagation von Gewissheitsfaktoren trifft: Y(E jI\E2)
min( Y(E j)' y(E2»)
y(EjVE2)
max(Y(Ej ) ' y(E2») Y(P--+C) . max(O, Y(P»)
Y(C!P) Y(C!Pj,.,P,,)
y(C!Pj "p',-j) EEl Y(C!P,,- Il
Der letzte Fall, die so genannte parallele Kombination von Regeln, ergibt sieh, wenn mehrere Regeln ausgehend von versehiedenen Voraussetzungen (beispielsweise PI ,P2) die selbe Folge C implizieren. Wenn also z. B. die Regelbasis die Regeln PI ---+ C und P2 ---+ C enthalt, Dureh rekursive Anwendung der Definition lassen sieh langere Pramissenkombinationen auflosen, bis nur noeh Ausdriicke der Form y(C!Pi) auf der reehten Seite stehen. Die EEl-Verknupfung ' von Gewissheitsfaktoren ist dabei wie folgt definiert:
YI8Y2 Yl8Y2
YI + Y2 - Yl . Y2 .fur YI , Y2 ::0- 0
(8.2)
Yl +Y2+Yl'Y2 ,fUrYl,Y2 B und B ----> A enthalt. Ohne spezielle Absprache ist ein solcher Fall vollkommen zulassig. Fiir die Verarbeitung von Gewissheitsfaktoren ist er dagegen libel: Bei unkritischer Anwendung des Propagationsverfahrens ergibt sich eine Rlickkopplung, die die Werte der Gewissheitsfaktoren fiir die Folgerungen immer weiter erhoht. Expertensysteme wie MYCIN umgehen die angesprochenen Schwierigkeiten durch Einschrankungen fiir zulassige Regeln. So arbeitet MYCIN auf der Grundiage diagnostischer Regeln (aus Symptomen folgen Diagnosen) und vermeidet auf diese Weise »zyklische« Regelstrukturen. Bei Regelbasen, die weniger stark eingeschrankt sind, kann es demgegenliber zu volligen Fehleinschatzungen der Gewissheit von Sachverhalten durch das System kommen. Die Verwendung von Gewissheitsfaktoren bei der Implementierung wissensverarbeitender Systeme in der Medizin wird daher inzwischen als wenig ratsam beurteilt.
8.3 Dempster-Shafer Evidenztheorie
157
8.3 Dempster-Shafer Evidenztheorie Wahrscheinlichkeitsbewertungen von Ereignissen sind stets so vorzunehmen, dass sich die Wahrscheinlichkeit p(A) eines Ereignisses A und die Wahrscheinlichkeit p( ,A) seines Gegenteils (Komplements) zu I erganzen. Es ist also davon auszugehen, dass entweder das Ereignis oder sein Gegenteil mit Gewissheit eintritt. Vages oder unvollstandiges Wissen ftihrt bei subjektiven Bewertungen zu einem abweichenden Bild: Hierbei kann es durchaus sinnvoll sein, bei einer anstehenden Alternative beiden moglichen Ergebnissen gleichermaBen niedrige Plausibilitat zuzuschreiben - dann namlich, wenn sich fur beide Falle nicht genug stiitzende Indizien finden lassen. Die Dempster-Shafer-Evidenztheorie schafft hier Abhilfe, indem sie fur subjektive Evidenzbewertungen die Bedingung p(A) + p( ,A) = ersetzt.
°
Ausgangspunkt der Dempster-Shafer-Theorie ist eine Menge 0:= {AI, ... ,A n } von Alternativen, die in einer gegebenen Situation moglich sind. 0 heiBt auch der Aussagenbereich. Zu denken ist hierbei etwa an eine Menge moglicher Diagnosen, die eine gegebene Symptomatik erklaren. Die Menge 0 wird als vollstdndig und disjunkt vorausgesetzt. AuBer den gegebenen Alternativen sollen also keine weiteren in Frage kommen und die Alternativen sollen sich gegenseitig ausschlieBen. In einem wahrscheinlichkeitstheoretischen Ansatz wiirden die Elemente dieser Alternativenmenge als Elementarereignisse betrachtet und diesen Elementarereignissen bestimmte Wahrscheinlichkeiten zugewiesen, wobei die Summe dieser Wahrscheinlichkeiten I ergeben muss (s. Abschnitt 8.6, S. 171). Dem Ansatz liegt damit das Konzept zugrunde, Wahrscheinlichkeitswerte direkt auf die Elementarereignisse zu verteilen, wobei die Vereinigung aller Elementarereignisse (also der Fall, dass A] oder A 2 oder ... oder An eintreten) Gewissheit beansprucht. Die Dempster-Shafer-Theorie verteilt die Bewertungen nicht auf die einzelnen Alternativen, sondern auf aIle moglichen Kombinationen von Elementen aus 0. Bewertet werden also statt der elementaren Alternativen aIle Untermengen von 0, d. h. die Elemente der Potenzmenge p(0). Der Ansatz tragt der Moglichkeit Rechnung, dass unter Umstanden die vorhandenen Indizien zwar deutlich fur eine bestimmte Untennenge von 0 sprechen, dass aber andererseits die Elemente dieser Untermenge durch die vorliegenden Indizien nicht unterschiedlich plausibel werden. Die Bewertungen werden in einem BasismaB m : p(0) ----. [0,1] fur die Alternativenmenge zusammengefasst, wobei gelten solI, dass:
m(f/J)
E
m(A)
° I
(8.3) (8.4)
AESO(0)
Die Vereinbarung, dass sich statt der Wahrscheinlichkeiten der elementaren Alternativen nun die Bewertungen aller Teilmengen von 0 zu 1 summieren soIlen, stellt einen weiteren Unterschied zur Wahrscheinlichkeitstheorie dar: Spricht ein Indiz beispielsweise gegen die Alternative A I, so wird keine erhohte Wahrscheinlichkeit jeder der iibrigen Alternativen angesetzt, sondern es kann stattdessen das Vertrauen in die komplernentaren Teilmenge {A 2 , ... ,A n } hoher bewertet werden.
158
8 Verarbeitung unsicheren medizinischen Wissens {HEP, ZIR, GAL, BK} ~::~/""',:::..::~-
.... ---{HEP, ZIR, GAL}
{HEP}
/////,,/~~
~"
---
---
---
-----
k
{HEP, ZIR, BK}
{ZIR}
{HEP, GAL, BK}
{GAL}
.
{ZIR, GAL, BK}
{BK}
Abbildung 8.1: Aussageraum - Ursachen der Cholestase (nach [GS98])
Definitionsgemaf ist auch 0 E p(0), daher kann durch die Bewertung m(0) die glob ale Unbestimmtheit in einer Situation reprasentiert werden. Je weniger die vorliegenden Indizien iiberhaupt geeignet sind, bestimmte Alternativen einzugrenzen, desto hoher kann der Wert m(0) gewahlt werden.
Beispiel 8.3 Ein Beispiel [GS981 fur einen Aussagenbereich sind die Ursachen fur eine cholestatische Gelbsucht. Die folgenden Ursachen kommen (vereinfachend!) infrage: ein Riickstau von Gallenfliissigkeit innerhalb der Leber (intrahepatische Cholestase) spezifiziert durch die Ursachen: 1) Hepatitis (im Folgenden durch HEP abgekiirzt) und 2) Zirrhose (ZIR) oder ein Riickstau auBserhalb der Leber (extrahepatische Cholestase) spezifiziert durch: 3) Gallensteine (GS) und 4) Karzinom (BK) der Bauchspeicheldriise. Die Ursachen 1-4 mogen die Menge [0, I] jedem Element des kartesischen Produkts M] x ... x M; einen MitgIiedsgrad zwischen und I zuordnet.
°
8.4 Fuzzy Logik
163
Das kartesische Produkt zweier bereits vorhandener unscharfer Mengen ist etwas vollig anderes: Hier sind bereits die Mitgliedsgrade der Elemente zu den Ausgangsmengen nicht klassisch. Bei Bildung eines verallgemeinerten kartesischen Produkts wird der Mitgliedsgrad eines Paares (bzw n-Tupels) zur Produktmenge durch die Mitgliedsgrade der einzelnen im Tupel kombinierten Elemente zu den Ausgangsmengen bestimmt. Ein geeignetes Verfahren zur Bildung des Produktmitgliedsgrades ist es, das Minimums der Einzelmitgliedsgrade zu wahlen: Definition 8.4 (Kartesisches Produkt von Fuzzy Sets) Gegeben zwei unscharfe Mengen (U, J1A), (V, J1B)' Das kartesische Produkt dieser Fuzzymengen ist eine Fuzzyrelation (UxV, J1AxB) wobei J1AxB(X,y) = min(J1A (x) ,J1B(Y))
Selbsttest 8.3 Gegeben seien die Fuzzy-Men gen SCH W ER = ({100(0.7), 110(0.8), 120(0.9)' l30(!)}) und GROSS = ({ 190(0.4),200(0.6),210(0,8),220(1 )})' Zur Notation: Ocr Mitglicdsgrad , d. h. del' Wert von u, steht hicr immer tiefgestellt und geklammert an je dem Element. Stellen Sie das kartesisehe Produk t diesel' Fuzzy Mengcn auf (Tabcllcnfonn) . Wic konnt e dieses kartesische Produkt gcnannt worden, d. h. welchc natlirliehe Bedeutun g lasst sieh del' Fuzzy Menge gebcn?
Selbsttes t 8.4 Ubcrlcgc n Sie sieh, wic aus den Elcmenten del' klassischcn Mcngcn G = pO , 80, 90, 100, 110, 120, 130} und L = { I70, I SO, 190 .200,21O.220 } e ine Fuzzy Re lation U EBE RGE W ICHT komblniert werden kann, welche die iibliehe Bedeutung widerspicge lt. Skizzieren Sie die Tabe llc del' Mitglicd sgrade quali tativ (Bereic he hoher Werre. Bereiehe niedriger Werre, Uberga nge),
8.4.1 Fuzzy Inferenz Eine vage Zugehorigkeit zu Mengen formal darzustellen, reicht nicht aus, urn unscharfes medizinisches Wissen zu verarbeiten. Wissensverarbeitung setzt voraus, dass Aussagen tiber komplexe Sachverhalte gemacht und Schlussfolgerungen gezogen werden konnen. Hierzu nutzt man die Verknupfung von Fuzzy-Relationen. Ein Blick auf das klassische Relationenprodukt dient zur Einstimmung: Fiir zwei klassische Relationen R]
~
° 1 l;g J Il' U
jf>lIl:tdJ\PWdrU JI
ell
J (Inn-nee 01owt O su)
O ....lltlI're" V I!!... &
[1
''''''''''
1 1~d!!...~~
v el.I"I
I
lU lof '¢ l1l
e
.. eOIOl'1un gs konl l"pl
Of owtCIM1i)
,.
[J ';$
DOm a 1"J CM b l ~ U
~ . G ~I# ", n l .. n d ~ O: " l oj\l url ll'
t~$(ance
~ Patho logosche fn tlla t (instance 01 owl:C1as.s)
P r (X) ~ rt'ro'
I!I, (j
Oldillk1)...~,o n"t'I' r' l
1
POlItlOICl OI$(hCEnu:. t
lit
O /o).10rT'l_'
t •
ss I
0
I'
tf'
aw l HllIlIJ .. .
~
' . rifOlICfttC'$ l + lldMdu,)t$ ] -: -'forrn-s
• For eloMS: •
GcnCMCand1ka(4IOqt'
A " sCllud l-tltlf ~l (;.I '1
I0
W\ndo.,. lICIP
II I ~ ~~~~~
Prm...tJ'JI MethOde
t1 l¢ '3 ( .~ v C I
\II
\II
\II
\II
\II
\II
\II
W
\II
F
r
F
w
W
W
f
\II
W
W
W
W
\II
F
F
\II
\II
\II
\II
f
\II
\II
\II
\II
\II
\II
f
\II
f
f
F
F
IV
F
F
\II
\II
F
W
W
F
F
F
\II
F
F
IV
Abbildung A.2: Wahrheitstafel zu Aufgabe 4.4
A
R
W W
~A
(A-->R)
(R--> ~ A)
A A(A-->R )A (R--> ~A)
(A -->B )A( R--> ~A )
F
W
F
F
F
W
F
F
F
W
F
F
F
W
W
W
W
F
W
F
F
W
W
W
F
W
Abbildung A.3: Kombinierte Wahrheitstafel zu Aufgabe 4.5
Selbsttestaufgabe 4.6 Eine Herleitungsmoglichkeit benutzt die zusatzlichen Hypothesen ,(A /\ ,D) und F. Diese werden durch Beweis durch Widerspruch (Elimination von ,) und Elimination von V deaktiviert, so dass als aktive Hypothesenmenge nur noch genau die Hypothesen der Aufgabenstellung iibrig bleiben (Abbildung A.4).
Selbsttestaufgabe 4.7 Bilden der Klauselform von ((B ((8 ---> A) ---> (,(E /\ (,D)))) Umwandeln der Subjunktionen: (((,B) VA) ---> (,(E /\ (,D)))) (,((,B) VA) V(,(E /\ (,D)))) Negationen nach innen ziehen: ((,(,B)) /\ (,A)) V ((,E) V (,(,D))) (B /\ (,A)) V (( ,E) VD)
---> A) ---> (,(E
/\ (,D)))).
249
[F]
----------------------------(-v)
F
Abbildung A.4: Losung zu Aufgabe 4.6
Bilden der konjunktiven Normalform: (BV ((~E) V D)) 1\ ((~A) V ((~E) V D)) (BV(~E) VD) 1\ ((~A) V(~E) VD) Bilden der Klauselmengen:
B, (~E),D, (~A), (~E),D
Selbsttestaufgabe 4.8 Herleitung durch Resolution von SchwereGrippe aus: (PatientHatHohesFieber 1\ PatientHatSchwerenKopfschmerz 1\ PatientHatSchwindel), ((PatientHatHohesFieber 1\ PatientHatSchwerenKopfschmerz) ---> (MeningitisV SchwerctIrippc) und (~ Meningitis) 1. Schritt: Hinzufligen der Negation derjenigen Aussage, die aus der WidersprUchlichkeit der entstehenden Formelmenge gefolgert werden soli, zur Hypothesenmenge. {(PatientHatHohesFieber 1\ PatientHatSchwerenKopfschmerz 1\ PatientHatSchwindel), ((PatientHatHohesFieber 1\ PatientHatSchwerenKopfschmerz) ---> (Meningitis V Schwerefirippe) (~ Meningitis), (~ SchwereGrippe)} 2. Klauselbildung: {(PatientHatHohesFieber 1\ PatientHatSchwerenKopfschmerz 1\ PatientHatSchwindel), (~ (PatientHatHohesFieber 1\ PatientHatSchwerenKopfschmerz) V (Meningitis V Schwerefirippe) (~Meningitis), (~Schwe reGrippe)} {(PatientHatHohesFieber 1\ PatientHatSchwerenKopfschmerz 1\ PatientHatSchwindel), (( ~ PatientHatHohesFieber V ~ PatientHatSchwerenKopfschmerz) V (MeningitisV Schwereflrippe) (~ Meningitis), (~ SchwereGrippe) } {{PatientHatHohesFieber}, {PatientHatSchwerenKopfschmerz}, {PatientHatSchwindel}, {~ PatientHatHohesFieber, ~ PatientHatSchwerenKopfschmerz, Meningitis, SchwereGrippe}, {~ Meningitis} {~Schwe reGrippe} }
250
A Losungen der Selbsttestaufgaben
3. Resolution: {{PatientHatHohesFieber}, {PatientHatSchwerenKopfschmerz}, {PatientHatSchwindeI}, {--, PatientHatHohesFieber, --, PatientHatSchwerenKopfschmerz, Meningitis, SchwereGrippe }, {--, Meningitis} {--, SchwereGrippe },{--, PatientHatSchwerenKopfschmerz, Meningitis, SchwereGrippe} } {{PatientHatHohesFieber}, {PatientHatSchwerenKopfschmerz}, {PatientHatSchwindeI}, {--, PatientHatHohesFieber, --, PatientHatSchwerenKopfschmerz, Meningitis, SchwereGrippe }, {--, Meningitis} {--, SchwereGrippe },{--, PatientHatSchwerenKopfschmerz, Meningitis, SchwereGrippe}, {Meningitis, SchwereGrip-
pel } {{PatientHatHohesFieber}, {PatientHatSchwerenKopfschmerz}, {PatientHatSchwindeI}, {--, PatientHatHohesFieber, --, PatientHatSchwerenKopfschmerz, Meningitis, SchwereGrippe }, {--, Meningitis} {--, SchwereGrippe },{--, PatientHatSchwerenKopfschmerz, Meningitis, SchwereGrippe}, {Meningitis, SchwereGrippe }, {SchwereGrippe} } {{PatientHatHohesFieber}, {PatientHatSchwerenKopfschmerz}, {PatientHatSchwindeI}, {--, PatientHatHohesFieber, --, PatientHatSchwerenKopfschmerz, Meningitis, SchwereGrippe}, {--, Meningitis} {--, SchwereGrippe },{--, PatientHatSchwerenKopfschmerz, Meningitis, SchwereGrippe }, {Meningitis, SchwereGrippe }, {SchwereGrippe}, {}} Da im letzten Schritt die leere Klausel erzeugt wurde ist die Formelmenge widerspruchlich und damit die Konklusion SchwereGrippe gezeigt.
Selbsttestaufgabe 4.9 Syntaktisch korrekte Pradikatenlogische Ausdrucke sind die Formeln (I): V'x. (V'y. (V'z. (p(3)(x,y,z) I\L(3)(x,y,z)))) und (2): p(3)(j(3)(x,g(2)(y,h(I)(z)).
Die Formel (3): V'x.(V'y.(p(2)(w,x,y,z))) ist nicht syntaktisch korrekt, weiI die Zahl der Argumente nicht mit der SteIIigkeit des Pradikats ubereinstimmt, EbenfaIIs inkorrekt ist (4): V'x. (:Jy. (l\p(I) (x)), weiI bereits I\p(I) (x) kein syntaktisch korrekter Ausdruck ist.
251
Musterlosungen zu Teil II Selbsttestaufgabe 6.1 Die fonnallogische Entsprechung einer Datenbanktabelle ist ein Pradikat dessen Stelligkeit mit der Anzahl der Tabellenspalten iibereinstimmt. Eine Tabellenzeile entspricht einer Aussage, in der jede Stelle des der Tabelle zugeordneten Pradikats mit lndividuenkonstanten besetzt ist.
Selbsttestaufgabe 6.2 Abbildung A.3 zeigt das E-R-Schema zur Aufgabe.
".