This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
An imprint of Pearson Education München • Boston • San Francisco • Harlow, England Don Mills, Ontario • Sydney • Mexico City Madrid • Amsterdam
Die Deutsche Bibliothek - CIP-Einheitsaufnahme Ein Titeldatensatz für diese Publikation ist bei Der Deutschen Bibliothek erhältlich.
»Das Beste aus meinem Leben« von Axel Hacke. Abdruck mit freundlicher Genehmigung des Autors. Erstabdruck im Süddeutsche Zeitung Magazin 12/2002.
Die Informationen in diesem Produkt werden ohne Rücksicht auf einen eventuellen Patentschutz veröffentlicht. Warennamen werden ohne Gewährleistung der freien Verwendbarkeit benutzt. Bei der Zusammenstellung von Texten und Abbildungen wurde mit größter Sorgfalt vorgegangen. Trotzdem können Fehler nicht vollständig ausgeschlossen werden. Verlag, Herausgeber und Autoren können für fehlerhafte Angaben und deren Folgen weder eine juristische Verantwortung noch irgendeine Haftung übernehmen. Für Verbesserungsvorschläge und Hinweise auf Fehler sind Verlag und Herausgeber dankbar. Alle Rechte vorbehalten, auch die der fotomechanischen Wiedergabe und der Speicherung in elektronischen Medien. Die gewerbliche Nutzung der in diesem Produkt gezeigten Modelle und Arbeiten ist nicht zulässig. Fast alle Hardware- und Softwarebezeichnungen, die in diesem Buch erwähnt werden, sind gleichzeitig auch eingetragene Warenzeichen oder sollten als solche betrachtet werden. Umwelthinweis: Dieses Buch wurde auf chlorfrei gebleichtem Papier gedruckt. Die Einschrumpffolie – zum Schutz vor Verschmutzung – ist aus umweltfreundlichem und recyclingfähigem PE-Material.
Eine kurze Einführung in HTML und weitere Web-Inhaltstypen
30
1.2.1
30
Was ist HTML?
1.2.2
Web-Formulare
37
1.2.3
Frames
38
1.2.4
Cascading Style Sheets
40
1.2.5
JavaScript
42
1.2.6
Java-Applets, Flash-Animationen, andere clientseitige Komponenten
43
1.2.7
Acrobat
44
1.2.8
Bilder, Videos und Musik
45
1.2.9
Streaming-Formate
45
1.2.10
Dynamisch generierte Seiten
46
Marketing-Aktivitäten im Internet
47
2.1
Verbindung des Web-Marketing mit anderen Maßnahmen
47
2.2
Das Internet als eigenständiges Marketing-Medium
48
5
Inhaltsverzeichnis
3
Wissenswertes zu Suchmaschinen 3.1
4
5
6
Suchmaschinen-Typen
53
3.1.1
Roboter
53
3.1.2
Verzeichnisdienste
55
3.1.3
Meta-Suchmaschinen
58
3.1.4
Spezial-Suchmaschinen
60
3.2
Die Bedeutung von Suchmaschinen für Anbieter von Web-Inhalten und eventuelle Probleme
62
3.3
Indexgrößen wichtiger Suchmaschinen
68
3.4
Wichtig: Nutzerverhalten einschätzen
73
Wie Suchmaschinen funktionieren
75
4.1
Speichern und suchen...
75
4.2
Wie Suchmaschinen eine Webseite sehen
77
4.3
Platzierung in der Ergebnisseite
80
4.4
Geschäftsmodelle der Suchmaschinenbetreiber
82
Elemente eines professionellen und suchmaschinengerechten Web-Auftritts
87
5.1
Der Domänenname
87
5.2
Dateistruktur und Benutzerführung
88
5.3
Die Webseiten
90
5.3.1
Zielsetzung
90
5.3.2
Erscheinungsbild
96
Probleme für Suchmaschinen
99
6.1
Die Zeichensatz-Problematik
100
6.2
Website nicht schnell genug verfügbar
104
6.3
Hyperlinks, die keine sind
106
6.4
Extern zuzuladende Seiteninhalte
108
6.5
Am Seitenende liegende Inhalte
109
6.6
Layers und DHTML
109
6.7
Sitemaps in Ergebnislisten
110
6.8
Mit Cookies für den Benutzer optimierte Seiten
111
6.9
Mehrsprachige Seiten
112
6.10 Index voll
6
53
113
Inhaltsverzeichnis
7
Die Website bei Suchmaschinen anmelden 7.1
8
115
Suchmaschinen über die eigene Website informieren – Submitting
115
7.1.1
Altavista
117
7.1.2
Google
120
7.1.3
Yahoo
123
7.1.4
Besonderheiten beim Open Directory Project
128
7.1.5
MetaGer
129
7.2
Submit-Dienste
130
7.3
Software
131
7.4
Maschinelles oder manuelles Submitten?
132
7.5
Die Webagentur als Submitter
133
7.6
Mehrfache Anmeldung der gleichen Website?
134
Suchmaschinen steuern
137
8.1
Ranking und Relevanz
137
8.2
Relevanzkriterien im Seitentext
137
8.3
8.2.1
Fundstellen-Relevanz
138
8.2.2
Kontext-Relevanz
139
8.2.3
Relevanz mit alt-Attributtext
139
8.2.4
Hyperlink-Relevanz
140
8.2.5
Groß-/Kleinschreibung
140
Ranking und Relevanz weiter verbessern
141
8.3.1
Domänen-, Verzeichnis- und Dateinamen
141
8.3.2
Besucher-Popularität
141
8.3.3
Link-Popularität
143
8.3.4
Änderungen an Seiten
145
8.3.5
Direct Hit
146
8.4
Meta-Tags
146
8.5
Sitemaps und Doorway-Seiten
149
8.6
Robots.txt
151
8.7
Cloaking
152
8.8
Spoofing und Spamdexing
153
8.9
Gekaufte Platzierungen
153
8.10 Übersicht über das Verhalten von Suchmaschinen
154
7
Inhaltsverzeichnis
9
Erfolgskontrolle
157
9.1
Logdateien analysieren und anpassen
157
9.1.1
Eigener Webserver
157
9.1.2
Webserver beim Provider
161
9.2
Externe Dienste: Web-Tracker
163
9.3
Ausprobieren
164
9.4
Verfügbarkeit sicherstellen und überwachen
164
10 Optimierung und Anmeldung Schritt für Schritt
167
10.1 Die Vorbereitung
167
10.2 Die Möglichkeiten
170
10.3 Der Aufwand
171
11 Ausblick: Die Suchmaschinen der Zukunft
173
11.1 Datenmengen und -strukturen
173
11.2 Neue Suchangebote
175
11.2.1
Neue Suchinhalte
175
11.2.2
Neue Benutzerschnittstellen
176
11.3 XML, RDF und das semantische Web
177
11.3.1
Dynamische Elemente, Dokumente und weitere eingebundene Dateien
178
11.3.2
XML
179
11.3.3
Die große Vision: RDF und das semantische Web
180
Anhang
183
A
Hierarchie der Platzierungs-Kriterien bei Suchmaschinen
185
B
Checkliste für Suchmaschinen-Optimierung und -Anmeldung
187
8
B.1
Vor der Anmeldung bei Suchmaschinen
187
B.2
Während der Anmeldung bei Suchmaschinen
189
B.3
Nach der Anmeldung bei Suchmaschinen
189
Inhaltsverzeichnis
C
Einige der wichtigsten Suchmaschinen in Deutschland
191
D
Hyperlinks zum Thema
195
D.1 Auf Suchmaschinen-Infos spezialisierte Web-Sites
195
E
D.2 Submit-Dienste
196
D.3 Submit-Software
196
D.4 Web-Tracker
197
D.5 Prüfen der Link-Popularität
197
D.6 Suchbegriff-Listen
197
D.7 Ermitteln häufiger Suchwort-Kombinationen
198
D.8 Permission Marketing
198
D.9 Bulk-Mail-Software/Hardware
199
D.10 Anti-Spam Verband
199
Eine eigene Suchmaschine unterhalten
201
E.1
Suchlösungen für eigene Webs
202
E.2
Die eigene Internet-Suchmaschine
205
Glossar
207
Stichwortverzeichnis
217
9
Das Beste aus meinem Leben von Axel Hacke
Manchmal verändert sich das Leben eines Menschen durch einen winzigen Zufall von einem Tag zum anderen. So ist es mir geschehen. Gestern. Auf dem Weg ins Büro kam ich am Restaurant »Roter Ochse« vorbei, das auf Kreidetafeln sein Speiseangebot bekannt gab. Und ich las: »Gulasch mit Pürre, 6 Euro«. Pürre. Ich mag seltsam veränderte Worte auf Speisekarten. Ich liebe es, wenn ich eine »Gefühlte Kalbsbrust« entdecke oder »Seeobst« statt »Meeresfrüchte« oder, wie einmal im Restaurant Giggi nahe der Piazza di Spagna in Rom, »Cannelon gefullte teigrolleni«. Nun: Pürre. Ich stellte mir vor, was »Pürre« sein könnte, wenn es nicht einfach das falsch geschriebene Wort »Püree« wäre: eine Stadt in der Türkei? Ein Fachausdruck für eine Art Rüttelsieb, das man bei der Gewinnung von Eisenerz benutzt, um Sand und Erde vom Erz zu schütteln? Ein Ausdruck der Jägersprache für das weibliche Tier einer Wildgeflügelart? Im Büro angekommen, hatte ich wenig Lust zu arbeiten, stattdessen den merkwürdigen Einfall, Pürre als Suchwort im Internet einzugeben. Natürlich kamen lauter Rezepte für Kartoffelpürre, Tomatenpürre, Apfelpürre. Aber es erschien auch die Spielstatistik einer Basketball-Begegnung zwischen den Mannschaften »Wagner« und »Colgate University« am 17. Dezember vergangenen Jahres in Hamilton, New York, und zwar weil eine Schiedsrichterin Michelle St. Puerre hieß. Auch sah ich eine japanische Seite, in der zwischen unverständlichen Zeichen der Name »Puerre Belon« stand – wahrscheinlich war Pierre Belon gemeint, den kannte ich aber nicht. Ich gab »Pierre Belon« als Suchbegriff ein und lernte, dass Belon ein französischer Naturforscher im 16. Jahrhundert war, der Aristoteles‘ Theorie, wonach die Vögel eine Art Winterschlaf hielten, verwarf und erste Beweise für den Vogelzug fand. Außerdem entdeckte ich eine Seite »seattlefools.org«, anscheinend so eine Art von Veranstaltungskalender für Seattle. Jeden-
11
Das Beste aus meinem Leben
falls wurde ein Frühlingsfest mit den Worten angekündigt, der Winterkönig habe nun lange genug unseren Himmel verdunkelt, »and now the Puerre Aeternus comes to usher in lighter days«. ...und nun wird uns der Puerre Aeternus in hellere Tage führen? Was zum Teufel ist der Puerre Aeternus?, dachte ich. Eine amerikanische Sagenfigur, die ich nicht kenne? Ich gab das Suchwort Puerre Aeternus ein, aber da kamen nur die Seattlefools wieder. Ich tippte: Aeternus. Es erschien die Website einer norwegischen Heavy-Metal-Band gleichen Namens. Es klingt lateinisch, dachte ich. Aeternus heißt ewig, aber Puerre gibt es nicht. Vielleicht ist es ein Fehler, dachte ich, und es muss nicht Puerre heißen, sondern Puer, der Knabe. Puer Aeternus, der ewige Knabe. Eine Art Frühlingssymbol vielleicht. Ich hatte die Arbeit, die im Büro zu tun war, total vergessen und war nur mit Pürre, Puerre, Puer beschäftigt. Nächster Suchbegriff: Puer Aeternus. Volltreffer!!! 493 Erwähnungen. Polnische Texte zum Beispiel: »... u którego odkrywna obraz puer aeternus, czyli Wiecznego...« Ich sah, dass es am 8. August 1999 in der Basler Stiftung für Christlich-Jüdische Projekte einen Vortrag von Nico Rubeli-Guthauser gegeben hatte. Er trug den Titel: »Puer Aeternus. Das ›ewige Kind‹ als messianische Metapher jüdischer und christlicher Glaubenswelten. Die Verwandlung eines Ideals altorientalischer Herrschaft in apokalyptische Krisentheorien sozialer Not.« Wuff! Ich fand sogar den Text des Vortrags. Aber ich verstand ihn nicht. Ich rief Seite für Seite unter meinen Stichwort auf, las, las und lernte, dass mit »puer aeternus«, dem ewigen Jungen, eine Art Peter Pan gemeint ist, der in einer Kinderwelt lebt und nicht in die Sphäre der Erwachsenen finden will. Ein unreifer Mann, oft charmant, anregend, flatterhaft liebend, genießerisch, dem Schmerz ausweichend, Verpflichtungen und Bindungen scheuend. C.G. Jung habe den Begriff verwendet, las ich. Ich las über Jung und Freud, dass sie beide den Kriminalistik-Professor Otto Gross als »puer aeternus« beschimpft hatten, Gross, bitte sehr, den Begründer der Daktyloskopie, der Wissenschaft vom Fingerabdruck. Ich stieß zu einer Betrachtung vor, in der analysiert wurde, warum Kaiser Franz Josef ein unreifer Mann war. Ich lernte viel und ging bereichert nach Hause. Ich beschloss, weniger zu arbeiten. Mich mehr zu bilden. Bin gespannt, was es morgen im »Roten Ochsen« zu essen gibt.
12
Vorwort
Das Internet begann in den sechziger Jahren als militärisches Experiment mit dem Ziel, die Kommunikation zwischen Großrechnern zu verbessern. Dann wurde es zu einer Einrichtung der Träger von Forschung und Lehre, und wieder ging es um Kommunikation, nämlich um den Wissensaustausch zwischen Studenten, Forschenden und anderen Mitarbeitern des wissenschaftlichen Betriebs. Anfang der 90er Jahre wurde es von Computer-Freaks entdeckt, die es ausgesprochen spannend fanden, mit den damals noch schmalbrüstigen Heim- und Bürocomputern die Verbindung zu Großrechnern aufzunehmen. Heute ist das Internet ein Marktplatz. Ein globaler einerseits, Angebote und Inhalte können weltweit sichtbar gemacht werden. Lokal, nischenorientiert und persönlich auf der anderen Seite – in der Vielfalt der Angebote können wir die Kommunikation auf jene konzentrieren, mit denen wir die gemeinsame Sprache und Interessen teilen oder von denen wir uns einen Vorteil erwarten. Der Marktplatz Internet ist jung genug, um noch in Bewegung zu sein und sich und seine Regeln laufend zu verändern. Dabei ist er aber auch irgendwie schon etabliert: Kein Unternehmen, dass es sich leisten könnte, hier nicht in angemessener Form präsent zu sein. Vor wenigen Jahren noch gab es Unternehmen, die es für richtig hielten, allen Mitarbeitern den Zugang zum Internet während der Arbeitszeit grundsätzlich zu verweigern. Heute dagegen gelten die Recherche im World Wide Web und die schnelle Kommunikation per E-Mail als Standardaufgaben vieler Mitarbeiter. Im Marktplatz Internet kommerziell und finanziell erfolgreich zu sein ist möglich. Es gibt Firmen, die uns das täglich beweisen. Sicher, in der letzten Zeit gab es viele Meldungen über Misserfolge und Pleiten von E-Business-Firmen. Aber lassen wir uns davon nicht täuschen: Für eine große Zahl von Unternehmen ist das Internet eine fruchtbringende Existenzgrundlage oder zumindest eine unverzichtbare Unterstützung ihres eigentlichen Geschäfts geworden. Die im Rahmen der Krise der »New Economy«
13
Vorwort
gescheiterten Unternehmen waren entweder nicht professionell genug oder gar nicht daran interessiert, das Medium erfolgreich einzusetzen – zumindest dann nicht mehr, als sie das Geld gutgläubiger Anleger in der Tasche hatten. Manche hatten vielleicht auch zu ungeduldige Anleger oder ganz einfach Pech. Für den erfolgreichen Einsatz des Marktplatzes Internet als Ort der Akquisition und Betreuung von Kunden ist weder ein extremer finanzieller Aufwand notwendig, noch muss ein exotisches Expertenwissen verfügbar sein. Allerdings muss man die speziellen Regeln des Mediums kennen und nutzen. Und man muss die Erfahrungen nutzen, die Einzelpersonen und Unternehmen in den letzten Jahren gesammelt haben. Das ist alles lernbar, und dieses Buch will Teil dieser Lernarbeit sein. Das Internet ist ein Marktplatz, wie es ihn vorher noch nicht gab. Wir können Kontakte pflegen zu Personen in der engsten Nachbarschaft, der Familie und dem Freundeskreis. Wir kommen aber auch in Kontakt mit Menschen aus anderen Ländern, Kulturkreisen und Religionen. Selbst wenn diese nicht unbedingt als Neukunden in Betracht kommen, müssen wir ihre besonderen Befindlichkeiten und auch Empfindlichkeiten berücksichtigen. Allgemein wird heute in der Wirtschaft gefordert, etwas zu entwickeln, das als cross-cultural literacy1 bezeichnet wird. Erfolg mit dem Internet setzt diese Befähigung voraus. Selbst wenn der angestrebte Neukunde in der eigenen Stadt oder sogar Straße lebt. Ein weiteres Element des Erfolgs ist die Beachtung klassischer Regeln des kaufmännischen Handelns allgemein und des Verkaufens im Besonderen. Es ist überraschend, wie viele Internet-Auftritte selbst von namhaften Unternehmen immer noch unprofessionell erscheinen und nicht erkennen lassen, zu welchem Zweck sie eigentlich erstellt worden sind. Glücklicherweise ist zwar für die meisten Firmen die Zeit vorbei, in der Unternehmens-Homepages nach Arbeit von Bastlern ausgesehen haben. Aber eine gelungene Benutzerführung, verbunden mit guter Lesbarkeit, und leichter Bedienung sind nach wie vor eher selten zu finden. Aus Sicht des Inhalts-Anbieters mag dabei besonders schmerzhaft sein, wenn ein geleisteter Aufwand für einen Inter1
14
Wörtlich: kulturübergreifender Alphabetismus, die Fähigkeit, mit Menschen, Begriffen, Ideen und Werten aus unterschiedlichen Kulturen umgehen zu können.
Vorwort
net-Auftritt nicht gerechtfertigt erscheint, weil diese von den Menschen, die Neugeschäft versprechen, gar nicht aufgesucht wird. Oder wenn sie zwar gefunden wird, aber nicht dazu beiträgt, Umsatz zu generieren. Vielleicht besteht die aktuelle Notwendigkeit auch nur darin, die Regeln des Verkaufens in diesem neuen Medium zu erkennen und zu beschreiben. So, wie dies für andere Medien erfolgt ist: Ob Sie den Verkauf im Ladengeschäft, im Außendienst, per Direct Marketing, Rundfunk und Fernsehen betrachten oder über einen der vielen anderen Wege, die uns heute zur Verfügung stehen: Für jedes dieser Medien haben Experten Bücher geschrieben, Seminare gehalten, auf Kongressen gesprochen und so einen anerkannten Stand des Wissens definiert. Dies ist für den Marktplatz Internet noch zu leisten, setzt leider auch ein gewisses Maß an softwaretechnischen Kenntnissen voraus, weil jedes Mittel und jede Lösung auch technisch umgesetzt werden muss. Sie werden dies an einigen Stellen in diesem Buch sehen. Aber keine Angst, der Umfang wird sich in engen Grenzen halten. Vielleicht kennen Sie ja auch jemanden, der sich für Sie darum kümmert. Eine besondere Bedeutung für den Erfolg im Internet haben Suchmaschinen. Es gibt sie weltweit inzwischen zu Hunderten, aber wirklich wichtig sind nur wenige. Benutzer verwenden Suchmaschinen, um Informationen zu finden, und wem es gelingt, seine Web-Adresse top unter den Ergebnissen zu platzieren, der hat echte Chancen, neue und fruchtbare Kontakte zu knüpfen. So wie bei einem herkömmlichen Marktplatz der geeignete Standort erste Grundlage des Erfolgs ist, sind es im Internet die Platzierungen in den Suchmaschinen. Die Beschäftigung mit Suchmaschinen kostet zwar nur wenig Geld, kann aber recht zeitintensiv sein. Notwendig ist zuerst, die Web-Inhalte suchmaschinengerecht einzurichten. Dazu sollte man eigene Entwicklungszeit einrechnen und sich darauf einstellen, dass es Konflikte mit anderen Forderungen an Inhalt, Aufbau und Erscheinung geben wird. Auch für die Anmeldung eines neuen URL bei Suchmaschinen sollte man sich über einen Zeitraum von mehreren Wochen immer wieder ein paar Stunden Zeit nehmen. Und man muss sich drauf einstellen, dies immer wieder tun zu müssen.
15
Vorwort
Schwerpunkt in diesem Buch werden deutsche Angebote bei Suchmaschinen und unterstützenden Diensten sein. Das Gesagte lässt sich aber leicht auf den internationalen Markt übertragen, zumal die meisten deutschen Anbieter von Suchmaschinen ohnehin auf die Datenbestände ihrer amerikanischen Mutter- oder Partnerunternehmen zurückgreifen. Ob Sie bei Fireball, Google oder Altavista auf der .de- oder .com-Seite sind, spielt also keine Rolle, dahinter steht derselbe Datenbestand. Nicht Inhalt dieses Buches sollen allgemeine Fragestellungen zu Verkauf und Marketing sein. Dass der Auftritt des Unternehmens am Marktplatz Internet die Corporate Identity, also das typische Erscheinungsbild des Unternehmens hinsichtlich Sprache, Gestaltung und Funktionalität, unterstützen muss, und dass auch sonst die anerkannten Regeln von Verkauf, Werbung und Marketing gelten, dürfte jedem Leser klar sein. Konzentrieren wir uns auf das Spezifische des Mediums Internet. Wie bereits gesagt – zur Zeit sind die wichtigsten Aktivitäten im Internet die Arbeit mit Suchmaschinen und Newslettern. Eine eher untergeordnete Rolle spielen Banner-Werbung und die unsäglichen Pop-Up-Fenster, Browserfenster, die sich ohne Zutun des Benutzers öffnen, und von diesen in der Regel als lästig betrachtet und vor der ersten Übersendung von Inhalten gleich wieder geschlossen werden. Mit weiteren Möglichkeiten des Internet wird derzeit experimentiert. Es könnte sein, dass ChatSysteme, Tele-Conferencing und Streaming Media in Zukunft eine größere Rolle im Marktplatz Internet spielen werden. Oder Suchmaschinen, die auf XML basieren. Zum heutigen Zeitpunkt sind sie eher Exoten und werden daher nur kurz beschrieben. Genaueres über die Zukunft von Suchmaschinen können Sie darüber hinaus in Kapitel 11 lesen. Dieses Buch ist aus einer Seminarunterlage entstanden und deutlich erweitert worden. Es entspricht dem Stand im Sommer 2002. Schon bald werden einige der Aussagen nicht mehr hundertprozentig stimmen, zu schnell verändern sich Gegebenheiten im Marktplatz Internet. Die Linkliste im Anhang kann vielleicht veralten, es werden neue Ideen und Konzepte entwickelt werden und bestimmt wird der Einfluss neuer Basis-Technologien, wie mobiler Datenzugriff und Breitband-Übertragung, an Bedeutung gewinnen – und im Gefolge werden neue Angebote im Internet ihren Platz finden.
16
Vorwort
Es wird Ihnen daher wohl nicht erspart bleiben, sich weiter auf dem Laufenden zu halten und auf neue Entwicklungen einzugehen. Allerdings sollten Sie das nach Lektüre dieses Buchs mit einem professionellen Hintergrund und einer geschärften Kritikfähigkeit tun können. Übrigens: In diesem Buch wird oft von der Optimierung und Anmeldung im Zusammenhang mit Web-Auftritten mit kommerziellem Hintergrund gesprochen, da wir davon ausgehen, dass vor allem bei solchen Anbietern der Wunsch nach einer höheren Platzierung besteht. Aber natürlich lässt sich das hier Gesagte genauso gut auf private oder gemeinnützige Angebote anwenden!
17
1
Begriffsklärung und kurze Einführung in HTML
Leider wird es sich in unseren Betrachtungen nicht vermeiden lassen, über einige technische Fragen zu sprechen, insbesondere in Zusammenhang mit Internet, World Wide Web und HTML.
1.1
Wichtige Begriffe
Damit Sie, der Leser, immer wissen, wovon wir, die Autoren, eigentlich sprechen, sollten wir ein paar Begriffe klären und voneinander abgrenzen, bevor wir miteinander den Marktplatz Internet betreten:
1.1.1
Das Internet
Das Internet gibt es eigentlich schon recht lange. Es ist noch vor 1970 aus einem Computernetz der US-Armee, dem ARPA-Net hervorgegangen und wurde bis zum Siegeszug des World Wide Web im wesentlichen nur für wissenschaftliche Kommunikation genutzt. Mit der Zeit bildeten sich so genannte Dienste heraus, von denen einige heute noch weitgehend unverändert genutzt werden, wie E-Mail oder Newsgroups. Wenn wir uns heute mit relativ einfach zu bedienender, dabei aber sehr leistungsfähiger Software wie Browsern und Mail-Clients im Internet bewegen, vergessen wir leicht, dass diese ersten Jahre von vergleichsweise primitiver Software geprägt waren, deren Umgang ganz spezielle Kenntnisse erforderte. Einer der Autoren selbst hatte in den 80er Jahren die Gelegenheit, über das Internet Abfragen auf eine medizinische Datenbank namens DIMDI in Auftrag zu geben. Diese Datenbank gibt es immer noch, in ihr werden Inhaltsangaben – so genannte Abstracts – von Artikeln aus medizinischen Fachzeitschriften gesammelt, die ein medizinisch Interessierter abrufen kann, um sich über
19
1 Begriffsklärung und kurze Einführung in HTML
den laufenden Stand der Forschung zu einem bestimmten Thema zu informieren; vielleicht zu einer Krankheit oder einer speziellen Therapie. Wer dann Interesse an detaillierter Information hat, könnte sich über den veröffentlichenden Verlag die entsprechende Ausgabe der Fachzeitschrift mit dem ausführlichen Artikel bestellen. Die Abfrage nur über die Abstracts kostete seinerzeit über 150 Mark, also mehr als 75 Euro, und es war damals schon ein ganz besonderes Gefühl, eine Übersicht zu Forschungsergebnissen von Instituten auf der ganzen Welt in der Hand zu halten. Heute ist es der Normalfall, Ausgaben von Datenbanken zu erhalten (zum Beispiel werden auf diesem Weg die Ergebnisseiten unserer Suchmaschinen erzeugt), wir haben uns daran gewöhnt, dass die Quellen dafür global verteilt sind, und wenn man die Kosten des Internetzugangs überhaupt auf die Ergebnisseiten umlegen will, so sprechen wir von Pfennigbeträgen. Beispiel: Ein Automobilhersteller kann seine Kunden mittels Internet über seine Fahrzeuge informieren und interaktive Lösungen anbieten, mit denen sich Farbkombinationen testen oder Probefahrten beim nächsten Händler buchen lassen.
1.1.2
Intranets
Die im World Wide Web verwendeten Technologien werden seit langem auch in vielen Unternehmen und Behörden eingesetzt, um den Mitarbeitern Informationen anzubieten und Software-Applikationen allgemein verfügbar zu machen. Man nennt ein solches internes, web-basiertes Informationsangebot Intranet, als Trägermedium nutzt es das klassische Datennetz des Unternehmens, die eingesetzte Software entspricht der des World Wide Web. Beispiel: Ein Unternehmen kann seinen Mitarbeitern im Haus Informationen, wie neue Unternehmensrichtlinien oder die Speisekarte der Kantine, anbieten. Auch hier können interaktive Applikationen verwendet werden, zum Beispiel Belegungssysteme für Besprechungsräume.
20
Wichtige Begriffe
1.1.3
Extranets
Extranets sind Web-Inhalte, die zwar über das weltweite Internet angeboten werden, die aber nur einer geschlossenen Benutzergruppe angeboten werden. Wer darauf zugreifen will, muss meist im Vorfeld Zugriffsrechte über Name und Passwort erhalten haben. Beispiel: Der Automobilhersteller könnte sein Extranet nutzen, um Werkstätten und Außendienst mit Informationen zu Ersatzteilen zu versorgen und ihnen interaktive Applikationen wie ein Bestellsystem dazu anzubieten.
1.1.4
Das World Wide Web
Das World Wide Web ist um 1991 entstanden. Es ging aus einer Anwendung namens »Web« hervor, die der Engländer Tim Berners-Lee1 seit 1989 am Forschungsinstitut CERN in Genf (Schweiz) entwickelt hatte. Das erste Web war – nach heutiger Sprechweise – also eigentlich ein Intranet, und zwar das des CERN2. Tim Berners-Lee wollte mit dem Web eine ganze Reihe von Zielen erreichen: 왘 Im Unternehmen erzeugte Informationen sollten allen Mitar-
beitern zur Verfügung stehen können. Bereits an einer Stelle vorhandene Informationen sollten nicht von einer anderen Stelle neu erzeugt werden müssen, wenn sie gebraucht werden, sondern von zentraler Stelle (dem Webserver) abrufbar sein. 왘 Wenn Mitarbeiter das Haus verlassen, sollten die Informatio-
nen weiter verfügbar bleiben. 왘 Das Web sollte unterschiedliche Rechnersysteme – vom Groß-
rechner bis zum PC (damals meist noch unter MS-DOS) – verbinden. 왘 Unterstützung multimedialer Elemente sollte helfen, Sprach-
grenzen zu überwinden. 1
2
Tim Berners-Lee ist heute am MIT (Massachusetts Institute of Technology in Cambridge, Massachusetts, USA) und leitet von dort das W3-Consortium, das oberste Steuerungs- und Normungsgremium im World Wide Web. Diese Interpretation hat Tim Berners-Lee gegenüber einem der Autoren in einem E-Mail von 1998 ausdrücklich bestätigt.
21
1 Begriffsklärung und kurze Einführung in HTML
Kaum einer weiß heute noch, dass es damals ein konkurrierendes System gab, das von seinen Erfindern, den Studenten der University of Minnesota »Gopher« (Taschenratte, ein etwa meerschweinchengroßes, unterirdisch lebendes Nagetier mit hamsterartigen Backentaschen3) genannt worden war. Auch Gopher hatte, ähnlich wie die Web-Technologien, von Anfang an multimediale Elemente und sollte verschiedene Systemplattformen überbrücken. Zum leichteren Finden der Inhalte sollte ein System aus Katalogen dienen, Gopher war damit ein sehr viel ordentlicheres System als das Web, dessen Ordnungskriterium »Hyperlink« eher anarchisch anmutet. Gopher als Tier ist sehr erfolgreich, zum Leidwesen von Gärtnern sowie Land- und Forstwirten. Dem Tier wird als Schädling, der vor allem an den Wurzelstöcken von Nutzpflanzen nagt, intensiv mit Gift und Fallen nachgestellt, es ist durch seine unterirdische Lebensweise aber nur schwer zu erreichen. Im Gegensatz dazu ist Gopher als Dienst im Internet heute bereits eine ausgestorbene Tierart. Warum hat sich Gopher nicht durchgesetzt? Anstelle der zentralen Kataloge führte das Web ein anderes Element ein, den Hyperlink, oft einfach nur als »Link« bezeichnet. Dieser ist hochgradig chaotisch. Oft weiß man nicht, wohin man geführt wird, wenn man einen Link »anklickt«. Es ist nicht einmal sicher, dass man überhaupt irgendwohin kommt, Fehlermeldungen wie »404 – File not found« (Datei nicht gefunden) kennt jeder, der das Internet nutzt. Oder die Möglichkeit, dass auf der Seite, die wir per Hyperlink erreichen wollen, die erwarteten Inhalte gar nicht mehr da sind, sondern etwas ganz anderes. Wie konnte sich der Hyperlink – ein derart anarchisches und unzuverlässiges Verfahren, um Inhalte zu finden - gegen eine Methode durchsetzen, bei der Inhalte ordentlich katalogmäßig erfasst werden? Es ist wohl die Möglichkeit für den Autor von Inhalten, diese ohne Rücksicht auf ein ordnendes System erst einmal erzeugen und über die Web-Technologie anderen anbieten zu können. Man muss niemanden um Erlaubnis fragen, es gibt keine Verpflichtung, Regeln einzuhalten, außer vielleicht den technischen Regeln von HTML, JavaScript und weiteren, die beschreiben, wie Inhalte den Browsern angeboten werden müssen. Es mag Einschränkun3
22
Eine zweite Erklärung von Gopher führt ein Wortspiel an: »Go for it« – Geh und hol es mir.
Wichtige Begriffe
gen geben, wenn man Inhalte für ein Unternehmen erzeugt, natürlich muss man gesetzliche Einschränkungen berücksichtigen, und manchmal haben auch Service-Provider (Dienstleister für den Internet-Zugang) eigene Regeln festgelegt. Das Einstellen von Inhalten setzt jedenfalls nur geringe technische Fertigkeiten voraus und anders als bei Gopher sind keine Ordnungskriterien wie Kataloge zu berücksichtigen. So führt uns dieser kleine Exkurs wieder zu unserem eigentlichen Thema zurück. Im Marktplatz Internet kann jeder mitmachen und Inhalte einstellen, die Kosten sind lächerlich niedrig, und das notwendige Wissen kann man sich in Seminaren, Büchern, Fachzeitschriften und anderen Quellen aneignen. Viele Privatleute haben inzwischen ihre eigene Homepage, Web-Inhalte werden zu Geburtsund Hochzeitstagen erstellt, und es gibt keine grundsätzlichen Beschränkungen hinsichtlich Geschlecht, Alter, Rasse oder Nationalität. Tatsächlich gibt es die Kataloge – jenes ordnende und den Benutzer führende Element in Gopher – inzwischen auch im Web wieder: Es sind die Suchmaschinen, enorme Datenbanken, die wissen, welche Wörter in vielen Millionen von Seiten vorkommen, und die in Sekundenschnelle eine Anfrage dazu beantworten können. Sie sind es, die Ordnung in den Marktplatz Internet bringen. Und vielleicht sollten wir auch zum Grundgedanken von Gopher zurückkehren, und uns von Anfang an, also schon vor der Erzeugung unserer Inhalte, darüber Gedanken machen, wie wir mit ihnen umgehen wollen.
1.1.5
Web-Technologien
Der Begriff ist nun mehrfach vorgekommen, wir sollten ihn kurz klären. Web-Technologien sind Softwarelösungen, die auf dem Internetprotokoll (IP) aufsetzen. Dazu gehören unter anderem: 왘 Web-Clients – Computer, auf denen eine spezielle Software
verwendet wird: der Webbrowser. Sie senden Aufrufe (»Requests«) an die Web-Server, nach Eingang des Response werden dessen Daten ausgewertet, HTML-Seiten werden beispielsweise dem Benutzer dargestellt.
23
1 Begriffsklärung und kurze Einführung in HTML
왘 Webserver – auch als Hosts bezeichnet. Ebenfalls Computer,
nehmen sie Requests der Benutzer an und führen sie aus, indem sie Inhalte (zum Beispiel eine HTML-Seite) an den Benutzer zurücksenden (»Response«).4 왘 http – das Hypertext Transfer Protokoll beschreibt Regeln, wie
Request und Response funktionieren. 왘 HTML – die Hypertext Markup Language beschreibt Seiten,
die vom Browser dargestellt werden, Hyperlinks sind ein typisches Element von HTML-Seiten. 왘 Hyperlinks – anklickbare Text- oder Bildbereiche. Anklicken
löst einen neuen Request auf einen Web-Server aus. 왘 Statische und dynamische Inhalte – viele HTML-Seiten sind
statisch, vergleichbar einem beschriebenen Blatt Papier oder einem in Microsoft Word erzeugten Dokument. Dynamische Inhalte werden dagegen vor dem Response vom Webserver oder danach vom Webbrowser noch verändert oder sogar überhaupt erst erzeugt. Abbildung 1.1: Clients und Server im Web
4
24
Der Begriff wird sowohl für die jeweiligen Computer verwendet wie auch für die darauf laufende Software. Nur für Experten: die Unterscheidung virtueller/physikalischer Host ignorieren wir an dieser Stelle, sie spielt für unser Thema keine Rolle.
Wichtige Begriffe
Neben HTML gibt es heute eine Vielzahl weiterer Möglichkeiten, statische oder dynamische Inhalte zu codieren. Dies kann das recht beliebte Acrobat-Dokument sein (typische Endung der Datei: .pdf). Auch Word-, Excel- und Powerpoint-Dateien und viele andere lassen sich übertragen, selbst komplette Softwarepakete mit zig Megabyte Größe werden heute über das Internet verteilt. Besonders zu nennen wäre hier noch XML, die eXtensible Markup Language, die langfristig HTML als Standard für die Seitenbeschreibung im Internet ablösen könnte. Mit XML wird ein neuer Typ von knotenbasierten und deutlich intelligenteren Suchmaschinen auf uns zukommen, die nicht nur wissen, in welchem Dokument der gesuchte Inhalt zu finden ist, sondern auch, an welchem Ort im Dokument, und die in der Lage sein werden aus passenden Fragmenten von im Web gefundenen Dokumenten neue Dokumente zu erzeugen. Dann wird es auch viele neue Dienstangebote im Internet geben, und die Suchmaschinen werden diese voneinander unterscheiden können. Aber das steht noch weit in der Zukunft – mehr darüber lesen Sie in Kapitel 11.
1.1.6
Website
Das englische Wort »Site« steht allgemein für »Stelle« oder »Platz«. In unserem Zusammenhang ist vielleicht die Bedeutung »Grundstück« am angemessensten. Ein Grundstück im Web ist eine Sammlung zusammengehörender Inhalte, die mit einer gemeinsamen Adresse (auch »URL« oder »URI« genannt) aufgerufen werden können, und zwischen denen man durch interne Hyperlinks wechseln kann. Im Grunde kann man sagen, dass ein Web einfach ein Ordner oder ein Verzeichnis ist, ähnlich wie jene, in denen Sie Dateien auf Ihrem Computer organisiert haben. Die Dateien im Web sind zumeist in HTML erstellt, wir bezeichnen sie auch als Seiten. Sie sind zusätzlich durch Hyperlinks miteinander verknüpft. Wenn dieses Web veröffentlicht worden ist und über eine Adresse im Internet erreicht werden kann, sprechen wir von einer Website. Externe Hyperlinks sind solche, die auf andere Websites führen.
25
1 Begriffsklärung und kurze Einführung in HTML
Auf dem Marktplatz Internet ist die Website so etwas wie Ihr Marktstand. Er muss gut platziert werden – da, wo der Besucherverkehr ist – und außerdem für Menschen, die ihn suchen, leicht zu finden sein.
1.1.7
URL
URL steht für »Uniform Resource Locator«, also für eine vereinheitlichte Adressbezeichnung. Ein URL ist die Adresse einer Website, die bestehen kann aus: Protokoll (://) Hostname (.) Domäne (.) Toplevel-Domäne (/) Pfad zur Datei http://www.oliverlehmann.com/index.htm Die kursiv geschriebenen Elemente sind das Minimum an Information, das im Internet notwendig ist, in einem Intranet fällt oft die Toplevel-Domäne weg. Meist haben Webserver ein Standard-Dokument, das sie an den Benutzer senden, wenn der Pfad zur Datei (also Ordner- und Dateiname) fehlen. Der Host, der die Website www.oliverlehmann.com beherbergt, hat als Standard-Dokument die Datei »index.htm« festgelegt. Dieser URL führt deshalb zum gleichen Resultat: http://www.oliverlehmann.com Außer diesem Typ von Adresse gibt es auch die Möglichkeit, mit IP-Adressen direkt zu arbeiten. Eine IP-Adresse ersetzt Hostname, Domäne und Toplevel-Domäne. Damit lässt sich diese Website auch aufrufen über http://66.40.89.206/index.htm oder http://66.40.89.206 Wir werden sehen, dass dies zu berücksichtigen ist, wenn Sie Suchmaschinen über Ihre Website und die zugehörigen Dokumente informieren.
26
Wichtige Begriffe
Gelegentlich wird statt URL (Uniform Resource Locator) auch das Kürzel URI (Uniform Resource Identifier) verwendet. Der Unterschied zwischen den beiden Begriffen soll uns in diesem Zusammenhang nicht interessieren, vereinfacht ausgedrückt ist URI einfach die neuere Bezeichnung.
1.1.8
HTML, JavaScript, Stylesheets
Gelegentlich wird in diesem Buch ein Grundwissen zu den folgenden Themen vorausgesetzt: 왘 HTML – die derzeit wichtigste Seitenbeschreibungssprache im
World Wide Web 왘 JavaScript – eine vergleichsweise leicht erlernbare Program-
miersprache, der Code wird einfach in die HTML-Seite eingefügt und vom Browser ausgeführt 왘 Cascading Style Sheets (CSS) – eine moderne Form, die Gestal-
tung einer Seite zu steuern Zu diesen Sprachen gibt es eine Menge an Literatur, Selbstlernkurse oder Seminare. Für unser Thema wird davon ausgegangen, dass die Leser diese beherrschen oder jemanden kennen, den sie fragen beziehungsweise mit der Umsetzung beauftragen können. Sie finden im zweiten Teil dieses Kapitels auch einen kurzen Überblick, da gewisse Grundkenntnisse das Gesamtverständnis sehr erleichtern können.
1.1.9
Dienste
Als Dienst bezeichnet man ein technisches Angebot im Internet, das von einem Anwender genutzt werden kann. Ein Dienst besteht aus Inhalten, das heißt einem (oder mehreren) Typen von Nachrichten oder Dateien, sowie aus Protokollen – Regeln, wie diese zu übertragen sind. Das World Wide Web ist nur einer der Dienste, die im Internet genutzt werden. Andere populäre Dienste sind: 왘 E-Mail 왘 Newsgroups 왘 Chatsysteme
27
1 Begriffsklärung und kurze Einführung in HTML
왘 Tauschbörsen 왘 Internet-Telephonie 왘 und mehr
Auch das bereits genannte »Gopher« war ein solcher Dienst. Es gibt noch weitere Dienste, die mittlerweile ausgelaufen sind oder nur noch von eingefleischten Experten genutzt werden. Es kommen auch neue Dienste hinzu. In wenigen Jahren wird es vielleicht als normal gelten, Fernsehsender über URLs zu erreichen und sich sein Programmangebot dort per Mausklick selbst zusammenzustellen. Oder in laufende Sendung selbst interaktiv einzugreifen.
1.1.10
Die Besonderheiten des Web-Dienstes
Das Besondere am Web ist die unglaubliche Vielfalt an Arten von Inhalten, die es ermöglicht: Neben in HTML oder zunehmend in XML geschriebenen Webseiten auch Multimedia, Acrobat- und Office-Dokumente, Flash-Animationen, in Java oder ActiveX geschriebene Programm-Bausteine und Streaming Media Formate5. Der Web-Dienst erlaubt eine hochgradige Automatisierung der Kommunikation mit dem Benutzer wie sonst kein anderer. WebFormulare nehmen Daten auf, die direkt an eine Software-Anwendung weitergeleitet und dort verarbeitet werden können. Bei vielen derart aufgebauten Buchungs- und Bestellsystemen nimmt kein Mitarbeiter die Wünsche des Kunden entgegen. Anfrageund Kontaktformulare dagegen haben gerade das Ziel, die Informationen einem menschlichen Bearbeiter zuzuleiten, aber auch sie beinhalten ein hohes Maß an Automatisierung. Ein weiterer Aspekt des Webs ist die Möglichkeit, bei Bedarf auf verschlüsselten Datentransport umzuschalten. Dazu muss nur der Server entsprechend eingerichtet sein. Neben den schon genannten Buchungs- und Bestellsystemen wird so beispielsweise erst Online-Banking möglich. Der Preis der Verschlüsselung sind allerdings längere Wartezeiten für den Benutzer und erhöhte Last 5
28
Hier werden keine einzelnen Dateien heruntergeladen, wie bei Webseiten, stattdessen wird ein permanenter Datenstrom übertragen, der heute bereits Web-Radio und Filme transportiert.
Wichtige Begriffe
der Ressourcen des Servers (Datenleitungen und Prozessor), so dass man Web-Inhalte oft gemischt anbietet, ein Teil wird unverschlüsselt übertragen, ein weiterer verschlüsselt, kann also auf dem Übertragungsweg von niemandem eingesehen werden. Die Tatsache, dass nur der Server für verschlüsselten Transport eingerichtet werden muss, steht im Gegensatz zum E-Mail-Dienst, bei dem Sender und Empfänger eine »digitale ID«, eine Art elektronischen Ausweis, benötigen. Benutzer, die verschlüsselte E-Mails empfangen und verarbeiten können, sind heute noch eher selten anzutreffen. Allgemein ist auch der Grad an Automatisierung im E-Mail-Dienst deutlich niedriger. Verschlüsselte Seiten werden von Suchmaschinen normalerweise nicht erfasst. Zwar wäre dies technisch möglich, der Zusatzaufwand für die Rechner, solche Inhalte zu entschlüsseln, wäre jedoch sehr hoch und würde ihre Leistungsfähigkeit drastisch reduzieren. Außerdem werden verschlüsselte Seiten meist für sehr persönliche Daten und zum Aufnehmen von Daten in WebFormularen verwendet, also für Seiten, an denen Suchmaschinen kein Interesse haben.
1.1.11
Pull- und Push-Kommunikation
Diese Begriffe werden im Marktplatz Internet verwendet, um zwei Arten der Kommunikation voneinander zu trennen: 왘 Pull-Kommunikation: Der Empfänger muss die Information
gezielt anfordern, um sie zu erhalten. Dies ist der Normalfall im World Wide Web 왘 Push-Kommunikation: Der Empfänger erhält die Information
automatisch zugesandt. E-Mail ist ein Beispiel dafür. Man könnte auch Werbebanner als Push-Kommunikation betrachten, oder die allgemein unbeliebten Popup-Fenster6. Technisch betrachtet mögen die Unterschiede eher verwischen, für uns interessant sind die Sicht und das Erleben des Benutzers.
6
beim Laden der Seite automatisch geöffnetes weiteres Browserfenster.
29
1 Begriffsklärung und kurze Einführung in HTML
1.2
Eine kurze Einführung in HTML und weitere Web-Inhaltstypen
Dieser Abschnitt richtet sich an all jene Leser, die selbst noch nicht oder nur wenig mit HTML gearbeitet haben. Um das Verständnis dieses Buches und danach das Erreichen von Top-Platzierungen in Suchmaschinen zu vereinfachen, ist es empfehlenswert, sich zumindest mit den Grundlagen von HTML und den damit verbundenen Formatierungs- und Programmiersprachen ein wenig auseinanderzusetzen. Dazu soll dieser Abschnitt dienen. Sie werden sehen, dass es im Grunde sehr simpel und gut zu verstehen ist. Das heißt nicht, dass HTML-Kenner im folgenden Teil keine für sie interessanten Informationen erhalten; wir werden immer wieder den Bezug zu unserem Thema herstellen.
1.2.1
Was ist HTML?
HTML (Hypertext Markup Language) ist eine Sprache, mit der im World Wide Web Seiten beschrieben werden können. Im Aufbau mag sie auf den ersten Blick wie eine Programmiersprache aussehen, jedoch löst sie im Unterschied zu dieser keine Ausführung von Programmen mit Schleifen, bedingten Verzweigungen und ähnlichem aus und wird deshalb als Seitenbeschreibungssprache bezeichnet. HTML wird im Textformat übertragen. Damit ist es selbst leicht zu lesen. Öffnen Sie Sie in Microsofts Internet Explorer eine beliebigen Seite und klicken Sie auf den Hintergrund mit der rechten Maustaste, wählen Sie dann aus dem Kontextmenü den Befehl »Quelltext anzeigen«. In einem weiteren Fenster öffnet sich der Windows Editor, in dem Sie HTML sehen und bearbeiten können. Ähnliche Funktionen gibt es auch in den anderen Browsern und unter anderen Betriebssystemen. Eine Seite ist eine Datei, die meist in HTML geschrieben ist. Sie kann Inhalte, wie beispielsweise Bilder einbinden, die wiederum als eigene Dateien gespeichert und übertragen werden. Aus Sicht des Benutzers sind sie allerdings Teil der aufgerufenen Seite. Um die Erstellung von Seiten für das World Wide Web und für unternehmensinterne Lösungen (»Intranets«) zu erleichtern, gibt es ein breites Angebot an spezieller Software, sogenannten
30
Eine kurze Einführung in HTML und weitere Web-Inhaltstypen
HTML-Editoren oder -Autorensystemen. Manche bevorzugen hierbei solche Editoren, in denen sie das HTML einfach »von Hand« eintippen und sich dann erst die fertige Datei im Browser ansehen. Vor allem bei nicht sonderlich komplexen Seiten kann diese Methode schneller und einfacher sein, zumindest wenn man sie beherrscht. Dann gibt es die sogenannten »WYSIWYG«-Editoren wie Macromedia Dreamweaver, Adobe GoLive oder Microsoft Frontpage. Das Kürzel steht für »What You See Is What You Get« – also in etwa »Das, was man sieht, bekommt man auch«. In diesen Editoren gibt es sowohl eine grafische Oberfläche ähnlich der in einem Grafikprogramm, in der sich zum Beispiel Bilder einfügen lassen, als auch eine HTML-Ansicht, die den generierten Code zeigt. So kann man die Seite auf beiden Ebenen bearbeiten. Aber: auch wenn es anhand von WYSIWYG-Editoren theoretisch möglich ist, Seiten ohne HTML-Kenntnisse zu erstellen, ist deren Aneignung dennoch ratsam. Nur dann kann man den Aufbau der Seite wirklich verstehen, eventuelle Fehler besser beheben und dem Auftritt den nötigen Feinschliff verpassen. HTML-Code besteht vor allem aus sogenannten Tags, die die eigentlichen Befehle darstellen und in spitzen Klammern geschrieben werden. Tags sind Anweisungen an den Browser, wie der Text dargestellt werden soll. Das Tag steht für »fett« gesetzten Text. Fett gesetzter Beispieltext
Anstelle von wäre übrigens auch zulässig. HTML interessiert sich nicht für Groß- und Kleinschreibung in seinen Codeelementen. Man sagt: HTML ist nicht case-sensitive. Es gibt auch Tags, die darstellen, welche Bedeutung der von ihnen eingeschlossene Text für die Seite hat. steht zum Beispiel für »Heading 1«, eine Überschrift der obersten Gliederungsebene: Hochrangige Überschrift
Es gibt auch Tags mit anderen Bedeutungen. Mit dem Tag <meta> werden Informationen zur Seite übermittelt, einige davon speziell für Suchmaschinen; mit dem Tag erhält die Seite einen Titel, der vom Browser in der Titelleiste (bei den meisten Browsern am oberen Fensterrand) dargestellt wird. Fast jedem Tag lassen sich innerhalb der spitzen Klammer Attribute hinzufügen, die ihn genauer definieren. Den meisten Tags müssen Inhalte gegeben werden, weshalb man mit einem Starttag
31
1 Begriffsklärung und kurze Einführung in HTML
und einem Schlusstag (dieser wird dargestellt durch einen Schrägstrich nach der ersten eckigen Klammer) einen »Container« bildet, in dem sich diese Informationen befinden. Das können auch weitere Tags sein. Zur Verbildlichung: Abbildung 1.2: Ein HTMLContainer
Tags können beliebig tief verschachtelt werden. Jede Seite beginnt – optimalerweise nach einer Definition der HTML-Version – mit dem Tag und endet mit . Dazwischen befinden sich alle weiteren Tags. Jede HTML-Seite besteht aus einem »Kopf«, in dem zusätzliche, im Browser nicht sichtbare Informationen stehen, und aus einem »Körper«, der eigentlichen Seite. Gerade für den Umgang mit Suchmaschinen ist der Kopfteil, also alles, was im xxx-Container steht, von großer Bedeutung. Hier finden sich nämlich unter anderem die bereits erwähnten Meta-Tags, anhand derer eine Seite näher bestimmt werden kann. So kann man zum Beispiel ihren Zweck, ihren Autor und wichtige Schlüsselwörter angeben. Dies kann für die Steuerung von Suchmaschinen ein sehr wichtiges Element sein (siehe auch Kapitel 8). Außerdem befindet sich der -Tag im Kopf. Die meisten dieser Tags sind freiwillig. Das Meta-Tag mit dem Attribut http-equiv, das den verwendeten Zeichensatz festlegt, und der -Tag sollten jedoch auf keinen Fall fehlen. Mehr zu Meta-Tags lesen Sie in Kapitel 8 – »Suchmaschinen steuern«. Im -Container findet der für den Benutzer sichtbare Inhalt der Seite Platz. Texte und Bilder werden meistens in Tabellen untergebracht, um sie besser anordnen zu können. Tabellen erstellt man mit dem Tag
, darin befinden sich Zeilen, die durch das
-Tag definiert werden. Was in diesen Zeilen steht, wird mit
(steht für »table data«) festgelegt. Innerhalb des
-Containers kann also zum Beispiel Text stehen, der, sofern nicht anders definiert, dann im Browser in der Standardschriftart
32
Eine kurze Einführung in HTML und weitere Web-Inhaltstypen
erscheint. Soll eine Zelle leer sein, fügt man einfach in den
Container ein ein.Die Attribute des
-Tags legen zum Beispiel fest, wie breit die Tabelle ist, und ob es einen sichtbaren Rand gibt oder nicht. Einige weitere wichtige Tags: xxxx
Alles, was in diesem Container steht, wird zentriert.
xxx
Legt mit Hilfe verschiedener Attribute fest, was mit dem in diesem Container enthaltenen Abschnitt passiert (z.B. die Ausrichtung).
Steht alleine und generiert Zeilenumbrüche.
xxx
Legt mit Hilfe verschiedener Attribute fest, was mit dem in diesem Container enthaltenen Text passiert (z.B. Schriftgröße oder -farbe). Die Standard-Schriftgröße beträgt 3.
xxx
Text, der in diesem Container steht, wird fett dargestellt.
xxx
»Paragraph« – generiert Absätze.
xxx
Generiert Hyperlinks, entweder ohne Attribut als »Anker« im selben Dokument, oder mit dem Attribut »href« auf andere Seiten innerhalb derselben Domain oder nach »draußen« auf andere Websites.
...xxx ...
In diesen Containern stehender Text wird als Überschrift angezeigt, wobei für die größte steht, für die kleinste.
Steht alleine und sorgt dafür, dass ein Bild an der Stelle eingefügt wird, wo das Tag auftaucht. Mit dem Attribut »src« wird der Pfad festgelegt, unter dem das Bild zu finden ist. Mit dem Attribut »alt« wird der Alternativtext angegeben, der immer dann angezeigt wird, wenn das Bild nicht geladen werden kann, und der außerdem in manchen Browsern erscheint, wenn man mit der Maus über das Bild fährt.
33
1 Begriffsklärung und kurze Einführung in HTML
Im folgenden ein Beispiel, wie ein solcher Quellcode aussehen kann. <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1"> <meta name="author" content="Beispielautor"> <meta name="description" content="Beispielbeschreibung"> <meta name="keywords" content="Beispiel -Keywords"> Hier steht der Titel
Überschrift
Link 1
Link 2
Link 3
Link nach draußen
Unterüberschrift
Hier steht der Text der Seite. Hier steht der Text der Seite. Hier steht der Text der Seite. Hier steht der Text der Seite. Hier steht der Text der Seite. Hier steht der Text der Seite. Hier steht der Text der Seite.
Im Browser sieht das dann so aus: Abbildung 1.3: Darstellung des Beispiel-Quellcodes im Internet Explorer 5 unter Windows 98
35
1 Begriffsklärung und kurze Einführung in HTML
Zu den -Tags sei gesagt: Die Standard-Schriftgröße beträgt 3, die Standardschrift ist – je nach Browser – meist eine Serifenschrift. Schöner und leserlicher sind jedoch serifenlose Schriften in Größe 2. Meistens werden Verdana oder Arial verwendet. Verdana hat den Vorteil, dass sie sehr breit läuft und somit noch ein wenig besser lesbar ist als zum Beispiel Arial. Übrigens sind alle Leerzeichen und Umbrüche im Code nur für die Leserlichkeit und Übersichtlichkeit da. Der Browser, der den Code nachher interpretiert, also in eine ansehnliche und gut lesbare Seite umwandelt, ignoriert sie einfach. Zumindest, sofern es sich bei einem Leerzeichen nicht um den Teil eines Textes handelt. Sie können sie also beliebig setzen. Die meisten HTML-Editoren praktizieren das ohnehin. Wichtig bei der Reihenfolge: Suchmaschinen lesen den Code einfach von oben nach unten aus und nicht etwa so, wie er im Browser dargestellt wird. Wie später noch einmal ausführlicher beschrieben, sollten für Suchmaschinen wichtige Informationen im Quelltext oben stehen – das heißt, vorne im HTML-Code. Es kann beispielsweise durchaus sein, dass ein Wort in der Browserdarstellung oben rechts steht, aber im Quelltext eher im unteren Teil. Maßgeblich für den Fundort aus Sicht der Suchmaschine ist jedenfalls immer der Fundort in der HTML-Quelltextansicht. Mehr dazu lesen Sie unter anderem in Kapitel 4. Leider ist es immer noch so, dass verschiedene Browser ein und dieselbe Seite oft unterschiedlich darstellen. Manche Browser kennen einige neuere HTML-Tags (noch) nicht oder haben zum Beispiel Probleme bei der Darstellung von Tabellenhintergründen. Gerade bei komplexeren Seiten ist es deshalb notwendig, sie sich in verschiedenen Browsern anzusehen, am besten auch gleich in verschiedenen Versionen dieser Browser. Auch das Betriebssystem spielt eine Rolle in der Darstellung, weshalb davon ebenfalls verschiedene getestet werden sollten. Wenn das jemand für ärgerlich und mühselig hält, ist dem wohl nicht zu widersprechen – leider ist es aber noch immer notwendig. Über die hier dargestellte Seitengestaltung in reinem HTML hinaus geht die Möglichkeit, komplexere und/oder dynamische Elemente anhand von Cascading Style Sheets, JavaScript (siehe Begriffsklärung) oder serverseitigem Code einzubinden. Das
36
Eine kurze Einführung in HTML und weitere Web-Inhaltstypen
erfordert meistens eine gründliche Einarbeitung, gerade mit Server-Programmierung werden im Regelfall Experten beauftragt. Solche Seiten sollten auf jeden Fall besonders auf Browser- und Betriebssystems-Kompatibilität getestet werden. Über die Probleme, die für Suchmaschinen durch Elemente dieser Art eventuell entstehen können, lesen Sie in Kapitel 6. Weiterführende Informationen zum Thema HTML und Seitenerstellung im allgemeinen finden Sie zum Beispiel unter www.netzwelt.com/selfhtml und unter www.w3.org, der Seite des W3-Konsortiums, das sich mit der offiziellen Standardisierung im World Wide Web befasst. Unter dieser Adresse können Sie Ihre HTML-Seite auch auf eventuelle Fehler prüfen lassen, indem Sie dem Link »Validation« folgen und die Adresse der Seite eingeben, die geprüft werden soll.
1.2.2
Web-Formulare
Web-Formulare erzeugen Interaktivität, indem der Benutzer in vordefinierte Felder Daten eingeben kann, die beim Absenden – zum Beispiel beim Anklicken einer entsprechenden Schaltfläche – an den Webserver übertragen und dort weiterverarbeitet werden. Diese Felder haben folgende Typen: 왘 Ein- und mehrzeilige Textfelder; eventuell als Passwortfelder,
die am Bildschirm nur als Sternchen angezeigt werden 왘 Kästchen (Checkboxes) und runde Optionsfelder (Radio But-
tons) zum Anklicken 왘 Mehrzeilige Auswahl- und Kombinationsfelder 왘 Schaltflächen: Submit (= Absenden), Reset (= Zurücksetzen)
und Button (zum Auslösen von JavaScripts) Selbst wenn nur eine Schaltfläche auf einer Seite angelegt ist, ist dafür bereits ein Web-Formular notwendig. Es gibt noch eine Reihe weiterer Feldtypen, die uns hier aber nur am Rand interessieren. Auch die Eingabeseiten der Suchmaschinen sind übrigens Web-Formulare. Suchmaschinen füllen keine Textfelder aus, klicken nichts an und übersenden außer der URL-Zeile und den http-Protokoll-Informationen keine weiteren Daten an den Server. Inhalte, die nur über
37
1 Begriffsklärung und kurze Einführung in HTML
Web-Formulare zu öffnen sind, sind für Suchmaschinen grundsätzlich nicht erreichbar. Dies gilt erst recht, wenn Formulardaten in einer verschlüsselten Verbindung an den Server übertragen werden. Seiten, die nur über verschlüsselte Verbindung erreichbar sind – meist aus WebFormularen, in denen personenbezogene Daten aufgenommen werden – werden von Suchmaschinen nicht besucht. Abbildung 1.4: Webformular mit unterschiedlichen Feldern zur Aufnahme von Benutzerdaten
1.2.3
Frames
Die modernen Browser seit Netscape Navigator 2.0 und Microsoft Internet Explorer 3.0 bieten die Möglichkeit, eine Webseite aus mehreren HTML-Dateien aufzubauen, die neben- und übereinander auf dem Bildschirm verteilt sind. Man bezeichnet einen solchen Aufbau als Frameset, die einzelnen Bestandteile sind die Frames. Technisch funktioniert das so, dass eine HTML-Seite, die für den Benutzer selbst so gut wie unsichtbar bleibt, die Frames anlegt und in jedes eine weitere HTML-Datei lädt. Die für den Benutzer
38
Eine kurze Einführung in HTML und weitere Web-Inhaltstypen
sichtbaren Inhalte liegen nun nicht in der eigentlich aufgerufenen Seite, sondern in den einzelnen HTML-Dateien in den Frames. Während beispielsweise Altavista diese Frames-Inhalte aufruft und auswertet, werden sie dagegen von Google ignoriert. Als Autor einer Website, die aus Frames aufgebaut ist, wünscht man sich wahrscheinlich, dass deren Inhalte auch von den Suchmaschinen ausgewertet werden und die Adressen der einzelnen Seiten in den Ergebnislisten dargestellt werden. Die Vorgehensweise von Google kann jedoch auch durchaus Sinn machen: Die in ein Frame geladene Seite ist in ihrem Informationsgehalt meist nicht vollständig, vielleicht fehlen Navigationselemente, Firmenname oder sonstiges. Wenn der Benutzer in der Ergebnisliste einer Suchmaschine nun einen Hyperlink auf diese Datei findet und diesen anklickt, kann die Seite zur Sackgasse werden: Es gibt keine weiterführenden Links, eventuell ist gar nicht erkennbar, auf wessen Website er sich überhaupt befindet. Ein Profi würde in dieser Situation vielleicht den URL verwenden, daraus alle Angaben zum Ordner und zur Datei löschen und den Request neu absenden, um so zur Homepage des Webangebots zu kommen. Leider funktioniert das aber nicht immer, und als Autor eines Internetauftritts kann man wohl nur selten davon ausgehen, nur Fachleute als Besucher zu haben. Auch kann es sein, dass JavaScripts (in das HTML-Dokument eingearbeitete Programmzeilen, die vom Browser ausgeführt werden; diese werden gleich erklärt) in ein anderes Frame oder die vorgeschaltete Seite hineingreifen und dort etwas verändern wollen. Wenn nun der Zusammenhang des Framesets fehlt, in den diese Seite eingebettet ist, wird sich ein solches JavaScript dem Benutzer mit einer Fehlermeldung zu erkennen geben, die viele Benutzer verunsichern würde. Für Suchmaschinen optimierte Seiten sollten nie als Frames angelegt sein. Für Seiten, bei denen Funktionalität wichtig ist, die aber nicht von Suchmaschinen erfasst werden sollen, können sie dagegen eine hervorragende Lösung darstellen.
39
1 Begriffsklärung und kurze Einführung in HTML
1.2.4
Cascading Style Sheets
HTML bietet leider nur sehr eingeschränkte Möglichkeiten, um Schriftarten, -größen und -farben sowie weitere Formatierungseigenschaften festzulegen. Die Formatierung in HTML ist weder besonders vielseitig, noch ist sie genau. Dies liegt daran, dass die Formatierung in HTML ursprünglich, also um 1990 herum, gar kein Thema war, die ersten Clients waren textbasiert und kannten nur wenige Möglichkeiten, Textteile voneinander durch Formatierungen abzugrenzen. Die ursprünglichen Tags hatten vor allem die Aufgaben, spezielle Textelemente wie Überschriften oder Zitate zu kennzeichnen. Die meisten Tags mit Formatierungsinformationen sind erst später hinzugefügt worden, und die dabei entstandenen Lösungen waren eigentlich nie wirklich überzeugend. Beispielsweise gibt es in HTML keine Möglichkeit, Schriftgrößen in der üblichen Maßeinheit »Punkt« (ca 1/3 mm) darzustellen. Sehr viel weiter gehen hierbei Cascading Style Sheets, abgekürzt CSS, die eine Erweiterung von HTML darstellen. Viele Web-Designer nehmen die damit verbundenen Möglichkeiten dankbar auf, ihr Design wird dadurch präziser, klarer und moderner. Es gilt jedoch aus Sicht der Optimierung für Suchmaschinen auf einige Fallstricke zu achten. Zum Beispiel den folgenden: Um eine Überschrift mit dem Text »Homepage« festzulegen, sind die folgenden Anweisungen anscheinend weitgehend gleichwertig7: Homepage
Homepage
Homepage
Im ersten Fall wird eine Überschrift nicht nur durch große und fette Schriftzeichen vom sonstigen Text unterschieden, sondern auch einem maschinellen Leser – wie es eine Suchmaschine eben ist – durch den Tag-Container kenntlich gemacht. Für die meisten Suchmaschinen gilt Text, der in einer H1-Überschrift (= Heading 1, besonders hochrangige Überschrift) steht, als wich-
7
40
Je nach Browser und dessen Einstellungen zur Standardschriftart und zur Schriftgröße können sich gewisse Unterschiede ergeben.
Eine kurze Einführung in HTML und weitere Web-Inhaltstypen
tig für die Seite, Übereinstimmungen zwischen den hier zu findenden Wörtern und den Suchbegriffen des Benutzers führen zu hoher Relevanz-Bewertung. In zweiten Fall sieht der Benutzer einen normalen Absatz (gekennzeichnet durch den Tag-Container
wie Paragraph). Darin befindlicher Text erhält eine Schriftgröße 6, das ist um 3 Stufen mehr als die normale Schriftgröße, die bei 3 liegt.8 Der TagContainer legt dann fest, dass dieser Text fett dargestellt werden soll. Damit sieht der Text für den Benutzer am Browser genauso aus, wie der im ersten Beispiel. Aus Sicht der Suchmaschine ist es aber nicht der bedeutungsvolle Text einer Überschrift erster Ordnung, sondern einfacher Absatztext. Vielleicht gibt es die eine oder andere Suchmaschine, die die Hervorhebung noch positiv bewertet, von den professionellen Beobachtern von Suchmaschinen ist über solches Verhalten jedoch noch nichts berichtet worden. Im dritten Beispiel werden nun statt HTML-Tags- und -Attributen Stylesheet-Festlegungen verwendet, die nach dem HTML-Attribut style= folgen und hier in Anführungszeichen gesetzt sind. Soweit bekannt ignorieren alle Suchmaschinen Cascading-Stylesheet-Attribute weitestgehend aus folgenden Gründen: 왘 Stylesheet-Attribute lassen sich nicht zuverlässig relevanten
Textteilen zuordnen, jeder Layouter setzt hier seine eigenen Vorstellungen oder die seiner Kunden um. 왘 Stylesheet-Attribute können in externe Dateien ausgelagert
werden. Diese werden vom Browser getrennt geladen und auf die HTML-Seite angewandt. Für den Crawler (=Suchroboter, wir werden dies später ausführlich erläutern), der täglich Hunderttausende von Seiten laden und auslesen muss, wäre dies ein zu großer Verlust an Rechenzeit. 왘 Die Komplexität für die Entwickler von Suchmaschinen nimmt
deutlich zu, wenn sie die sehr große Zahl von Formatierungsmöglichkeiten und insbesondere von Kombinationsmöglichkeiten über Stylesheets berücksichtigen sollen. Um die eigenen
8
Diese Angaben sind natürlich alles andere als präzise, aber so ist HTML angelegt.
41
1 Begriffsklärung und kurze Einführung in HTML
Kosten gering und gleichzeitig die Leistung der Software hoch zu halten, sind Suchmaschinenentwickler eher geneigt, ihre Software einfach arbeiten zu lassen. 왘 Grundsätzliche Erwägungen: Suchmaschinen interessieren
sich für Inhalte, nicht für Gestaltung. Eine Ausnahme gibt es aber dennoch: Suchmaschinen schützen sich vor Cloaking, dem Versuch, ihnen das Vorhandensein von Informationen vorzumachen, die es für den Benutzer gar nicht gibt. Die folgenden Stylesheet-Attribute könnten dazu missbraucht werden, Text nur für den Benutzer, nicht aber für die Suchmaschinen unsichtbar zu machen: 왘 font-size: 0 pt 왘 color: white (auf weißem Grund) 왘 display: none 왘 visibility: hidden
Werden die Betreiber der Suchmaschinen auf Seiten aufmerksam, in denen sich solche Manipulationsversuche finden, so kann das zur Sperrung der gesamten Website führen. Zu bedenken ist auch, dass nicht alle Suchmaschinen nur auf automatischen Verfahren zum Auslesen der Webseiten aufbauen. Wie wir noch sehen werden, haben Verzeichnisdienste meist redaktionelle Mitarbeiter, die die Seiten wie ein Benutzer sehen.
1.2.5
JavaScript
JavaScript ist Code, der direkt in die Seite eingebettet ist. Grundsätzlich ist JavaScript heute ein zentraler Bestandteil jedes professionellen Web-Designs und hilft, Seiten durch dynamische Elemente aufzuwerten, bei Web-Formularen auf korrekte Eingabe zu prüfen und so weiter. Neben HTML und CSS ist JavaScript eine Standardanforderung im Skillprofil für einen Web-Designer. Da zwar jeder halbwegs zeitgemäße Webbrowser JavaScripts ausführt, die Suchmaschinen dies jedoch nicht tun, lässt sich auch damit leicht Cloaking betreiben:
42
Eine kurze Einführung in HTML und weitere Web-Inhaltstypen
Suchmaschinen-Optimierung ...
In diesem Beispiel ist der Titel, der in der Titelleiste des Browsers erscheint, in HTML mit »Suchmaschinen-Optimierung« festgelegt. Eine Suchmaschine könnte diesen Text als sehr hochrangig ansehen und die Seite bei Ergebnissen zu den Suchwörtern »Suchmaschinen« und »Optimierung« entsprechend top platzieren. Im Moment, in dem der Browser mit Laden fertig ist, weist ihn jedoch das JavaScript im onload-Attribut des Body-Tags an, den Titel auszutauschen gegen »Willkommen«. Der Benutzer würde also nicht dasselbe sehen, wie die Roboter der Suchmaschinen. Ein anderes Beispiel wäre die Umsetzung einer Doorway-Seite mit JavaScript: Der Browser wird mit location.href=... dazu gebracht, automatisch zu einer anderen Seite zu wechseln, während die Suchmaschine brav weiter die Inhalte der Doorway-Seite ausliest und in den Index stellt. Auch vor diesem und ähnlichen Verfahren ist abzuraten: Wenn ein Suchmaschinenbetreiber darauf eingerichtet ist, solche Manipulationen zu finden, kann das zum Ausschluss aus dem Index, der Liste, aus der die Suchergebnisse erzeugt werden, führen. Man sollte davon ausgehen, dass zumindest die wichtigen Betreiber dazu in der Lage sind.
1.2.6
Java-Applets, Flash-Animationen, andere clientseitige Komponenten
Ein moderner Webbrowser kann mehr, als nur HTML darstellen, eventuell erweitert durch Cascading Style Sheets für die Formatierung und JavaScript für die Interaktivität. Bestimmte Komponententypen können innerhalb einer Webseite eingebettet werden und bieten dem Betrachter meist eine Mixtur aus Funktionalität und Show-Effekten.
43
1 Begriffsklärung und kurze Einführung in HTML
Suchmaschinen fangen damit nichts an. Auch in Java-Applets und in Flash-Animationen gibt es das Element des Hyperlinks, da die Suchmaschinen diese Komponenten jedoch ignorieren, werden sie auch diese Hyperlinks nicht weiter verfolgen. Die beiden derzeit wichtigsten Browsertypen setzen die Komponententechnik etwas unterschiedlich um: Der Internet Explorer verwendet ActiveX-Komponenten, während der Netscape Navigator Plug-Ins kennt. Da jedoch beide Typen in der Regel von den Suchmaschinen ignoriert werden, wollen wir hier nicht ins Detail gehen.
1.2.7
Acrobat
Acrobat-Dokumente haben die Endung .pdf und werden gerne verwendet, wenn 왘 Dokumente ein präzises Layout für Bildschirmdarstellung
und Druck haben sollen, für das die eher unsichere und stark browserabhängige Darstellung in HTML nicht zuverlässig genug ist, 왘 Web-Dokumente aus anderen Dokumententypen, wie Quark-
Xpress, Microsoft Word oder PowerPoint erzeugt werden sollen, 왘 besondere Schriften verwendet werden sollen, die sich in Acro-
bat – anders als in anderen Formaten – einbetten und somit ohne Copyright-Probleme an den Benutzer senden lassen. Zur Darstellung der Acrobat-Datei wird eine spezielle Software benötigt: Der Acrobat Reader, den man kostenlos von der Website der Firma Adobe (www.adobe.de) herunterladen kann. Diese wird meist als ActiveX-Komponente beziehungsweise als Plug-In im Browserfenster angezeigt. Ähnlich wie HTML ist Acrobat ein textbasiertes Dateiformat, man kann eine Acrobat-Datei im Windows-Editor öffnen und wird dort eine Menge Code finden, das meiste davon allerdings eher unleserlich. Manche Suchmaschinen können diesen allerdings auswerten, Google beispielsweise, und bieten diese Dateien ebenfalls als Suchergebnisse an. Acrobat-Dateien werden von Google allgemein als hochwertig betrachtet.
44
Eine kurze Einführung in HTML und weitere Web-Inhaltstypen
Ähnlich wie HTML kennt Acrobat Hyperlinks, die auf andere Web-Inhalte verweisen. Diese werden jedoch offensichtlich von keiner Suchmaschine ausgewertet. Acrobat-Dokumente sind häufig sehr umfangreich. Man darf davon ausgehen, dass Suchmaschinen nur einen bestimmten Teil zu Beginn des Dokuments auswerten, da sie sich ansonsten mit den darin zu findenden Textmengen überfordern würden.
1.2.8
Bilder, Videos und Musik
Ein großer Teil dessen, was an Inhalten über das World Wide Web transportiert wird, hat Dateiformate wie .gif oder .jpg für Bilder oder .mp3 für Musik. Diese und weitere Formate werden von den uns interessierenden, textbasierenden Suchmaschinen nicht erfasst, es gibt allerdings spezialisierte Suchmaschinen dafür, zum Beispiel bei Altavista oder Google. Für bestimmte Branchen könnte es durchaus überlegenswert sein, auch diese Systeme für Marketing zu nutzen. Vielleicht kann ein Reiseanbieter über Bilder eines Ferienziels potenzielle Kunden auf seine Webseite ziehen. Zum jetzigen Zeitpunkt scheinen diese Möglichkeiten aber eher noch exotisch, insbesondere fehlen uns die klaren Möglichkeiten, steuernd auf Suchmaschinen zu wirken, wie wir sie im Textbereich haben.
1.2.9
Streaming-Formate
Sind vergleichbar mit den oben beschriebenen Sound- und Videoformaten, die Inhalte werden jedoch nicht als Datei heruntergeladen, sondern kommen in einem permanenten Strom vom Server, bis dieser unterbrochen wird. Im Moment werden diese Formate vor allem für Internet-Radio und Fernsehen eingesetzt, insbesondere letzteres steckt noch in den Kinderschuhen, da das Internet noch nicht über die Bandbreiten (Übertragungsleistung) für die dabei anfallenden Datenmengen verfügt. Mehr als alle anderen entziehen sich diese Inhalte den Suchmaschinen, zumindest wie wir sie heute kennen. Es gibt in ihnen nichts, was durchsucht und als Ergebnistabelle wieder ausgegeben werden kann.
45
1 Begriffsklärung und kurze Einführung in HTML
1.2.10
Dynamisch generierte Seiten
Es gibt heute eine fast unüberschaubare Menge von Verfahren, Webseiten nicht statisch auf einem Server zu speichern, der sie dann auf Anforderung an den Benutzer sendet, sondern erst im Moment der Anforderung dynamisch zu erzeugen: 왘 Server Side Includes (SSI) 왘 CGI-Scripts, meist in Perl oder PHP geschrieben 왘 Java Servlets, Java Server Pages 왘 Active Server Pages 왘 XML, XML Server Pages
und viele mehr. Dabei finden im Hintergrund oft umfangreiche Aktionen statt, Inhalte aus Datenbanken werden gelesen beziehungsweise diese mit Daten gefüllt, es werden Benutzer angelegt und gelöscht, möglicherweise werden selbst Warenlieferungen oder Geldtransaktionen ausgelöst. Wenn die Web-Technologie am Anfang vor allem dadurch begeisterte, dass man sich so einfach und für viele erreichbar präsentieren kann, geht es heute meist darum, mit interaktiven Lösungen Geschäftsziele zu erreichen. Aus Sicht des Browsers beziehungsweise des Roboters einer Suchmaschine ist es zuerst einmal völlig egal, ob die Seite als statisches HTML abgelegt worden ist, oder dynamisch generiert wird. Der Client sieht letztlich immer HTML, eventuell erweitert durch Cascading Style Sheets, JavaScripts und andere Elemente. Eine Einschränkung gibt es aber doch: Häufig benötigen dynamisch erzeugte Seiten Benutzereingaben in Formularfelder. Und – wie wir bereits gesehen haben – machen Suchmaschinen ebendies nicht, weshalb sie einen großen Teil dieser Seiten nicht wahrnehmen werden.
46
2
MarketingAktivitäten im Internet
Im Grunde kann man die Aktivitäten, die möglich sind, um den Marktplatz Internet zu nutzen, folgenden Gruppen zuordnen:
2.1
Verbindung des Web-Marketing mit anderen Maßnahmen
Einordnung des Internet-Marketing in einen umfassenden Marketing-Mix: Bei jeder sich bietenden Gelegenheit wird die WebAdresse veröffentlicht. Das kann in anderen Werbeumgebungen sein, aber auch auf Werbegeschenken oder im Umfeld von PRAktivitäten. Tatsächlich legen Untersuchungen die Vermutung nahe, dass die Mehrzahl der Besucher auf kommerziellen Websites diese direkt aufgerufen haben, und sie nicht über Suchmaschinen oder Werbebanner gefunden haben. Daher ist es essentiell, dass Sie die URLs besitzen, unter denen Ihr Kunde Sie zuerst suchen wird. Die Firma XYZ sollte also www.xyz.de und vielleicht auch www.xyz.com haben. Zu dieser Gruppe von Aktivitäten gehört auch die umgekehrte Nutzung: Der Website-Besucher kann Werbemittel anfordern oder sich über Maßnahmen informieren, wie zum Beispiel über besondere Ereignisse. Thema dieses Buchs ist das Internet selbst als eigenständiger Marktplatz. Daher soll dieser Gedanke hier nicht vertiefend verfolgt werden. Aber jeder, der sich im Internet vermarktet, sollte nach Lösungen suchen, dieses mit seinen sonstigen Aktivitäten zu verbinden.
47
2 Marketing-Aktivitäten im Internet
2.2
Das Internet als eigenständiges Marketing-Medium
Das Internet bietet eine große Zahl an Möglichkeiten für Marketing-Aktivitäten: 왘 Werbung mit Bannern und Tiles: Banner sind horizontal
gestreckte Werbe-Einsprengsel, die mit einem Hyperlink auf eine Website des Werbenden verbunden sind. Sind diese Werbeinseln eher quadratisch, sprechen manche immer noch von Bannern, korrekterweise bezeichnet man diese aber als Tiles, Fliesen. Bezahlt werden diese Werbemittel meist nach Views oder Page Impressions (wie viele Benutzer haben die Werbeeinblendung gesehen?) oder nach Klicks (wie viele Besucher haben auf die Werbung geklickt?). Bei der Berechnung nach Impressions liegt das Risiko, wie gut die Anzeige bei jenen Benutzern ankommt, die sie sehen, beim Anzeigenkunden, wird dagegen nach Klicks berechnet, liegt dieses Risiko eher beim Auftragnehmer. Es gibt auch Mischtarife dazwischen, also eine Einblendegebühr, die sowohl aus Impressions wie aus Klicks errechnet wird. Häufig werden dafür auch »Caps« definiert: Wenn die Kosten einen bestimmten Betrag übersteigen, wird die Bannerwerbung bis zur Neubeauftragung eingestellt. Nachdem es bis zum Jahr 2000 eine gewisse Euphorie für Bannerwerbung gegeben hatte – sie ist ja sehr funktionell und bietet vergleichsweise leicht messbare Ergebnisse – ist hier inzwischen eine allgemeine Ernüchterung eingetreten. Anbieter von Banner-Plätzen beklagen, dass damit nicht mehr sehr viel Geld zu machen ist. Andererseits kann hierin aber auch wieder eine Chance liegen: Bannerwerbung ist recht billig geworden und dadurch wirtschaftlich. Außerdem kann sie die Suchmaschinen-Optimierung, das eigentliche Thema dieses Buches, unterstützen: Viele Suchmaschinen bewerten das Ranking – die Bedeutung einer Webseite – auch anhand der Hyperlinks, die auf sie verweisen. Entdeckt eine solche Suchmaschine Ihre Bannerwerbung auf einer anderen Seite, kann dies das Ranking Ihrer Seite eventuell deutlich verbessern.
48
Das Internet als eigenständiges Marketing-Medium
왘 Werbung über Suchmaschinen: Durch Platzierung in Suchma-
schinen mit dem Ziel, ein hohes Ranking (Bewertung der Seiten) und optimale Relevanz (Übereinstimmung mit den erwarteten oder beobachteten Suchbegriffen des Benutzers) zu erzielen, soll dieser auf der Suche nach Information zum Angebot des Werbenden gelenkt werden. Dies ist der schwierigste und aufwändigste Teil des InternetMarketing. Die Unternehmen, die dies professionell bewerkstelligen, sind jedoch vom Nutzen sehr überzeugt. Die Hinweise für diese Arbeit sollen auch den größten Teil dieses Buches ausmachen. Die meisten Suchmaschinen bieten heute außerdem Banneroder Tiles-Werbung an, die aufgrund ihrer Spezifizierung an Zielgruppeninteressen recht wirkungsvoll sein kann. Man kann nun mal davon ausgehen, dass eine Person, die nach bestimmten Schlüsselwörtern sucht, an den dazu angebotenen Internet-Adressen auch entsprechend interessiert ist. Werbung bei Suchmaschinen ist deshalb oft spezifisch an Suchbegriffen der Benutzer orientiert, der Auftraggeber kann bestimmen, dass bei Eingabe bestimmter Suchwörter oder Wortkombinationen die Werbung auf der Ergebnisseite mit angezeigt wird. Sofern – wie beispielsweise bei Google – diese Werbung von den Suchergebnissen klar unterscheidbar bleibt und nicht überhand nimmt, ist dagegen mit Sicherheit nichts einzuwenden. Es kann auch durchaus von Vorteil sein, wenn der Benutzer ein Web-Angebot sowohl bei den Suchergebnissen wie auch bei den Werbeeinblendungen sieht. Problematisch wird dabei höchstens die Messung nach Klicks, da der Benutzer ja sowohl auf die Adresse in den Suchergebnissen wie auch auf die platzierte Werbung klicken kann. Daher berechnen Suchmaschinen meist nur nach Impressions. 왘 Interaktive Applikationen: Technisch sind diese für einen
guten Programmierer leicht umsetzbar: Eine Datenbank, eine Software, die diese mit dem Webserver verbindet und der Browser des Benutzers. Damit lassen sich Web-Shops, Infooder Buchungssysteme einrichten und Online-Banking anbieten. Eine Reihe von Unternehmen bauen heute ihr Geschäftsmodell auf solchen Systemen auf, Hotmail, GMX, Web.de und
49
2 Marketing-Aktivitäten im Internet
andere bieten ihren Benutzern neben E-Mail weitere Dienste kostenlos oder gegen eine geringe Gebühr an. Die damit erzeugte Kundenbeziehung wird dann für weitere, profitable Aktivitäten genutzt. Voraussetzung für solche Angebote ist natürlich, dass die Seite bei den Benutzern gefunden wird, und einer der effektivsten Wege dazu ist die Nutzung der Suchmaschinen. 왘 Permission Marketing: Die Erlaubnis des Benutzers, ihm
Informationen zusenden zu dürfen, ist ein äußerst wertvolles Gut. Zu diesem Thema gibt es inzwischen eine Menge an Literatur und eine Reihe neuer, sehr erfolgreicher Vorgehensweisen. 왘 Newsletter: Diese werden in der Regel per E-Mail versandt.
Gut gemachte Newsletter kommen bei Benutzern hervorragend an. Sie sind zielgruppenspezifisch und können über Hyperlinks auf Web-Inhalte verweisen Die hier gemeinten, erwünschten Newsletter sind unbedingt zu unterscheiden von Spam, jenen lästigen Rundmails, die sicherlich auch ihnen täglich den Posteingang »zumüllen«, und deren Angebote an Zweifelhaftigkeit oft nicht zu überbieten sind.1 Da »kalte« E-Mails bei uns in der Regel als unlautere Werbung unzulässig sind, sollen sie hier auch nicht weiter besprochen werden. 왘 Es gibt noch weitere Verfahren, beispielsweise Wählautoma-
ten: Manche, oft dubiose Seiten verlangen vom Besucher, dass er oder sie sich eine Software-Komponente herunterlädt, die jedes Mal beim Aufruf bestimmter Seiten eine teure 0190Nummer anwählt. Die von den Anbietern dieser Seiten häufig eingesetzten Verfahren werden zur Zeit immer raffinierter. Viele verwenden Tarnmanöver, die zum Ziel haben, dass der Benutzer gar nicht mitbekommt, wie sich ein solches DialerProgramm von alleine im Hintergrund installiert. Die böse Überraschung kommt dann mit der nächsten Telefonrechnung, deren Euro-Betrag leicht in fünfstellige Zahlenbereiche geraten kann. Die aktuelle Rechtsprechung steht im Zweifel eher nicht 1
50
Untersuchungen haben – leider – ergeben, dass diese Form des Verkaufens sogar sehr effizient sein kann. Grund: eine E-Mail-Nachricht kostet praktisch nichts.
Das Internet als eigenständiges Marketing-Medium
auf der Seite des Benutzers, der sich möglicherweise vorhalten lassen muss, dass es in seiner eigenen Verantwortung liegt, wenn er Dialer auf seinen Rechner geladen hat, und dass die Telekom oder ein anderer Telefon-Dienstleister zumindest nicht dafür mitverantwortlich gemacht werden kann. Dialer sind ein aufstrebendes Geschäft, es gibt bereits viele Anbieter dieser Art von Software, und die Unternehmen, die sie gerne auf Kosten der Benutzer einsetzen, haben genug Geld für teure Anwälte, die ihre Kritiker mundtot machen sollen. Tipps, wie man sich als Webbenutzer gegen Dialer-Software wehren kann, finden Sie im Internet zum Beispiel unter www.dialerundrecht.de oder www.dialerhilfe.de. Auch gibt es bereits Software, die wirkungsvollen Schutz bietet, vergleichbar dem Schutz von Antivirensoftware.2 Die neuesten Versionen unserer Webbrowser und der ebenfalls betroffenen MailClients, wie zum Beispiel Microsoft Outlook, machen es zusätzlich unmöglich, Softwarepakete ohne Zutun und Wissen des Benutzers auf dessen Rechner zu laden. Ältere Versionen dieser Software stellen dagegen noch ein größeres Risiko dar und sollten möglichst nicht mehr verwendet werden. Mittlerweile interessieren sich übrigens in Deutschland auch die Behörden für die schwarzen Schafe dieser Branche. Zum heutigen Zeitpunkt sind Dialer für einen seriösen Anbieter im Marktplatz Internet sicher eher ungeeignet, dem eigentlich sehr funktionalen Geschäftsmodell steht aufgrund des häufigen Missbrauchs der mögliche Verlust des guten Rufs gegenüber. Aber vielleicht werden dieses oder ähnliche Verfahren bald als normal gelten, das Telefon – speziell das Handy – als elektronische Geldbörse wird bestimmt Bestandteil künftiger Geschäftsmodelle sein, die erst noch entwickelt und auf den Markt gebracht werden müssen.
2
Dialer selbst sind zwar keine Viren, manche von Ihnen verstecken sich vor dem Benutzer jedoch ähnlich wie diese, und speziell für eine Privatperson ist der potenzielle Schaden eher noch höher.
51
3
Wissenswertes zu Suchmaschinen
Suchmaschinen sind Datenbanken. Es gibt mehrere Typen von Suchmaschinen: Roboter, auch Crawler oder Spider genannt, und Verzeichnisdienste. Außerdem gibt es Meta-Suchmaschinen und Spezialsuchdienste.
3.1
Suchmaschinen-Typen
Im folgenden werden die verschiedenen Typen von Suchmaschinen voneinander unterschieden. Tatsächlich sind viele Suchhelfer Mischtypen oder Kombinationen.
3.1.1
Roboter
Suchmaschinen vom Typ Roboter sind auf extreme Hochleistung getrimmte Systeme, die laufend das World Wide Web und andere Elemente des Internet analysieren. Google beispielsweise setzt nach eigenen Angaben1 einen Cluster aus über zehntausend PCs ein, die auf vier Datenzentren verteilt sind. Roboter bestehen im Grunde aus drei Elementen: 왘 dem eigentlichen Crawler, der ähnlich wie ein Browser Seiten-
inhalte aufruft und diese dann ausliest, er findet auch Hyperlinks und kann diesen folgen, um weitere Seiten zu entdecken, 왘 der Datenbank, die Wortlisten führt und zu den Wortlisten
Fundstellen (URLs) kennt, man bezeichnet diese Datenbank als Index, 왘 der Web-Oberfläche, über die der Benutzer mit der Suchma-
schine interagiert. 1
Die Angaben sind einem Interview mit Monika Henzinger, der Leiterin der Forschungsabteilung von Google in Mountain View, Kalifornien, in der Zeitschrift »Spektrum der Wissenschaft« vom Juli 2002 entnommen.
53
3 Wissenswertes zu Suchmaschinen
Nach diesem Prinzip arbeiten unter anderem Google, Altavista und AOL. Crawler übergeben nicht nur die gefundenen Wörter an die Datenbank, sondern finden und lesen auch Hyperlinks und verfolgen diese weiter. Auf diesem Weg können sie zuerst die gesamte Website und von hier aus auch weitere Sites erfassen, zumindest soweit diese durch Hyperlinks gefunden werden können. Abbildung 3.1: Eine Suchmaschine des Typs Roboter: Google
Wenn man sich allerdings überlegt, dass jede Seite auf mehrere andere Seiten verweisen könnte, die wiederum auf viele weitere Seiten verweisen und so weiter, wird einem schnell klar, dass es für solche Crawl-Verfahren Grenzen geben muss, ansonsten würde die Liste der vom Crawler noch zu besuchender Seiten ja deutlich schneller anwachsen, als er sie abarbeiten kann.
54
Suchmaschinen-Typen
Abbildung 3.2: Die Suchmaschine arbeitet eine Liste mit URLs ab, fügt aber selbst laufend neue URLs hinzu; die Liste wächst unten schneller an, als sie oben abgearbeitet wird
Auch der leistungssteigernde Einsatz von schnelleren Rechnern und so genannten Clustern, mehreren parallel und voneinander weitestgehend unabhängig arbeitenden Rechnern, die ihre Ergebnisse in eine gemeinsame Datenbank übergeben, ist keine Lösung zumindest für dieses Problem: Mit der erhöhten Leistung wächst auch die Liste der noch zu besuchenden Seiten schneller. Der Einsatz solcher Cluster lässt sich bei einigen Suchmaschinen übrigens tatsächlich beobachten, speziell wenn man Protokolldaten des Webservers auswertet, worüber wir noch sprechen werden. Die Lösung für Roboter ist es, die Liste der abzuarbeitenden URLs immer wieder zu verkürzen, also Einträge rauszulöschen. Wenn wir über den Umgang mit Suchmaschinen und die Probleme, die sich dabei ergeben können, sprechen, werden wir auf diesen Punkt zurückkommen müssen.
3.1.2
Verzeichnisdienste
Verzeichnisdienste funktionieren im Grunde ähnlich, statt eines Crawlers prüft allerdings zuerst ein Mensch die Inhalte, bewertet sie und stellt sie dann in die Datenbank. Es gibt auch einige Verzeichnisdienste, bei denen die Aufnahme eines neuen URL automatisiert erfolgt. Bekannte Verzeichnisdienste sind Yahoo, Dino-Online, Web.de oder – über das Open Directory Project – Netscape.
55
3 Wissenswertes zu Suchmaschinen
Abbildung 3.3: Beispiel für einen Verzeichnisdienst: Das von Menschen redaktionell geführte Open Directory Project
Die Anzahl von Fundstellen, über die ein Roboter zu einem beliebigen Begriff verfügt, ist meist um ein Vielfaches höher, als bei einem Verzeichnisdienst, dieser verspricht dafür aufgrund der Bewertung durch Menschen eine höhere Relevanz der Ergebnisse und Ausschluss von unerwünschten Ergebnissen, z.B. von pornografischen Seiten. Verzeichnisdienste fassen Angebote außerdem in Kategorien zusammen, die eine alternative Suchmöglichkeit zur Stichwortsuche ermöglichen. Diese Kategorien machen auch den Unterschied bei der Anmeldung aus: Während Roboter meist mit der Angabe des URL und einiger weniger zusätzlicher Infos zufrieden sind, wollen Verzeichnisdienste wissen, in welcher Kategorie die neue Website aufgenommen werden soll. Die Kategorien der Verzeichnisdienste sind hierarchisch aufgebaut. Einen kleinen Ausschnitt der Verzeichnishierarchie von Yahoo zeigt die folgende Grafik:
56
Suchmaschinen-Typen
Yahoo.de
Bildung & Ausbildung
Computer & Internet
Geisteswissenschaften
Ausbildung
Hardware
Institute
Behinderte
Software
Organisationen
Bildungspolitik
Internet & WWW
Altertumskunde
Bildungsurlaub
Betriebssysteme
Archäologie
Abbildung 3.4: Verzeichnishierarchie bei Yahoo (Ausschnitt)
Sobald der Redakteur eines Verzeichnisdienstes darüber entschieden hat, dass eine Website aufgenommen wird und in welcher Kategorie, wird zusätzlich ein Roboter eingesetzt, bei Open Directory Project heißt dieser beispielsweise Robozilla. Ausgehend von der angemeldeten Startseite werden über Hyperlinks weitere Seiten gefunden und in den Index aufgenommen. Der VerzeichnisRoboter besucht anschließend regelmäßig die Website, prüft sie auf Änderungen und informiert den Redakteur, falls sie nicht mehr verfügbar ist. Ähnlich wie bei den eigentlichen Robotern kann eine solche Situation auch beim Verzeichnisdienst dazu führen, dass die einmal angemeldete Site wieder entfernt wird. Wenn der Benutzer den Verzeichnisdienst über den hierarchischen Katalog durchsucht, werden ihm deshalb nur die Startseiten der jeweiligen Websites als Ergebnisse vorgeschlagen, von denen aus sich der Benutzer dann weiter durchklicken kann. Webverzeichnisse bieten allerdings meist auch ein Suchfeld an, in das wie bei Robotern Suchbegriffe eingegeben werden können. Hier hat der Benutzer nun Zugriff auf den vollen Bestand des Indexes. In der Regel kann der Benutzer hier auch Ergebnisse aus Robotern finden, was insbesondere sinnvoll ist, wenn die eigenen Ergebnisse des Verzeichnisdienstes zu wenig ergiebig sind.
57
3 Wissenswertes zu Suchmaschinen
Webverzeichnisse werden meist von Menschen gepflegt und versprechen so, relevante Inhalte zuerst anzubieten, denen die große Menge der vom Roboter gefundenen Seiten folgt. Verzeichnisdienste und Robots arbeiten oft eng zusammen. Während der Robot Google die Möglichkeit anbietet, alternativ auf das Verzeichnis des Open Directory Project zuzugreifen, bietet der Verzeichnisdienst von Yahoo.de an, die Daten des Robots Google mit anzuzeigen. Eine Besonderheit ist der Verzeichnisdienst des Open Directory Project. Hier hat der Benutzer selbst die Möglichkeit, Redakteur zu werden, wobei grundsätzlich nicht einmal untersagt ist, eigene Seiten anzumelden und hoch zu bewerten. Gewarnt wird nur davor, dass es zum Ausschluss des Redakteurs führen kann, wenn eine missbräuchliche Nutzung erkennbar ist, beispielsweise Ausschluss eines Wettbewerbers. Wenn man dann noch bedenkt, dass Google die Bewertungen des Open Directory Project in sein eigenes Ranking einfließen lässt...
3.1.3
Meta-Suchmaschinen
Ein dritter Typus sind Meta-Suchmaschinen, wie zum Beispiel Meta-Ger oder www.suchen.com. Diese besitzen keine eigenen Daten, die sie durchsuchen, sondern leiten die Anfrage im Hintergrund an mehrere andere Suchmaschinen weiter. Häufig kann der Benutzer auswählen, von welchen Suchmaschinen er die Ergebnisse sehen möchte. Da die angefragten Suchmaschinen teilweise unterschiedliche Datenbestände haben, erhält der Benutzer umfangreichere Suchergebnisse, was nicht unbedingt immer wünschenswert sein muss. Außerdem dauert es oft recht lange, bis alle Ergebnisse zusammengetragen und in einer Ergebnisseite verarbeitet sind, insbesondere, wenn man die Suchdauer mit der von Google und anderen Sprintern vergleicht.
58
Suchmaschinen-Typen
Abbildung 3.5: Eine Meta-Suchmaschine mit einer Auswahl an Suchmaschinen, an die eine Anfrage weitergeleitet werden kann.
Ein weiterer Ansatz ist, Meta-Suchmaschinen themenorientiert einzurichten. Diese durchsuchen dann andere Suchmaschinen, filtern aber nach den für sie relevanten Informationen aus. Das könnten Gebrauchtwagen sein, Software und viele andere. Sie verbinden also die Vorteile der Meta-Suchmaschinen mit denen der im folgenden beschriebenen Spezialsuchmaschinen. Meta-Suchmaschinen können für viele der hier beschriebenen Aufgabenstellungen recht nützlich sein, da sie einen vergleichsweise schnellen Überblick erlauben, in welchen Suchmaschinen eine Website bekannt ist, und welche Platzierung sie unter den Suchergebnissen hat. Man spart es sich damit, die Suchmaschinen mühselig einzeln abzuarbeiten.
59
3 Wissenswertes zu Suchmaschinen
Einige Meta-Suchmaschinen bieten als Geschäftsmodell an, für Kunden die Anmeldung bei den eigentlichen Suchmaschinen durchzuführen – natürlich gegen einen kleinen Obolus. Wenn man an solch einer Dienstleistung interessiert ist, sind die Meta-Suchmaschinen sicher keine schlechte Adresse.
3.1.4
Spezial-Suchmaschinen
Weiter zu berücksichtigen sind Suchseiten, die sich speziell an bestimmte Branchen richten. Auch sind Angebote, die sich auf spezielle Themen konzentrieren, hierunter zu fassen. Diese sind typischerweise redaktionell geführt und wirken gelegentlich nicht sehr professionell. Die dazu notwendige Fleißarbeit sollte aber nicht unterschätzt werden, zumal die Autoren diese Seiten selten hauptberuflich pflegen. Abbildung 3.6: Eine Spezialsuchmaschine für wissenschaftliche Seiten: Gerhard
Diese Verzeichnisse lassen sich eventuell nutzen: Kontaktieren Sie den Anbieter und versuchen Sie, darin mit einem Hyperlink auf Ihre Website platziert zu werden.
60
Suchmaschinen-Typen
Wenn Sie damit erfolgreich waren, können Sie die Seiten, auf denen der Link zu Ihnen zu finden ist, selbst bei Robotern anmelden, und wie wir sehen werden, kann dies Ihre Platzierung in den eigentlich interessierenden Suchmaschinen verbessern helfen. Für gewisse Branchen sind solche Spezial-Suchmaschinen bereits zu einem wertvollen und unverzichtbaren Service geworden. So gibt es für den Pressebereich Suchmaschinen, anhand derer man veröffentlichte Artikel und Nachrichten finden kann. Oder auch solche, die eine Suche speziell nach Bildern und Grafiken oder mp3-Dateien ermöglichen. Adressen finden Sie im Anhang. Oder wie wäre es mit einer kirchlichen Suchmöglichkeit? Abbildung 3.7: Kirchliche Spezialsuchmaschine
Es gibt auch Suchmaschinen, die sich auf das Web-Angebot eines Anbieters konzentrieren. Microsoft beispielsweise hat mehrere solcher Suchmaschinen im Einsatz. Das folgende Beispiel durchsucht MSDN, das Microsoft Developer Network, mit einer sehr großen Anzahl von Artikeln, die insbesondere für Programmierer von Interesse sind.
61
3 Wissenswertes zu Suchmaschinen
Abbildung 3.8: Suchmaschine für technische Artikel bei Microsoft
Eine breite Übersicht über Suchmaschinenangebote finden Sie übrigens unter anderem unter www.suchmaschinen.de. Roboter und Verzeichnisdienste sind zwar nicht voneinander getrennt, dafür ist die Sammlung aber recht umfangreich, auch einige Spezial-Suchmaschinen finden sich dort.
3.2
Die Bedeutung von Suchmaschinen für Anbieter von Web-Inhalten und eventuelle Probleme
Wahrscheinlich ist Teil Ihrer eigenen Erfahrung mit dem Internet, dass Suchmaschinen am Beginn jeder Recherche stehen. Es ist immer wieder erstaunlich, wie schnell man über sie Informationen zu Themen, Firmen, Personen oder Produkten findet, und seien sie noch so exotisch und selten.
62
Bedeutung und Probleme von Suchmaschinen
Sie wissen, beispielsweise, dass ein wichtiger Lieferant im Internet vertreten ist und dort Datenblätter zu seinen Produkten eingestellt hat. Sie kennen zwar den URL der Firma nicht, aber das ist kein Problem. Sie rufen Google oder Altavista auf oder eine andere Suchmaschine, geben den Namen der Firma ein, und erhalten eine Liste von Dokumenten, die mit dem Unternehmen zu tun haben. Wahrscheinlich ist auch schon mindestens ein Dokument aus der Website der Firma dabei. In seltenen Fällen mag es notwendig werden, zu »blättern«, sich also weitere Seiten mit Ergebnissen anzeigen zu lassen, aber wenn die gesuchte Firma tatsächlich eine eigene Website hat, werden Sie sie mit Sicherheit finden. Eigentlich interessiert Sie doch aber nicht der Lieferant, den kennen Sie ja bereits. Sie suchen ein Datenblatt zu einem Produkt, das Sie interessiert. Die Wahrscheinlichkeit ist groß, dass Sie das Datenblatt finden, wenn Sie gleich die Produktbezeichnung in eine Suchseite eingeben. Vermutlich werden Sie die gewünschte Information sogar schneller finden, als wenn Sie zuerst auf die Website der Firma gehen und sich von dort aus über mehrere Hyperlinks bis zum gewünschten Inhalt durchhangeln. Probieren Sie es doch mal aus: Schauen Sie nach, ob es für Ihren Drucker beim Hersteller einen aktuelleren Treiber gibt als den, den Sie gerade einsetzen. Machen Sie das auf zwei Wegen (und stoppen Sie jedes Mal die Zeit)2: 왘 Rufen Sie den URL des Herstellers auf (z.B. www.hewlett-pack-
ard.com) und suchen Sie von der Startseite aus die Seite, von der aus Sie den Druckertreiber herunterladen können. 왘 Gehen
Sie zu einer der großen Suchmaschinen (z.B. www.google.de), geben Sie die Bezeichnung des Druckers ein, dann das Wort »driver« und dann das Wort »download«.
Spätestens jetzt sollte klar sein, warum Suchmaschinen so wichtig sind und ihre Popularität eher noch zunehmen wird. Gut genutzte Suchmaschinen sind meist der schnellste Weg zur gesuchten Information.
2
Natürlich spricht auch nichts dagegen, stattdessen die de-ToplevelDomänen aufzurufen und nach einem deutschen »Treiber« zu suchen.
63
3 Wissenswertes zu Suchmaschinen
Es gibt heute sogar professionelle Trainings für Internet-Recherche. Einkäufer, Journalisten und Entscheider aus den unterschiedlichsten Bereichen lernen hier, wie man das World Wide Web und hier insbesondere die Suchmaschinen nutzt, um Informationen zu finden. Und auch Literatur gibt es hierzu. Sie, liebe Leserin, lieber Leser, bieten doch auch etwas an. Sie haben Inhalte im Internet, von denen Sie möchten, dass Benutzer sie finden, wenn sie sie brauchen. Sie möchten gefunden werden, und zwar von den Personen, die Suchmaschinen als Recherchemittel einsetzen. Auf den ersten Blick ist das einfach, tatsächlich stellen sich uns einige ganz vertrackte Probleme: 왘 Problem 1: Suchbegriffe und Schreibweisen berücksichtigen
Überlegen Sie einmal, nach welchen Stichwörtern ein Benutzer suchen könnte, von dem Sie wünschen, dass er Ihre Website findet. Vermutlich wird es dafür eine recht große Anzahl von Möglichkeiten geben, zum einen natürlich unterschiedliche Begriffe und Wörter, aber auch nur verschiedene Schreibweisen, die sich teilweise nur geringfügig unterscheiden. Probieren Sie diese Möglichkeiten einmal mit einer Suchmaschine aus. Sie werden feststellen, dass die Ergebnisse jedes Mal recht unterschiedlich sein können. Hier ein Beispiel aus der Welt eines der Autoren: 왘 Projektmanagementtraining 왘 Projekt-Management-Training 왘 Projektmanagement-Training 왘 Projektmanagement-Seminar 왘 Projekt-Management-Seminare 왘 Projektleiter-Seminare 왘 Seminare für Projektleiter 왘 Project Management Training 왘 project methodology seminar 왘 Kurse in Project Management
Wo es verschiedene Begriffe und Schreibweisen gibt, sollten Sie damit rechnen, dass auch alle verwendet werden.
64
Bedeutung und Probleme von Suchmaschinen
Übrigens: Beobachtungen haben ergeben, dass die meisten Benutzer von Suchmaschinen normalerweise nicht mehr als zwei Begriffe in das Suchfeld eingeben. Auch aus einem Begriff wie »Seminare für Projektleiter« wird oft nur »Seminare Projektleiter«, weil in den meisten Suchmaschinen häufig verwendete Wörter wie »für«, »und« oder »der«/»die«/»das« in der Suche weggelassen werden. Eine Hilfe beim Finden des richtigen Suchbegriffs sind Listen von häufigen Benutzer-Eingaben. Fireball bietet unter www.fireball.de/qstat.html eine solche Liste als Stichwort-Statistik, die hochaktuell ist. Sie zeigt die angefragten Begriffe des Vortages und wird laufend aktualisiert. Die Liste ist allerdings zensiert, mit Sex und Erotik verbundene Begriffe sind entfernt worden. Vermutlich wird Sie das bei Ihren Bemühungen eher unterstützen. Eine ähnliche, jedoch unzensierte Liste findet sich bei Suchmaschinentricks.de unter www.suchmaschinentricks.de/tools/keywords.php3. Die hier zu findende Liste bezieht sich nach Aussage ihres Autors auf Beobachtungen, die über einen längeren Zeitraum gemacht worden sind. Aber Vorsicht! Bevor Sie jetzt Begriffe wie SMS oder Download kostenlos auf Ihrer Titelseite platzieren: Erreichen Sie damit wirklich die Benutzer, an denen Sie interessiert sind? Die Website www.suchmaschinentricks.de/tools/kw_lookup.php3 bietet übrigens einen noch interessanteren Dienst an: Die Suche nach den häufigsten Kombinationen, in denen ein Wort von Benutzern gesucht worden ist. Wenn Ihre Seite zu der gesuchten Kombination eine besonders hohe Relevanz hat, wird sie bei den Suchergebnissen top platziert sein. Der Begriff Relevanz wird übrigens in Kapitel 4 ausführlich beschrieben. Wir werden in diesem Buch auch noch darüber sprechen, wie wir feststellen können, welche Schreibweise ein Besucher verwendet hat, wenn er oder sie die Website in der Suchmaschine gefunden hat, denn eines ist klar: Gehen Sie nicht davon aus, dass es die von Ihnen im allgemeinen verwendete oder erwartete ist.
65
3 Wissenswertes zu Suchmaschinen
왘 Problem 2: Die richtigen Suchmaschinen finden
Noch etwas weiteres müssen wir in Erfahrung bringen: Welche Suchmaschinen werden von unseren potenziellen Neukunden bevorzugt? Und wie werden diese eingesetzt? Die meisten haben eine Suchmaschine, die sie am liebsten verwenden, vielleicht, weil die Ergebnisse so genau sind, oder so umfangreich, oder weil der Benutzer die vielen kleinen Tricks der Expertensuche beherrscht, die bei dieser Suchmaschine funktionieren und bei einer anderen nicht beziehungsweise mit anderen Eingaben. Manch einer bevorzugt vielleicht Google, weil die Oberfläche so schlicht ist und sich auf das Wesentliche konzentriert, und weil der Benutzer sich nicht über lästige Pop-Up-Fenster ärgern muss. Auch verfügt Google, zumindest nach eigener Aussage, über die größte Suchwort-Datenbank (über 2 Milliarden Seiten). Andere suchen über Yahoo, Lycos oder Netscape, wo es redaktionell geführte Verzeichnisse gibt (siehe oben) und wo man nebenher weitere Informationen sammeln und Nachrichten lesen kann. Wieder andere bevorzugen Meta-Suchmaschinen wie Meta-Ger, die Such-Anfragen nicht selbst bearbeiten, sondern gleich an mehrere andere Suchmaschinen durchreichen und eine entsprechend höhere Menge an Ergebnissen haben, die aber auch im Umgang eher anspruchsvoller sind. Sie werden gerne von Studenten verwendet und von Personen, die ihr Einkommen im Bereich Forschung und Lehre erzielen. Manche verwenden gerne national ausgerichtete Suchmaschinen, andere eher die Global Players und so weiter. Es mag noch viele andere Gründe geben, warum sich Benutzer für eine Suchmaschine entscheiden, wir können nicht alle kennen. Und wir wissen, dass sich Bevorzugungen auch wieder ändern können. Welche Suchmaschinen werden gerne genutzt? Für Deutschland gibt es bei www.etracker.de unter dem Punkt »globale Statistik Suchmaschinen« eine Statistik für eine Reihe beobachteter Webseiten, von welchen Suchmaschinen aus Besucher zu ihnen gefunden haben. Anfang 2002 sah die Reihenfolge bei den wichtigsten Suchmaschinen wie folgt aus:
66
Bedeutung und Probleme von Suchmaschinen
Rang
Suchmaschine
Anteilig
1
Google
63.7%
2
Yahoo
7.5%
3
Lycos.de
6.1%
4
T-Online
4.4%
5
Web.de
3.7%
6
MSN Germany
3.3%
7
MetaGer
2.4%
8
Altavista
1.9%
9
Fireball
1.8%
10
Freenet
1.1%
11
MSN
0.8%
12
AllesKlar
0.5%
13
Dino Online
0.4%
14
NetCraft
0.4%
15
Crawler.de
0.3%
Aber Vorsicht: Dies muss für Ihre spezifische Website und die von Ihnen gewünschte Zielgruppe nicht identisch sein. Dennoch ist der von Google erzielte Anteil von über 60 Prozent der Weiterleitungen an Websites aus Suchergebnissen heraus beeindruckend, und die Tendenz ist weiter steigend. 왘 Problem 3: Die richtigen Besucher ansprechen
Wollen Sie wirklich jeden Besucher? Stellen wir uns den Marktplatz Internet als Krämer- oder Wochenmarkt vor. Wollen Sie von jedem, der vorbeigeht, dass er/sie stehen bleibt? Auch bei Desinteresse? Irgendwann ist der Platz vor Ihrem Stand gefüllt mit Betrachtern, die eigentlichen potenziellen Kunden finden keinen Platz mehr und gehen an Ihnen vorbei. Ähnliches kann Ihnen auch im Internet passieren. Für eine große Besucherzahl müssen Sie gerüstet sein, der Webserver muss ausreichend Bandbreite (Übertragungsleistung der Anschlussleitungen zum Internet), Festplattendurchsatz und Rechenleistung haben, um dies verarbeiten zu können. Wenn der Server in einem dieser Faktoren überlastet wird, kann dies zu unangenehmen Erlebnissen für Ihre Besucher führen: Das
67
3 Wissenswertes zu Suchmaschinen
Antwortverhalten des Servers wird immer träger, im schlimmsten Fall kommt er zum Stillstand. Oder der Benutzer erhält eine Fehlermeldung. Alles dies kann negativ auf Ihr Unternehmen zurückfallen. Ein guter Administrator wird die Last auf dem Server überwachen und rechtzeitig nachrüsten, bevor Engpässe bestehen, aber gute Administratoren sind eher knapp und eine Nachrüstung ist unter Umständen auch nicht billig. Ungewollte Besucher können also auf Kosten der interessanten die Leistung reduzieren. Unabhängig davon, ob Sie eigene Server einsetzen oder einen Dienstleister nutzen: Leistungsfähigkeit im Internet gibt es nicht zum Nulltarif. Dies gilt insbesondere, wenn Sie dynamisch erzeugte Seiten anbieten, da es für den Rechner nicht reicht, diese von der Platte abzurufen und an den Benutzer zu senden. Sie müssen oft umfangreiche Bearbeitungsschritte erfahren, die den Prozessor des Servers belasten und die Antwortzeiten erhöhen.
3.3
Indexgrößen wichtiger Suchmaschinen
Die folgende Grafik zeigt einige große, internationale Suchmaschinen, und wie sich deren Indexgrößen, die Listen der erfassten Wörter, im Zeitraum von über 5 Jahren entwickelt haben:
Abbildung 3.9: SuchmaschinenIndizes, Entwicklung 1995 bis 2001
68
Indexgrößen wichtiger Suchmaschinen
Die Zahlen, auf denen diese Grafik basiert, stammen von den Betreibern selbst, sind also mit Vorsicht zu genießen. Man kann deutlich erkennen, wie bei den meisten Anbietern die Indexgrößen laufend steigen. Für viele war das Jahr 2000 der Zeitraum des schnellsten Wachstums. Waagerechte Linien im Diagramm müssen nicht bedeuten, dass der entsprechende Index stagniert, sie können auch nur daher rühren, dass vom Suchmaschinenbetreiber keine neuen Angaben zu finden waren. Eine andere Interpretation ist die, dass die Erweiterung eines Index eine recht teure und technisch aufwändige Aktion zu sein scheint, die von den Suchmaschinen nur im Rahmen von gelegentlichen größeren Projekten durchgeführt werden kann. Immerhin soll ja auch während der Umstellung die Suchdienstsleistung weiter ungestört angeboten werden. Google startete erst im Juni 1998, hat aber – wenn die vom Unternehmen mitgeteilten Zahlen stimmen – mit 1 Milliarde Seiten im Sommer 2001 und einer Erweiterung auf 2 Milliarden Seiten im Spätherbst des gleichen Jahres den bei weitem umfangreichsten Index. Eine weitere Übersicht stammt von www.at-web.de. Hier finden sich auch Angaben speziell zu deutschsprachigen Suchmaschinen sowie zu Verzeichnisdiensten. Die Angabe »Datum« bezieht sich auf den Zeitpunkt der Veröffentlichung.3
3
Datum
Roboter/ Verzeichnisdienst
Suchdienst
Index
Acoon
87 Mio. (weltweit) 09.2001
Roboter
AllesKlar
370 000 Sites in 05.2001 10 000 Kategorien
VD
AltaVista.com
550 Mio.
09.2001
Roboter
AltaVista.de
(82 Mio.)
11.2001
Roboter
Bellnet
400 000 Sites; Zahl 11.2000 der Kategorien nicht bekannt
VD
Verzeichnisdienste versprechen ohnehin Relevanz anstelle von Menge, die vergleichsweise kleineren Datenbestände werden hier nicht unbedingt als Nachteil angesehen.
69
3 Wissenswertes zu Suchmaschinen
Suchdienst
Index
Datum
Roboter/ Verzeichnisdienst
Dino
275 000 Sites in 50 000 Kategorien , 20 Sachgebiete
08.2000
VD
Euroseek
50 Mio.
08.2000
Roboter
AllTheWeb (FAST Seach & Transfer ASA)
625 Mio. basierend auf 1,5 Milliarden erfasster Seiten
11.2001
Roboter
Fireball
8,2 Mio.
01.2001
Roboter
Google
2 Milliarden
12.2001
Roboter
HotBot (Inktomi)
ca. 600 Mio. basie- 09.2001 rend auf 1,5 Milliarden erfasster Seiten
Roboter
Infoseek (Deutschland)
42 Mio.
09.2000
Roboter
LookSmart
2,0 Mio. Sites in 200 000 Kategorien
10.2000
VD
Lycos (weltweit)
250 Mio.
09.2000
Roboter
Northern Light
354 Mio.
05.2001
Roboter
ODP (Open Directory Project)
2,839 Mio. Sites in 402 157 Kategorien
09.2001
VD
Qualigo
15 Mio.
05.2001
Roboter
Scoutmaster
6,3 Mio.
09.2001
Roboter
Sharelook
182 000 Sites in 36 000 Rubriken, 12 Hauptkategorien
08.2000
VD
Speedfind
12 Mio.
08.2000
Roboter
Teoma
100 Mio.
09.2001
Roboter
70
Indexgrößen wichtiger Suchmaschinen
Suchdienst
Index
Datum
Roboter/ Verzeichnisdienst
Voila (weltweit)
145 Mio. einschl. Bilder, Videos
08.2000
Roboter
WiseNut
850 Mio (1,495 Milliarden Links)
09.2001
Roboter
WEB.DE
459 843 Sites in über 36 650 Kategorien
09.2001
VD
Halten Sie sich auf dem Laufenden, was es Neues im Suchmaschinengeschäft gibt, und stellen Sie sicher, dass Sie wichtige Entwicklungen nicht verpassen. Es kann sein, dass zwei Jahre nichts passiert, dann kommt ein neues Angebot mit für den Benutzer überzeugenden Argumenten, und innerhalb kürzester Zeit ändern viele Benutzer ihre Präferenzen. Es gibt noch weitere Entwicklungen, die zu beachten sind: 왘 Die Anzahl an echten Suchmaschinen-Indizes ist kleiner als die
Menge von Anbietern des Dienstes für Benutzer. Viele Anbieter von Suchdiensten haben gar keine eigene Maschine, sondern nutzen die eines anderen Unternehmens, des eigentlichen Betreibers. Man nennt solch eine Zusammenarbeit in Anlehnung an ähnliche Verfahren bei Werbeanzeigen »Syndicating«. Wenn man so will, kann jeder Anbieter eines solchen Suchdienstes sein. Suchmaschinen sind daran interessiert, aus möglichst vielen Webbseiten genutzt und dadurch indirekt von ihnen empfohlen zu werden. Deswegen bieten viele die Möglichkeit an, ein kleines Suchformular auf die eigene Website zu platzieren, von dem aus eine Suche bei der Suchmaschine ausgelöst werden kann. Unternehmen wie Yahoo oder MSN machen es grundsätzlich nicht anders, allerdings steht dahinter eine kommerzielle Vereinbarung. In Kapitel 8 finden Sie eine Übersicht über wichtige Suchmaschinen und sehen, wer dabei auf fremde Datenbestände zurückgreift.
71
3 Wissenswertes zu Suchmaschinen
왘 Einige Suchmaschinenbetreiber sind recht erfolgreich damit,
die begehrten vorderen Plätze der Ergebnisseiten zu verkaufen oder sogar zu versteigern, zum Beispiel www.overture.com. Speziell beim Versteigern von vorderen Eintragsplätzen ist die Hoffnung dieser Unternehmen, dass sich Wettbewerber im Bemühen um die beste Platzierung gegenseitig zu immer höheren Platzierungsgebühren steigern können. Dieses Geschäftsmodell – Ranking gegen Geld – kommt nicht bei allen Unternehmen schlecht an: Große Unternehmen müssen oft feststellen, dass sie bei den Ergebnissen weit hinter kleinen Anbietern stehen, die aktiver und einfallsreicher waren, die besser wussten, worauf es ankommt, wenn man nach vorne kommen will, oder die einfach durch einen Zufall dort gelandet sind. Unternehmen, die bereit sind, für Platzierungen zu investieren, werden deshalb käufliches (oder sogar zu ersteigerndes) Ranking begrüßen. Google geht einen interessanten anderen Weg: Im Rahmen der AdWord-Kampagne kann man günstig einen eher schlichten Werbeplatz neben der Ergebnisliste buchen, der Benutzern gezeigt wird, die bestimmte Suchwörter eingegeben haben, maximal zwei Anbieter je Ergebnisseite haben zusätzlich die teurere Möglichkeit, sich oberhalb der Ergebnisliste, aber optisch klar von dieser getrennt, zu platzieren. Wenn man akzeptiert, dass auch ein Anbieter eines Suchdienstes ein funktionierendes Geschäftsmodell braucht, welches ihm das wirtschaftliche Überleben sichert, ist ein solches Vorgehen sicher zulässig. Auf jeden Fall ist die Trennung von Suchergebnis (quasi dem redaktionellen Teil) und Werbung zu begrüßen. Web.de macht es genau umgekehrt: Es gibt keine freie Anmeldung mehr, stattdessen muss man, um in das Verzeichnis aufgenommen zu werden, einen jährlichen Obolus zahlen, der schon für einen schlichten Eintrag bei 24 Euro liegt. In den Statistiken der Web-Beobachter, wie zum Beispiel etracker.de, ist Web.de nicht unter den großen Erzeugern von Verkehr zu den Websites, man sollte sich also überlegen, ob es den Einsatz lohnt. 왘 Viele Suchmaschinen haben Schwierigkeiten, profitabel zu
sein. Ein Beispiel ist Excite.de, das Ende 2001 den Betrieb einstellen musste.
72
Wichtig: Nutzerverhalten einschätzen
Es ist zu erwarten, dass sich die Zahl der Betreiber von Suchmaschinen in Zukunft nicht nennenswert steigern wird, selbst wenn neue Anbieter mit immer raffinierteren Ideen hinzukommen, und dass der kommerzielle Anreiz, Ranking zu verkaufen, weitere Anbieter dazu bringen wird, das Konzept zu übernehmen. Andererseits wird der wirkliche Erfolg einer Suchmaschine eher über die Zahl ihrer Nutzer definiert, und ob eine Suchmaschine, die empfunden wird wie ein Anzeigenblatt, noch genauso häufig aufgerufen wird, ist fraglich. Wenn dann die Nutzer ausbleiben, steht das Geschäftsmodell allgemein in Frage.
3.4
Wichtig: Nutzerverhalten einschätzen
Die meisten Nutzer sind eher träge: Sie entscheiden sich einmal für eine Suchmaschine, und verwenden dann überwiegend diese für einen Zeitraum von vielen Monaten oder Jahren. Manche kennen alle Tricks der Profisuche, wie »und«-, »oder«- oder »nicht«Verknüpfungen, die bei einer anderen Suchmaschine anders funktionieren und erst neu gelernt werden müssen (siehe Kapitel 4). Außerdem sind sie überzeugt, dass der Mix aus Reaktionszeit, sowie Umfang, Relevanz und Aktualität der Ergebnisse für sie richtig ist. Auch Stilfragen sind vielen Benutzern wichtig, wie die klare Trennung von redaktionellem Teil – also den Suchergebnissen und eventuellen weiteren Inhalten, wie Nachrichten – auf der einen Seite und Werbeeinblendungen auf der anderen. Auch Popup-Fenster, die sich ungewollt beim Öffnen der Seite auftun, tragen nicht gerade zur Kundenzufriedenheit bei. Es ist sicher kein Zufall, dass die wirklich erfolgreichen Sites ohne sie auskommen. Möglicherweise hat die für Sie interessante Benutzergruppe hinsichtlich Suchmaschinen ganz spezielle Vorlieben, die Sie kennen sollten? Möglicherweise ändern sich diese gerade jetzt. Vielleicht werden in naher Zukunft neue technische oder kommerzielle Angebote auf den Markt kommen, die von der von Ihnen anvisierten Zielgruppe dankbar angenommen werden? Sie werden nicht umhin kommen, den Suchmaschinenmarkt laufend weiter zu verfolgen. Das Wissen aus diesem Buch mag Ihnen dabei helfen, dies mit einem kritischen Blick für das wirklich Wesentliche und für die Zusammenhänge zu tun.
73
4
Wie Suchmaschinen funktionieren
4.1
Speichern und suchen...
Wenn man sich einmal die Wortlisten vor Augen hält, die von den Suchmaschinen – insbesondere von den Robotern – vorgehalten werden, wird man erkennen, wie umfangreich sie sind. Es handelt sich hierbei um den größten Teil des Wortschatzes vieler Sprachen, einschließlich Komposita (zusammengesetzter Wörter) und Abkürzungen. Hinzu kommen exotische Kombinationen aus Zahlen, Buchstaben und Sonderzeichen, wie sie beispielsweise bei Artikelnummern, Preisangaben, ISBN-Nummern und vielem mehr verwendet werden. Viele Suchmaschinen können wahlweise zwischen Groß-/Kleinschreibung unterscheiden oder dieses unterlassen, prüfen auf mögliche Schreibfehler bei der Eingabe des Suchbegriffs und weiteres. Bei Eingabe mehrerer Wörter können diese als »oder«-, »und«- oder Phrasenverknüpfung behandelt werden oder als Kombination davon. Manche können Seiten auch noch übersetzen, wobei allerdings die dabei erzielten Ergebnisse eher als Beitrag zur Komik im Alltag taugen denn durch Nutzwert auffallen, aber immerhin gibt es diese Möglichkeit. Und das alles geschieht innerhalb weniger Sekunden, meist sogar in Bruchteilen davon. Der Aufwand für Hard- und Software, den die Betreiber leisten müssen, ist enorm. Neben attraktiver Funktionalität und Schnelligkeit spielen zusätzlich Faktoren wie Ausfallsicherheit und Schutz vor böswilligen Angriffen eine Rolle. Man kann zu Recht annehmen, dass die beteiligten Computerexperten, von den Entwicklern über die Systemadministratoren bis hin zum Management, zu den besten in der Branche gehören. Weiter oben haben wir schon gesehen, dass es für Suchmaschinen schwierig sein kann, die Listen jener Adressen abzuarbeiten, die es zu besuchen gilt. Tatsächlich geht das Problem noch tiefer, und
75
4 Wie Suchmaschinen funktionieren
zwar für beide Typen von Suchmaschinen mit eigenem Index, Roboter und Verzeichnisse. Diese URL-Listen werden nämlich aus mehreren Quellen gespeist: 왘 Hyperlinks, die in besuchten Seiten gefunden worden sind; 왘 URLs von Seiten, die bereits besucht worden sind und nun
erneut zur Überprüfung anstehen; 왘 URLs, die von Anbietern von Inhalten neu mitgeteilt worden
sind. Wenn man in diesem Zusammenhang noch bedenkt, wie schnell das World Wide Web wächst und wie groß die Anzahl der laufend neu eingestellten Inhalte ist, dann überrascht es nicht, dass viele Suchmaschinen den Eindruck machen, davon überfordert zu werden: 왘 Neu angemeldete URLs werden oft erst Wochen später besucht
und in die Datenbank aufgenommen – oder gar nicht. 왘 Der Wiederbesuchsrhythmus liegt (trotz Meta-Tag »revisit
after«, darauf kommen wir noch zu sprechen) im Bereich von Monaten.1 왘 Entgegen den Versprechen der Suchmaschinenbetreiber, dass
ein URL ausreiche, und dass die weiteren Inhalte der Website von dort aus über die Navigier-Hyperlinks sofort gefunden werden, werden in Wirklichkeit nur einzelne Seiten sofort besucht und erfasst, die restlichen Inhalte kommen erst nach weiteren Wochen. 왘 Seiten, die zu früheren Zeiten schon im Index gewesen sind,
scheinen zu einem Zeitpunkt aus ihm entfernt worden zu sein, und können zu späteren Zeiten wieder in den Ergebnissen gefunden werden.
1
76
Beobachter von Google sind sich einig, dass der Besuchsrhythmus bei 1 bis 3 Monaten liegt, und dass es meist 2 bis 3 Besuchszyklen bedarf, bis eine Website halbwegs vollständig erfasst ist. Google selbst spricht übrigens von 28 Tagen Aktualisierungszyklus.
Wie Suchmaschinen eine Web-seite sehen
Besonders bei neu angemeldeten URLs ist es also wichtig, die Suchmaschinen genau zu beobachten und die Mittel immer wieder gezielt einzusetzen, mit denen sie sich steuern lassen (siehe Kapitel 8). Dabei sollten Sie grundsätzlich davon ausgehen, dass Ihre wichtigsten direkten Wettbewerber im Moment genau dasselbe tun. Besser, Sie gehen von dieser Annahme aus und stellen fest, dass Sie sich dabei getäuscht haben, als anders herum. Andererseits: Je mehr Personen die Mittel einsetzen, mit denen sich die Suchmaschinen beeinflussen lassen, um so mehr wachsen die Listen der auszuwertenden URLs an. Übertriebenes Anmelden wird als Spamdexing bezeichnet, von vielen Anbietern gleichzeitig angewandt würde es schnell zur Überlastung der Systeme führen. Es gilt also, ein für Sie und die Allgemeinheit vernünftiges Maß zu finden, wobei auch zu bedenken ist, dass sich die Suchmaschinen gegen dieses und andere Verfahren, sie zu überlisten, wehren können.
4.2
Wie Suchmaschinen eine Webseite sehen
Für Suchmaschinen sieht eine Seite im WWW anders aus als für den Nutzer, der sie sich in seinem Browser ansieht. Suchmaschinen sehen nur den für sie relevanten Teil des Codes, also zum Beispiel die Meta-Tags, den auf der Seite vorkommenden Text oder Alt-Texte von Bildern. Sie erkennen dagegen keine layouttechnischen Anordnungen wie Tabellenzellen, die sie nur als HTML-Tags wahrnehmen und mangels für sie interessanter Information ignorieren, oder Frames, in mehrere Bereiche unterteilte Browserfenster, die die meisten Suchmaschinen ebenfalls ignorieren. Außerdem sehen sie im Regelfall nicht, was in eingebundenen Flash-Animationen oder Java-Applets steht (siehe Kapitel 1). Auch Textelemente, die als Bilddatei eingebunden worden sind, sind natürlich für Suchmaschinen nicht erfassbar, zumindest für die uns hier interessierenden Text-Suchmaschinen. Nehmen wir unseren Beispiel-Code aus Kapitel 1.
77
4 Wie Suchmaschinen funktionieren
Im Browser dargestellt, sieht er folgendermaßen aus: Abbildung 4.1: HTML-Seite im Browser
Als Nutzer achtet man für gewöhnlich nach dem Prinzip »von links oben nach rechts unten« zuerst auf die Überschriften, dann auf die Navigation links. Danach nimmt man den Text wahr und zuletzt das Bild. Zuallerletzt wird bei Interesse der Text ganz durchgelesen. Eine Suchmaschine geht anders heran: Sie sieht nur den Quellcode und nimmt innerhalb diesem nichts wahr, was das Layout betrifft. Daraus ergibt sich folgendes Bild: <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1"> <meta name="author" content="Beispielautor"> <meta name="description" content="Beispielbeschreibung"> <meta name="keywords" content="Beispiel-Keywords"> Hier steht der Titel ...
78
Wie Suchmaschinen eine Web-seite sehen
Überschrift ... Link 1 ... Link 2 ... Link 3 ... Link nach draußen ... Unterüberschrift
Hier steht der Text der Seite. Hier steht der Text der Seite. Hier steht der Text der Seite. Hier steht der Text der Seite. Hier steht der Text der Seite. Hier steht der Text der Seite. Hier steht der Text der Seite.
... ...
Das würde im Browser dann so aussehen: Abbildung 4.2: Darstellung im Web-Browser ohne Tabellen
79
4 Wie Suchmaschinen funktionieren
Wie in Kapitel 8 ausführlicher behandelt, messen manche Suchmaschinen den Überschriften besondere Bedeutung zu. Außerdem registrieren sie, welche Seiten durch Hyperlinks verknüpft sind, wobei Web-interne wie externe, also auf andere Websites verweisende Hyperlinks wichtig sind. Nicht zuletzt wird natürlich der Textinhalt dieser Seite aufgenommen. Hierbei gilt: Was weiter vorne steht, erhält sehr wahrscheinlich auch die höhere Bewertung. Außerdem beachten einige Suchmaschinen auch den Text, der bei Bildern angezeigt wird, wenn der Benutzer die Maus darauf legt. In HTML handelt es sich hierbei um das alt-Attribut zum -Tag. Eine Übersicht über das Verhalten von Suchmaschinen finden Sie ebenfalls in Kapitel 8.
4.3
Platzierung in der Ergebnisseite
Suchmaschinen führen Wortlisten, in denen Verweise zu den ihnen bekannten Webseiten stehen. Man nennt eine solche Wortliste »Index«. Die Verweise werden automatisch erzeugt, wenn die Suchmaschine eine Seite abarbeitet. Man könnte also sagen, die Suchmaschinen »lesen« Webseiten und werten die darin gefundenen Wörter aus. Wenn der Suchende dann seine Suchbegriffe in das Web-Formular der Suchmaschine eingibt und dieses absendet, schaut die Suchmaschine nach, welche Verweise sie zu den entsprechenden Wörtern in ihrem Index findet und erzeugt daraus die Ergebnisseite. Die zentralen Fragen dieses Buches sind ja, wie man sicherstellt, dass die eigenen Seiten in diesen Ergebnislisten zu finden sind, und zwar an möglichst hoher Position. In diesem Zusammenhang sind zwei Konzepte für die Bestimmung der Platzierung wichtig: 왘 Relevanz: Die Übereinstimmung des Seiteninhalts mit dem
gesuchten Begriff oder der Begriffskombination 왘 Ranking: Die Bewertung einer Seite aufgrund festgelegter
Maßstäbe, z.B. Link-Popularität
80
Platzierung in der Ergebnisseite
Leider gibt es für die Funktionalität der Suchmaschinen keinen allgemeingültigen Standard. Jeder Betreiber hat seine eigene Vorstellung davon, wie eine leistungsfähige Suchmaschine zu funktionieren hat und welche Möglichkeiten dem Benutzer zur Verfügung stehen, auf die Ergebnisausgabe Einfluss zu nehmen. Das gilt zum einen für den Benutzer. Wer mehrere Wörter für die Suche verwendet, sollte sich in der benutzten Suchmaschine schlau machen, wie diese miteinander zu verbinden sind. Bei einigen gelten Regeln wie die folgenden: Bedingung Beschreibung
Beispiel
Oder
Bei Angabe mehrerer Wörter muss davon mindestens eins in der Seite vorkommen
Weiße Katze
Und
Ein Wort mit einem vorangestellten +-Zeichen muss im Suchergebnis vorkommen
+Weiße + Katze
Nicht
Ein Wort mit einem vorangestellten –-Zeichen darf im Suchergebnis nicht vorkommen
-Weiße + Katze
String (Phrase)
In "" eingebetteter Text muss genau so im Suchergebnis stehen
»Weiße Katze«
Ähnlich
Ein Sternchen vor oder hinter einem Wort steht als Platzhalter für beliebige andere Zeichen
*atze*
Während Google zwei Suchwörter automatisch mit einer »und«Verbindung verknüpft, verwendet Altavista die »oder«-Verknüpfung. Die sehr unterschiedlichen Vorstellungen der Entwickler zeigen sich auch beim Einfluss, den der Anbieter von Inhalten auf die Ausgabe in den Ergebnisseiten hat. Die Informationen, die die verschiedenen Suchmaschinen den Benutzern ausgeben, sind sehr unterschiedlich. Auch das Ranking, also die Festlegung, in welcher Reihenfolge die Ergebnisse ausgegeben werden, erfolgt nach höchst unterschiedlichen Konzepten und Kriterien.
81
4 Wie Suchmaschinen funktionieren
Glücklicherweise gibt es aber einige Standardregeln, mit denen wir bei den meisten (wichtigsten?) Maschinen erfolgreich sein können. Diese werden unten beschrieben. Man darf sich auch nicht darauf verlassen, dass eine einmal erzielte Position in einer Ergebnisliste auf Dauer garantiert ist. Es hat sich im Gegenteil gezeigt, dass man den Vorgang des »Submitting«, der Anmeldung des eigenen URL, regelmäßig wiederholen sollte, da man ansonsten in Gefahr gerät, langsam wieder abzurutschen und von anderen Seiten verdrängt zu werden. Man muss auch damit rechnen, dass Ranking-Regeln von den Betreibern gelegentlich verändert werden, was insbesondere bei den großen Suchmaschinen zu beobachten ist. Mehr zu Ranking und Relevanz und zur Platzierung lesen Sie in Kapitel 8 – »Suchmaschinen steuern«.
4.4
Geschäftsmodelle der Suchmaschinenbetreiber
Noch ein Problem kommt auf Sie zu: Wie die einzelnen Suchmaschinen ihr jeweiliges Ranking genau betreiben, werden Sie selten sicher wissen. Zum Teil gibt es – meist eher vage – Aussagen der Betreiber selbst, dann gibt es Beobachtungen, die von Experten angestellt und diskutiert werden, und natürlich Erfahrungen von Anbietern von Inhalten, die gute Ergebnisse erzielt haben. Trotz allem, eine Unsicherheit bleibt. Auch einige der hier gemachten Einzelaussagen sind als Annahmen zu verstehen und mit entsprechender Vorsicht zu betrachten. Wenn Sie den Empfehlungen in diesem Buch folgen, werden Sie aber mit Sicherheit innerhalb weniger Wochen erleben, wie Ihre Inhalte in den meisten Ergebnislisten der Suchmaschinen unter den Top-Plätzen rangieren. Die Schnelligkeit, mit der Roboter neue Seiten aufnehmen bzw. vorhandene aktualisieren, schwankt stark. Beobachtungen zeigen, dass beispielsweise die Crawler von AOL sehr häufig indizierte Seiten wieder aufsuchen, um nach Änderungen Ausschau zu halten. Google dagegen besucht eine Website nur alle paar Wochen – vielleicht ist das der Preis der sehr großen Indexgröße, dass die Roboter in der Aktualisierungsleistung nicht mehr mithalten. Altavista scheint eher dazwischen zu stehen.
82
Geschäftsmodelle der Suchmaschinenbetreiber
Bei Verzeichnisdiensten hängt die Aktualität von den Personen ab, die die Datenbestände pflegen. Auch hier scheinen die mittlerweile recht großen Datenbanken dazu zu führen, dass die Aktualisierung hinterherhinkt. Wenn viele Suchmaschinenanbieter heute Portale mit Nachrichten darstellen (zum Beispiel Freenet.de oder AOL), so mag das auch als Ausgleich für die Trägheit der Suchmaschinen dienen: Schon aus technischen Gründen sind die Informationen, mit denen sie uns bedienen, oft nicht aktuell oder schon tatsächlich veraltet, beispielsweise durch ins Leere führende Hyperlinks. Zum Ausgleich erhalten wir dann eben das Neueste aus der realen Welt... Ein weiterer Tatbestand, der zu berücksichtigen ist, sind die Bemühungen der Suchmaschinen, sich vor Manipulation zu schützen. In den frühen Zeiten waren die Platzierungsregeln recht einfach, je häufiger beispielsweise ein Wort im Seitentitel, Überschriften, Meta-Tags (wir kommen noch darauf) und am Anfang des Textes stand, umso relevanter wurde er betrachtet, wenn ein Benutzer gerade dieses Wort in die Suchmaschine eingab. Das Ergebnis waren Anbieter von Seiten, die sich gegenseitig mit der Häufigkeit des Wortes »Sex« im Titel überboten. Dazu könnten noch mehr Beispiele genannt werden, aber in unserem Kontext können wir uns das wohl ersparen. Mittlerweile haben Suchmaschinen Funktionen, solche Manipulationsversuche zu erkennen, entsprechende Seiten würden in die Datenbank gar nicht mehr aufgenommen werden. So sehr eine solche »Netiquette« auch zu begrüßen ist, die jeweils verwendeten Ausschlussregeln werden nicht publiziert, und es kann einem ahnungslosen Anbieter von Inhalten dadurch passieren, dass er versehentlich eine solche Regel verletzt. Die Seite wird dann möglicherweise nicht nur nicht in die Datenbank aufgenommen, manche Suchmaschinen führen regelrechte Sperrlisten: die Seite, die einmal darin aufgenommen worden ist, wird auch so schnell nicht wieder besucht. Es ist sogar damit zu rechnen, dass eine nicht akzeptierte Seite zum Ausschluss der ganzen Website führen kann (siehe auch Kapitel 8). Also Vorsicht!
83
4 Wie Suchmaschinen funktionieren
Zur Zeit erweitern viele Suchmaschinen-Anbieter ihr Angebot, was das Anmelden von URLs betrifft. So bieten zum Beispiel AltaVista und Yahoo die Möglichkeit, dass anhand eines kostenpflichtigen »Express Service« angemeldete Seiten laut Aussagen der Betreiber schneller in den Index aufgenommen und häufiger vom Roboter besucht und somit aktualisiert werden. Genaueres darüber lesen Sie in Kapitel 7. Übrigens wird derzeit eine rechtliche Problematik diskutiert, die damit zusammenhängt, dass Suchmaschinen natürlich täglich jede Menge URLs indizieren, die – sozusagen an der Eingangsseite vorbei – direkt auf die für das Suchergebnis relevanten Unterseiten eines Web-Auftritts führen. Das Problem nennt sich Deep Linking. Dieser Begriff wird nicht nur im Zusammenhang mit Suchmaschinen gebraucht, sondern generell immer dann, wenn eine direkte Verlinkung von untergeordneten Seiten eines fremden Angebots stattfindet. Manche Firmen haben bereits begonnen, das Deep Linking ihrer Seiten zumindest theoretisch zu verbieten, weil sie das als eine Urheberrechtsverletzung ansehen, und haben ihren Disclaimer – ihr Dokument zu Nutzungsrechten der Webinhalte und zur Freistellung von Verantwortlichkeit bei Missbrauch oder technischen Fehlern – entsprechend verfasst. Problematisch wird Deep Linking aus Sicht vieler Firmen vor allem dann, wenn sie durch diese Praxis finanzielle oder rechtliche Interessen in Gefahr sehen. Dem Benutzer entgeht eventuell Werbung, die auf der Startseite geschaltet ist, was zur Folge hat, dass dem Anbieter der Seite die entsprechenden Einnahmen fehlen. Auch werden Seiten mit Angaben zu Copyright, Markenrechten etc. umgangen, was für den Anbieter bei einer späteren juristischen Auseinandersetzung zu Nachteilen führen könnte. Wenn nun doch jemand auf Seiten einer solchen Firma anhand von Deep Links verweist, kann sich diese Person tatsächlich strafbar machen? Die Rechtsprechung ist zum Zeitpunkt der Drucklegung dieses Buches noch nicht einheitlich, neigt aber offenbar eher der Sichtweise der Gegner von Deep Linking zu. Suchmaschinen leben jedoch vom Deep Linking, es ist ihr zentrales Funktionsmerkmal, und alle miteinander führen dies in jeder Sekunde viele tausend Mal durch. Ein Roboter kann auch nicht jedes Mal den Disclaimer eines Web-Auftritts lesen und dann erst entscheiden, ob die Seiten aufgenommen werden sollen. Selbst ein von Menschen redigierter Verzeichnisdienst steht vor dem glei-
84
Geschäftsmodelle der Suchmaschinenbetreiber
chen Problem: Den Redakteuren ist nicht zuzumuten, ellenlange Texte mit Vorschriften zur Nutzung der Website durchzulesen. Wenn sich die Sichtweise durchsetzen sollte, dass Deep Linking geistige Eigentumsrechte verletze, werden die Suchmaschinenbetreiber ein juristisches Problem bekommen, bei dem unsicher ist, ob es sich durch technische Maßnahmen lösen lässt. Etwas mehr Augenmaß bei den betroffenen Parteien scheint dringend notwendig. Ebenfalls problematisch ist die Tatsache, dass manche Suchmaschinen, wie zum Beispiel Google, Seiten duplizieren und in den suchmaschineneigenen Cache aufnehmen. Auch das könnte man im engen Sinne als eine Art Copyrightverletzung interpretieren. Somit befinden sich Suchmaschinen in einer Art rechtlicher Grauzone, und im Umfeld dieser Technologie bedarf wohl noch einiges einer endgültigen Klärung.
85
5
Elemente eines professionellen und suchmaschinengerechten Web-Auftritts
Auch wenn Elemente eines professionellen Web-Auftritts nicht der eigentliche Inhalt dieses Buchs sind – wir kommen um das Thema nicht herum, da es ja kein wünschenswertes Ziel sein kann, eine für Suchmaschinen optimierte Website zu entwickeln, die zwar jeder findet, mit der aber niemand mehr etwas anfängt. Außerdem ist zu bedenken: Sobald Sie eine Website erfolgreich bei Suchmaschinen angemeldet haben, verringert sich ihre Freiheit drastisch, diese zu überarbeiten und zu verändern. In den Suchmaschinenindices finden sich dann nämlich in großer Zahl Verweise auf Seiten, die sie nicht mehr umbenennen geschweige denn löschen sollten, da sonst der Besucher den Fehler »http Error 404 – File not found« beziehungsweise »Datei nicht gefunden« erhält, und den wollen wir ihm sicher ersparen. Wenn man sich früher über verschiedene Versionen an den optimalen Webauftritt hingearbeitet hat, so ist heute allgemein sehr viel mehr Planung notwendig. Wenn die Website dann überarbeitet oder komplett erneuert wird, wird man sich überlegen müssen, wie das gelingt, ohne die erzielten Platzierungen zu gefährden.
5.1
Der Domänenname
Viele Suchmaschinen reagieren auf Übereinstimmungen zwischen Suchbegriffen der Benutzer und den Wörtern, die in der Adressee der Seite zu finden sind. Daraus ergeben sich zwei Strategien, die man verfolgen kann: 왘 Belegen von Domänennamen mit Begriffen, die aussagekräftig
und als Suchbegriffe zu erwarten sind.
87
5 Elemente eines professionellen und suchmaschinengerechten Web-Auftritts
Dieses Verfahren hat eine sehr hohe Wirkung, ist aber auch nicht gerade billig. Zu prüfen ist auch, welche Domänennamen überhaupt noch frei sind und wie letztlich der Effekt der oft seltsamen Domänennamen beim Benutzer ist. Bei den meisten Suchmaschinen gibt es auch eine Rangfolge der Toplevel-Domänen, also der Endungen: Rang
ToplevelDomänen
1
gov, edu, org
2
com
3
net; de, uk und weitere Länderdomänen
Bemerkung Da die meisten deutschen Suchmaschinen auf amerikanische Datenbestände zurückgreifen, steht auch hier gov ganz oben Rangfolge der Länderdomänen nach ihrer Größe oder Bedeutung. »de« steht weit vorne, da dies nach com die zweitgrößte Toplevel-Domäne ist.
왘 Erzeugung von »sprechenden« Namen von Unterverzeichnis-
sen und Dateien, die mit Suchbegriffen und insbesondere mit Wort-Kombinationen zusammenpassen. Auch dies ist recht wirkungsvoll und zudem kostenlos. 왘 Keine zu »tiefen« und verschachtelten Verzeichnisstrukturen
erzeugen. Die meisten Suchmaschinen gehen nicht weiter als bis zur fünften oder sechsten Verzeichnisebene, wenn sie eine Website erfassen, manche hören bereits nach der zweiten auf.
5.2
Dateistruktur und Benutzerführung
Wenn man sich den Internetauftritt vieler erfolgreicher Unternehmen anschaut, wird man manchmal feststellen können, dass sie in diesem Medium einiges vergessen haben, was sie sonst an Kundenfreundlichkeit und verkäuferischer Professionalität leisten. Wer seine Support-Kosten senken will, indem er dem Kunden technische Dokumente und Treiber zum Download anbietet, sollte den Kunden auf möglichst kurzem Weg zur Datei führen. Sonst
88
Dateistruktur und Benutzerführung
muss er eben damit rechnen, dass ihm der Kunde bald doch telefonisch Kosten verursachen wird, weil er das Gesuchte nicht aus eigener Kraft gefunden hat. Dass er dabei kein zufriedener Kunde sein wird, versteht sich ebenfalls. Schon der Versuch, das Internet zu nutzen, um eine Telefonnummer oder E-Mail-Adresse schnell zu ermitteln, scheitert bei manchen Web-Auftritten. Schlimmstenfalls kann man bei einem Unternehmen sogar zu dem Eindruck gelangen, es möchte lieber in Ruhe gelassen werden. Der Betreiber einer Website sollte sich klarmachen, dass jeder Aufruf einer Datei seine wertvollen Server-Ressourcen nutzt und somit für andere blockiert: Bandbreite, Prozessor und Speicher kosten zwar nicht mehr viel, aber wir wollen doch viele Benutzer gleichzeitig bedienen und wünschen uns dafür schnelle Response-Zeiten. Benutzer, die eine Website verzweifelt nach Inhalten durchsuchen, machen den Server langsamer für diesen und andere Besucher, insbesondere, wenn die Inhalte für jeden Benutzer dynamisch neu erzeugt werden müssen. Wer Suchmaschinen intensiv nutzt, muss noch etwas anderes bedenken: Jede Seite kann zur Einstiegsseite in den Webauftritt werden. Die Benutzerführung muss auch dann stimmen, wenn die erste besuchte Seite nicht die »index.htm« oder »default.htm« ist, also die Seite, die gerne als Homepage bezeichnet wird, und von der aus man die Benutzer normalerweise zu den interessierenden Seiten führt. Die folgenden Grafiken zeigen ein einfaches Web aus acht Seiten, die durch Hyperlinks verknüpft sind. Links findet ein Benutzer dieses Web durch Eingabe des URL, der auf die Startseite verweist. Von da aus kann eine Benutzerführung eingerichtet werden, die ihn letztlich zu den gewünschten Inhalten bringt. Im rechten Beispiel dagegen finden Benutzer das Web über Suchmaschinen. Diese haben alle Seiten in ihren Index aufgenommen, so dass jede Seite nun der Einstiegspunkt für einen Besucher sein kann.
89
5 Elemente eines professionellen und suchmaschinengerechten Web-Auftritts
Abbildung 5.1: Einstiegspunkte über URLEingabe des Benutzers (links) und über Suchmaschine (rechts)
5.3
Die Webseiten
Im Mittelpunkt jedes Web-Auftritts stehen die Seiten – in HTML geschriebene Dateien, eventuell erweitert durch Grafiken und andere Multimediaelemente und durch Codeelemente, die für Interaktivität sorgen.
5.3.1
Zielsetzung
Bei manchen Web-Auftritten von Firmen kann man sich fragen, ob sie ihren Zweck eigentlich ganz erfüllen. Ein bisschen belanglosen Text darüber, wie gut man ist, Fotos vom Chef und seinem Hund, die wichtigsten Produkte, der nächste Messeauftritt, vielleicht eine Seite mit Pressemeldungen zur Selbstbedienung für Reporter. Oft findet man keine Telefonnummer der Firma oder einen Hyperlink, anhand dessen man ihr eine Mail schicken kann. Dafür gibt es manchmal Kontaktformulare, in denen Felder mit roten Sternchen geschmückt sind, die an anderer Stelle als Markierungen für »Pflichtfelder« beschrieben werden. Schon das Wort lässt die meisten Nutzer erschaudern oder wenigstens zögern. Normalerweise wird das Internet doch als ein Ort der Freiwilligkeit betrachtet. Nicht gerade selten sind auch Hyperlinks, die versprechen, auf Seiten zu führen, in denen man etwas zu offenen Stellen, neuen Produkten oder zu aktuellen Preisen erfahren soll. Man klickt sie an und erhält auf der nächsten Seite vielleicht nur eine Telefonnummer, die man anrufen soll, um sich zu informieren.
90
Die Webseiten
Ebenso unbeliebt bei Internet-Nutzern ist die »Verwechslung« von interaktiv mit hyperaktiv. Es flimmert und flackert, animierte Gifs und misslungene Flash-Animationen werden vielleicht noch übertitelt von einem Marquee, einer Laufschrift, für die MicrosoftBrowser leider nur einen einfachen HTML-Tag brauchen. Schlimmstenfalls fühlt ein Kunde sich so eher auf dem Times Square als in seinem Wohn- oder Arbeitsbereich. Auch manche Seiten mit Informationen für Aktionäre fallen unangenehm auf, weil sie nicht professionell genug gestaltet sind: Die Inhalte sind längst veraltet, einseitig, Kaufempfehlungen von Profis werden zitiert, nicht aber, dass die vielleicht inzwischen wieder zurückgezogen wurden. Bei manchen der im neuen Markt abgestürzten Unternehmen kann man sich fragen, ob es nicht doch auch ein bisschen an der unprofessionellen Website gelegen haben könnte. Der Internet-Auftritt sollte als eine öffentliche Aktivität verstanden werden. Jeder Mensch auf dieser Welt, der technisch über einen Zugang zum Internet und über einen Webbrowser zur Darstellung der Inhalte verfügt, kann sehen, wie sich der Anbieter damit präsentiert. Eine Website ist für das öffentliche Image eines Unternehmens somit ähnlich wichtig wie das Firmengebäude oder das persönliche Auftreten von Geschäftsführern und Mitarbeitern. Die Website ist die elektronische Visitenkarte des Unternehmens. Bevor die erste Zeile HTML geschrieben wird, sollte also ein strategisches Konzept erstellt werden, was mit der Website erreicht werden soll. Nicht jeder Kunde ist über das Internet erreichbar und nicht alles lässt sich per World Wide Web verkaufen. Geschäftsziele für die Website sollten realistisch erreichbar sein. Zuerst muss also definiert werden, wer die Zielgruppe ist, und was für diese überhaupt in Frage kommt. Wer Produkte oder Dienste verkauft, die nach einer solchen Analyse als über das Internet erfolgreich handelbar erscheinen, sollte dies probieren. Es gibt aber auch eine Vielzahl anderer Zwecke, für die der Internet-Einsatz sinnvoll sein kann: 왘 Bereitstellung von Kundensupport per Selbstbedienung mit
Entlastung des eigenen Personals (zum Beispiel Vorhalten von Datenblättern oder Treibersoftware, vielleicht auch Handbücher und Hilfen bei Problemen) 91
5 Elemente eines professionellen und suchmaschinengerechten Web-Auftritts
왘 Verbreitung tagesaktueller Information (zum Beispiel zur Ver-
fügbarkeit von Personen und Betriebsmitteln, Tagespreise und -kurse) 왘 Einstellung von Zeichnungen, Bildern, Exposés und anderen
Beschreibungen zu erklärungsbedürftigen Produkten, wie Immobilien, Maschinen- und Anlagentechnik, die vom Außendienst, aber auch von Kunden selbst genutzt werden können 왘 Sammlung von Adressen, Telefonnummern und E-Mail-
Adressen (letztere mit Checkbox, dass der Kunde den Versand von Werbenachrichten über dieses Medium akzeptiert – Spam1 gilt zu Recht als unlauterer Wettbewerb) 왘 Nennung von Referenzen (schaffen Vertrauen – und fängt
nicht alles Verkaufen mit Vertrauen an?) 왘 Veröffentlichung von ethikbezogenen Inhalten des Unterneh-
mens. Noch nicht viele Unternehmen haben einen Code of Conduct, also einen für Unternehmensleitung und Mitarbeiter verbindlichen Verhaltenskodex. Wo es diesen aber gibt, gehört er in die Website. 왘 Verteilung von Software, aber auch von Beta- und Demover-
sionen für Test und Evaluation. In Gesprächen zu diesem Thema hört man oft die Angst der Unternehmen davor heraus, dem Wettbewerber zu viel Information zu geben. Man muss diesen Einwand sicher ernst nehmen, andererseits: 왘 Teilen Sie Ihrem Kunden etwas mit, und der Wettbewerb wird
es erfahren. Falls der Wettbewerber professionell aufgestellt ist – und davon sollte man immer ausgehen – wird sein Außendienst den Kunden als Informationsquelle nutzen. In einem solchen Unternehmen werden Information zum Wettbewerb, also zu Ihrem Unternehmen, ohnehin sofort in die Zentrale geleitet und dort weiterverarbeitet. 왘 Die interessantesten Informationen zur Strategie eines Unter-
nehmens erhält man ohnehin meist über die von ihm publizierten Stellenangebote. Wer bereit ist, für eine neue Entwicklung in Mitarbeiter zu investieren, dem muss dies 1
92
Spam: unverlangt versandte Massenwerbung per E-Mail. Die meisten Benutzer empfinden dies übrigens als Plage.
Die Webseiten
etwas bedeuten, und die Anforderungen an den Mitarbeiter erzählen etwas darüber, was das Unternehmen plant. Selbst eine zwischengeschaltete Personalagentur lässt oft immer noch erkennen, wer der Auftraggeber ist, und was er vorhat. Die obigen Beispiele für Internet-Strategien sind natürlich nicht vollständig. Sie sollten unbedingt mit einer allgemeinen Unternehmens- und Produktstrategie integriert werden. Es mag insbesondere sinnvoll sein, einen übergeordneten Marketing-Plan zu entwickeln, der die unterschiedlichen Marketing-Aktivitäten als eine Gesamtanstrengung beschreibt und jedem Element im darin vorgesehenen Marketing-Mix seine Rolle und Aufgabe zuweist. In einem solchen System müssen die Aktivitäten im Internet mit den anderen Marketing-Maßnahmen koordiniert sein, so dass sie sich gegenseitig unterstützen und verstärken. Was spricht in einem Marketing-Mix für die Verwendung des Internet und hier speziell des World Wide Web? Zuerst einmal die Kosten. Für ein derart dynamisches und interaktives Medium eigentlich lächerlich niedrig. Obwohl dies nicht täuschen darf: Der Preis für einen komplexen und Datenbankgetriebenen Auftritt mit integriertem Buchungs- oder Bestellsystem kann schnell siebenstellig werden. Im allgemeinen ist der Preis je Kontakt dennoch deutlich niedriger als bei anderen Maßnahmen, wie Direct Mail, Telefonmarketing oder gar dem Kundenbesuch. Ein weiterer Vorteil ist die Funktionalität. Daten lassen sich in kaum einem anderen Medium derart einfach aktuell halten. Wir können zudem in begrenzte Kommunikation mit einem Kunden eintreten, ohne dafür einen Mitarbeiter abstellen zu müssen. Die Daten, die wir sammeln, können direkt in anderen Medien weiterverwendet werden. Dazu gehören zuerst einmal unsere Logfiles, die vom Server erzeugten Protokolle, mit denen wir das Surf-Verhalten unserer Besucher auswerten können. Außerdem werden wir versuchen, vom Kunden weitere Informationen per Web-Formular zu sammeln, wie Name, vielleicht Adresse, mit Sicherheit aber die E-Mail-Adresse.
93
5 Elemente eines professionellen und suchmaschinengerechten Web-Auftritts
Kostensenkend kann sich auswirken, dass wir dem Kunden Informationen zum Selbstausdrucken anbieten können. Während dieser den Vorteil hat, nicht auf Post warten zu müssen, spart der Anbieter Druck und Versand. Dem Besucher zur Verfügung gestellte Informationen müssen nicht einmal selbst erstellt sein. Externe Hyperlinks auf fremde Inhalte können das eigene Angebot unterstützen und die Glaubwürdigkeit erhöhen – allerdings muss laufend das Dokument beobachtet werden, auf das verwiesen wurde, um sicherzustellen, dass am Zielort noch der erwartete Inhalt zu finden ist. Außerdem sollten diese Inhalte in einem anderen Fenster geöffnet werden – wenn dieses geschlossen wird, ist der Besucher wieder zurück im eigenen Angebot.2 Die Kunden, mit denen wir im Marktplatz Internet zu tun haben, sind für viele Unternehmen eine interessante Zielgruppe. Sie sind eher überdurchschnittlich gebildet, zahlungskräftig und oft erstaunlich bereit, Neues auszuprobieren. Andererseits finden wir hier alle Schichten sowie Alters- und Interessensgruppen vertreten. Es gibt sicher nicht mehr viele professionelle Einkaufsabteilungen, die das Internet nicht für Recherchen nach neuen Lieferanten nutzen. Auch Körperbehinderte erreichen uns leichter. Nicht zu unterschätzen ist auch der »Spaßfaktor«, den viele Benutzer mit dem Internet verbinden. Die potentiellen Kunden im Internet sind global. Noch nie war es so billig, das Interesse zu testen, das das eigene Angebot im Ausland wecken kann. Das World Wide Web ist ein Pull-Dienst. Der Benutzer muss Inhalte abrufen, es gibt (fast) keine Möglichkeit, ihm die Inhalte unverlangt zuzusenden.3 Das hat sein Gutes: Der Benutzer hat den ersten Schritt gemacht, indem er einen Hyperlink angeklickt oder einen URL eingetippt hat. 2
3
94
Dies ist nicht mit Pop-Up-Fenstern zu verwechseln, die oft als Teil von Werbeauftritten verwendet werden, und die von den meisten InternetNutzern grundsätzlich abgelehnt werden, weil es sie eher nervt als anspricht. Beispiele für das Gegenteil – Push-Dienste – wären Telefax und E-Mail. Die sich daraus ergebenden Nachteile in Form von Spam – unverlangt versandter Werbung – sind bekannt. Auch die oben genannten Pop-UpFenster lassen sich als Push-Kommunikation verstehen, allerdings meist als unerwünschte.
Die Webseiten
Dem stehen Einschränkungen gegenüber: Das World Wide Web hat etwas Belangloses und Unverbindliches an sich. Viele Besucher geraten versehentlich auf eine Seite oder sie stellen nach kurzer Zeit fest, dass sie eigentlich am Angebotenen gar nicht interessiert sind. Vielleicht haben sie selten gestellte Fragen, die in einer FAQ4-Seite keine Antwort finden. Oder sie sind einfach nur neugierig und wollen ohne Kaufbereitschaft ein bisschen stöbern. Negativ mag auch die Wettbewerbssituation sein. Schneller den »billigsten« Anbieter zu finden, ist nirgends so einfach wie im Internet. Argumente, die einen höheren Preis rechtfertigen würden (besserer Service, kürzere Lieferzeit), sind oft schwer zu übermitteln. Im Laden akzeptiert ein Kunden einen höheren Preis vielleicht mit der Überlegung »bestimmt würde ich den Artikel woanders billiger finden, aber das kostet Zeit, und jetzt bin ich schon mal da...« Im World Wide Web ist der billigere Anbieter nur wenige Mausklicks entfernt. Noch jemand ist nicht weit weg: Die Instanzen, die Angebote kritisch prüfen. Fachzeitschriften bieten Testergebnisse zum Download an, und in Diskussionsgruppen tauschen Benutzer ihre Erfahrungen aus. Dies kann den Verkaufserfolg fördern, aber auch bremsen. Eine weitere Hemmschwelle mögen Befürchtungen sein, die Herausgabe personenbezogener Daten könnte zu Problemen führen. Dieses Misstrauen bezieht sich nicht nur auf die oft genannte Kreditkartennummer, selbst die Herausgabe der eigenen MailAdresse kann dazu führen, dass man bald übermäßig mit Werbung bombardiert wird. Einen erheblichen Anteil an der Erzeugung von Misstrauen haben außerdem Organisationen, die sich dem Schutz von Urheberrechten und dem Kampf gegen »Software-Piraterie« (zumindest nach ihrer Interpretation) verschrieben haben. Software-Lizenzierung ist ein juristisch hochkomplexes Feld, und kaum ein Benutzer kann sich wirklich sicher sein, dass seine Festplatte hundertprozentig legal eingerichtet ist. Die Angst, über das World Wide Web könnten Unternehmen prüfen, ob Software lizenzwidrig installiert wurde, mag einem Fachmann übertrieben erscheinen, für den Normalbenutzer ist sie ein Quell der Verunsicherung. 4
FAQ: Frequently asked questions, häufig gestellte Fragen – welche das sind, darüber entscheidet der Anbieter der Inhalte.
95
5 Elemente eines professionellen und suchmaschinengerechten Web-Auftritts
Man kann die Verkaufssituation im Internet mit der in einem Einkaufszentrum oder einer Einkaufsstraße in einer Fußgängerzone vergleichen. Viele Passanten wollen nur bummeln, Schaufenster besichtigen, sich inspirieren lassen, Preise vergleichen. Die Kunst des Verkäufers ist es, diejenigen ausfindig zu machen, die mit tatsächlichen Kaufabsichten unterwegs sind, und vielleicht noch aus der Gruppe der Unentschlossenen einige zum Spontankauf zu motivieren. Noch besser geeignet erscheint mir der bereits des öfteren in diesem Buch erwähnte Vergleich mit einem Marktplatz. Um auf einem Wochen- oder Krämermarkt zu überleben, muss man bereit sein, sich dem direkten Wettbewerb jeden Tag aufs Neue zu stellen. Den eigenen Auftritt regelmäßig überprüfen und anpassen. Auch im Internet heißt Professionalität, jeden Tag etwas dazuzulernen und dieses auch sofort umzusetzen. Integration von Marketinganstrengungen bedeutet, jedes Element im Marketing-Mix so einzusetzen, dass es seine spezifischen Stärken ausspielen kann, und da, wo es Einschränkungen hat, diese durch andere Elemente und deren spezifische Stärken zu kompensieren. Das mag trivial klingen, die Praxis zeigt, dass das nur selten durchgängig umgesetzt wird.
5.3.2
Erscheinungsbild
Im Zweifel eher schlicht. Es gibt viele tolle Web-Auftritte, und Designprofis haben heute eine breite Palette an Werkzeugen, mit denen sie ihr Können umsetzen und sich aus der Masse der Angebote abheben können. Sie nutzen diese mit Können und Augenmaß und lassen sich diese Fähigkeit teuer bezahlen. Nicht zu vergessen ist dabei die Tatsache, dass ein aufwändiges Design, zum Beispiel mit Flash-Einbindung, die Chancen für hohe Platzierungen in Suchmaschinen verringern kann. Die Entscheidung sollte daher sorgfältig abgewägt werden. Normalerweise gilt also: Schlicht ist besser. Man schaue sich Dokumente auf Papier an, die als hochwertig empfunden werden. Sie sind meist schwarz auf weiß, verwenden eine schnörkellose Schrift und haben ein einfaches Layout, das aber durchgängig eingehalten wird.
96
Die Webseiten
Das Erscheinungsbild muss sich vor allem an drei Dingen orientieren: 왘 An der Zielgruppe – wer Kinder anspricht, muss anders auf-
treten als jemand, dessen Zielgruppe Senioren sind, und so weiter 왘 Am eigenen Angebot – für Exposés zu Immobilien ist ein ande-
res, gediegeneres Erscheinungsbild angemessen als für sportliche Automobile 왘 Am Anbieter – das Erscheinungsbild muss dem angestrebten
Image in der Öffentlichkeit entsprechen und sollte über die sonst auch verwendeten Elemente des Corporate Design für Wiedererkennung sorgen Fotos sind immer ein hervorragendes Mittel, das Erscheinungsbild aufzuwerten. Es ist aber zu bedenken, dass so gut wie jedes Bild der Nachbearbeitung bedarf, selbst ein professionelles Foto sollte nach dem Einscannen oder der Aufnahme mit der digitalen Kamera noch einmal zumindest hinsichtlich Tonwert und Gradationskurve korrigiert werden. Auch ist die optimale Kompression für einen schnellen Download bei minimalen Qualitätsverlusten nicht leicht zu finden. In das Werkzeugsortiment eines Webdesigners oder -entwicklers gehört darum neben dem Autorensystem unbedingt das Bildverarbeitungsprogramm, und man sollte gelernt haben, damit professionell umzugehen. Fotos werden von vielen Suchmaschinen ebenfalls erfasst. Google, Altavista und andere bieten die Möglichkeit, nach Bilddaten zu suchen. Da sich jedoch dieses Angebot nur eingeschränkt dafür eignet, Benutzer gezielt auf die eigene Seite zu führen, beschäftigen wir uns in diesem Buch nur am Rand damit.
97
6
Probleme für Suchmaschinen
Wenn unsere Website steht, die strategischen Ziele des Unternehmens unterstützt und die gewünschte Erscheinung und Funktionalität besitzt, könnten wir uns eigentlich an die Anmeldung bei den Suchmaschinen machen. Dies scheint auf den ersten Blick recht einfach zu sein, es ist nur erforderlich, die Startseite (»Homepage«) der Suchmaschine mitzuteilen, diese wird dann den darin befindlichen Hyperlinks folgen und so nach und nach die ganze Website erfassen. Andererseits sollten wir bedenken: Eine einmal erfolgreich angemeldete Website kann nicht mehr beliebig geändert werden. Speziell das Löschen oder Umbenennen von Dateien kann dazu führen, dass Benutzer, die von einer Ergebnisseite einer Suchmaschine zu uns geführt werden sollen, stattdessen ins Leere (beziehungsweise in die Fehlermeldung 404 – File not found / Datei nicht gefunden) geleitet werden können. Bevor wir daran gehen, unsere Website bei den Suchmaschinen anzumelden, prüfen wir deshalb, ob es darin nicht Stolpersteine gibt, die zu Problemen führen können. Stellen Sie sich für diese Aufgabenstellung doch bitte einmal vor, Sie wären Mitglied in einem Entwicklerteam eines Suchmaschinenbetreibers. Es gibt nun für Sie einige Produktziele, die Sie umsetzen müssen. 왘 Schnelligkeit – Ihre Suchmaschine soll in kurzer Zeit eine
große Zahl an Seiten auswerten können. 왘 Fähigkeit zu crawlen – man bezeichnet damit die Funktionali-
tät, Seiten zu »lesen« und darin Hyperlinks zu finden, und anschließend die Seiten, auf die sie verweisen, ebenfalls zu laden und auszuwerten.
99
6 Probleme für Suchmaschinen
왘 Relevante Ergebnisse – der Marktwert einer Suchmaschine
bestimmt sich letztlich daraus, wie intensiv sie genutzt wird. Suchmaschinen, die häufig unbrauchbare Ergebnisse liefern, zum Beispiel, weil sie sich durch Cloaking austricksen lassen, werden bei den Benutzern abgewertet. 왘 Unfangreiche Ergebnislisten – man kann diskutieren, ob man-
che der von den Suchmaschinen gelieferten Ergebnislisten nicht sogar zu umfangreich sind. Aber es gibt sicher keinen Zweifel, dass zu kleine Ergebnislisten eher unbefriedigend sind. 왘 Stabilität – Der Besucher, der eine Suchmaschine aufruft, die
gerade nicht verfügbar ist, wird auf eine andere ausweichen und eventuell bei dieser dann bleiben. 왘 Mehrsprachigkeit – Brauchbarkeit für zu durchsuchende Sei-
ten und Ergebnislisten in verschiedenen Sprachen. 왘 Optimale Nutzung des zur Verfügung stehenden Speicherplat-
zes. Die Anpassungen, die dafür zu entwickeln sind, wirken sich direkt auf das Verhalten der Suchmaschine aus:
6.1
Die Zeichensatz-Problematik
Eigentlich ein Problem, vor dem jeder Web-Autor steht, und das man ohnehin im Griff haben sollte. Im Zusammenhang mit den Suchmaschinen erhält es aber neue Bedeutung. Das Problem: Computer kennen Zeichen, also Buchstaben, Satzund Sonderzeichen, Ziffern, Leerstellen etc., eigentlich gar nicht wirklich. Sie tauschen im Web nur Zahlen aus, wobei jede Zahl für ein Zeichen steht. Welche Zahle für welches Zeichen steht, ist in sogenannten »Zeichensatztabellen« definiert. Wenn Sie zum Beispiel ihrem Kollegen in einer Nachricht per E-Mail das Wort »Internet« senden wollen, muss die Software das von ihnen geschriebene Wort in die Zeichenfolge 73 – 110 – 116 – 101 – 114 – 110 – 101 – 116
umwandeln. Der Rechner des Empfängers wandelt diese Zahlen gemäß der gleichen Zeichensatztabelle wieder zurück und der Empfänger sieht das Ergebnis wie gewünscht.
100
Die Zeichensatz-Problematik
Das Internet ist ein Netzwerk mit Rechnern unterschiedlicher Hersteller und Betriebssysteme. Auch die Tatsache, dass sie an verschiedenen Orten stehen, wirkt sich auf die hier beschriebene Problematik aus. Die heute verwendeten Zeichensatztabellen bestehen aus maximal 256 Zeichen, von denen die ersten 32 Zeichen – das sind die Zeichen von 0 bis 31 – für Text gar nicht zur Verfügung stehen, da das System sie für eigene Zwecke reserviert hat. Ab Zeichen 32 bis Zeichen 127 werden alle Zeichen auf allen Systemen einheitlich dargestellt, zumindest in den westeuropäisch/amerikanischen Zeichensätzen. Die Zeichen von 128 bis 255 sind dagegen auf unterschiedlichen Systemen immer wieder anders. In diesem Bereich befinden sich unsere deutschen Umlaute, das scharfe ß und viele Sonderzeichen, wie das Symbol für Grad (»°«) oder die hochgestellte 2. Wenn der Web-Autor seine Seiten, die er beispielsweise auf einem Windows-Rechner erstellt hat, sich auch auf diesem wieder anschaut, wird er das Problem gar nicht erkennen, da der Browser auf dem gleichen Betriebssystem läuft und somit die gleiche Zeichensatztabelle verwendet. Das Problem kann aber sichtbar werden, wenn er sich seine Seiten unter Apple Macintosh oder einer der vielen Unixversionen, wie zum Beispiel Linux ansieht. Wenn dort die Sonderzeichen falsch dargestellt werden, liegt es an den unterschiedlichen Zeichensätzen.1 Das Problem lässt sich relativ leicht lösen, wie wir gleich sehen werden, und ein guter Web-Entwickler macht das schon im Interesse seiner Darstellungsqualität für seine menschlichen Besucher. Ein Entwickler könnte sich aber auch sagen: Ich arbeite unter Windows, meine Kunden verwenden alle Windows, der Rest der Internetwelt interessiert mich nicht – warum soll ich mich um Zeichensätze und speziell um korrekte Darstellung von Sonderzeichen auf anderen Betriebssystemen kümmern?
1
Internet-Cafés sind übrigens oft eine gute Lösung, wenn man sich die eigene Seite auf einem fremden Betriebssystem oder einem unbekannten Browser ansehen möchte, da sie je nach Betreiber recht unterschiedlich ausgestattet sind.
101
6 Probleme für Suchmaschinen
Nun, er hat seine wichtigen Verbündeten, die Suchmaschinen, übersehen. Schauen wir uns doch einmal an, welche Betriebssysteme von ihnen verwendet werden: Suchmaschine
Betriebssystem
Google
Linux
Yahoo
FreeBSD
Lycos
Linux
Web.de
Linux
T-Online
Sun Solaris
MSN
Microsoft Windows 2000
Fireball
Compaq True64
MetaGer
Sun Solaris
Altavista
Linux
Open Directory Project
Sun Solaris
Außer MSN, dem »Microsoft Network«, das natürlich schon aus Prinzip nicht auf einem Microsoft-fremden Betriebssystem laufen darf, verwenden alle anderen Suchmaschinen diverse Unix-Varianten. Ohne Zweifel arbeiten die meisten dieser Systeme nicht mit dem Windows-Zeichensatz als Standardvorgabe. Die Lösung der Zeichensatzproblematik ist einfach, genauer gesagt gibt es sogar drei Lösungen:2 왘 Verzicht auf Sonderzeichen: Man sieht das recht oft im World
Wide Web: aus »ä« wird »ae«, aus »ß« wird »ss« und so weiter. Es werden also nur noch Zeichen verwendet, die Bestandteil des Zeichensatzbereichs sind, der in allen Betriebssystemen gleich ist. Das Verfahren ist jedoch nicht gerade suchmaschinenfreundlich, der Benutzer, der nach »Gefäß« sucht, wird die Seite mit der Schreibweise »Gefaess« nicht unter den Ergebnissen finden. Und die Anzahl der Benutzer, die diese Art der
2
Es gibt noch eine vierte Lösung: Die Festlegung des Zeichensatzes im http-Header des Webservers. Wer einen eigenen Web-Server administriert und damit diese Option selbst hat, wird wissen, wie man es macht, den meisten Lesern wird diese Option jedoch nicht zur Verfügung stehen, weshalb sie hier nicht weiter besprochen werden soll.
102
Die Zeichensatz-Problematik
Umschreibung von Sonderzeichen bei Eingaben in die Suchfelder der Suchmaschinen verwenden, ist aller Erkenntnis nach nahe Null. 왘 Verzicht auf Sonderzeichen im HTML-Quelltext: Deutlich bes-
ser als die erste Lösung. Im Quellcode wird aus ä ein ä und aus ß ein ß. Vom Browser des Benutzers werden diese Umschreibungen, die auch als »Character Entities« bezeichnet werden, in die korrekten Zeichen umgewandelt und dem Benutzer angezeigt. Gleiches können auch die Suchmaschinen, nach der Umwandlung werden die Wörter mit den korrekten Zeichen in den Index eingetragen. Nachteilig ist dabei jedoch, dass das Wort »Gefäß« im Quelltext als »Gefäß« nicht mehr unbedingt leicht lesbar und bearbeitbar ist. Dafür kann dann aber die grafische Oberfläche in WYSIWIG-Editoren hilfreich sein (siehe Kapitel 1). Einige Entities Sonderzeichen
Umschreibung
Ä
Ä
Ä
ä
Ö
Ö
Ö
ö
Ü
Ü
Ü
ü
ß
ß
“
"
왘 Festlegung des Zeichensatzes im Kopfteil des HTML-Quell-
codes, typischerweise ISO 8859-1. Die beste Lösung. Sie können anschließend normal weiter schreiben, ohne sich über die richtige Interpretation Ihrer Sonderzeichen Gedanken machen müssen – sowohl Suchmaschinen als auch die meisten WebBrowser wissen, wie sie damit umgehen müssen (das sehen Sie, wenn Sie Ihre Seiten in verschiedenen Umgebungen testen). <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1"> ...
103
6 Probleme für Suchmaschinen
6.2
Website nicht schnell genug verfügbar
Kehren wir noch einmal zu unserem Gedankenspiel zurück: Sie entwickeln einen Roboter, und dieser soll in kurzer Zeit große Mengen an URLs aufrufen, prüfen, ob von dort überhaupt Daten gesandt werden, und diese dann auslesen und in die Wortlisten des Index eintragen. Was kann eigentlich dazu führen, dass Roboter von einem URL keine Daten erhalten? Dafür gibt es mehrere Möglichkeiten: 왘 DNS – das DNS ist eine Art Telefonbuch des Internet, über das
sich die Rechner gegenseitig finden. Sollte es zu einem URL keine DNS-Nummer geben (diese wird als IP-Adresse bezeichnet), erhält der Roboter eine entsprechende Rückmeldung. Falls es sich hierbei nicht um einen Fehler im DNS-System handelt, gibt es zu dem URL keinen passenden Web-Server. Die Suchmaschine geht übrigens immer von letzterer Möglichkeit aus. 왘 Die angeforderte Seite gibt es nicht oder sie steht aus anderen
Gründen nicht zur Verfügung, zum Beispiel weil für ihren Aufruf eine Benutzeridentifikation notwendig ist. In diesem Fall erhält der Roboter ebenfalls eine Rückmeldung, zum Beispiel die bekannte http-Meldung 404 – File not found. 왘 Es kann auch sein, dass der Server ein technisches Probleme
hat, oder dass er überlastet ist. Auch die Leitungen zum Server könnten überlastet sein. Die Suchmaschine wird eine vordefinierte Zeit auf die Antwort warten und – falls sie bis dahin nichts erhalten hat – davon ausgehen, dass diese Seite nicht verfügbar ist. Sie wird die Seite aus dem Index löschen, die meisten Suchmaschinen entfernen dann übrigens gleich die ganze Website. Sie als theoretischer Entwickler sollen nun den Timeout bestimmen, den Zeitraum, in dem der Roboter auf Rückmeldung wartet. Lange Wartezeiten akzeptieren würde Ihren Roboter langsamer machen, also werden Sie einen knappen Zeitraum wählen. Der Anbieter der Seite hat nun folgendes Problem: Einerseits wünscht er sich eine hohe Besucherzahl, andererseits können viele Benutzer zur Leistungsbremse auf dem Server werden, die langen
104
Website nicht schnell genug verfügbar
Antwortzeiten wiederum können zum Ausschluss aus dem Index führen. Es gibt auch Beobachtungen, die für einige Roboter nahe legen, dass in die Festlegung des Ranking einer Website, das ist die allgemeine Bewertung unabhängig von der inhaltlichen Übereinstimmung mit den Suchwörtern des Benutzers, Antwortzeiten mit eingehen. Die Betreiber der Suchmaschinen selbst haben das nicht bestätigt, und es ist auch schwierig nachzuweisen. Aber es fällt schon auf, dass bei vielen dieser Systeme die top-platzierten Suchergebnisse meist auf schnelle Sites verweisen. Wir sehen also, wie wichtig es ist, einen schnellen Server zu halten, dessen Antwortzeiten nicht durch ein Übermaß von Benutzern oder an auszuführendem Code, wie Perl, PHP oder Active Server Pages, heruntergebremst wird. Ganz besonders ist auf Datenbankzugriffe zu achten, die leicht zum Flaschenhals werden können. Außerdem ist natürlich auch dafür Sorge zu tragen, dass eine ausreichende Bandbreite für die Leitungen vorhanden ist, damit die Anfragen der Roboter schnell beantwortet werden können. Wie macht man das als Kunde eines Dienstleisters ohne eigenen Server? Dienste wie Internetseer (www.internetseer.com) bieten an, Ihre Website kostenlos zu überwachen und Ihnen einen wöchentlichen Bericht darüber zu senden, aus dem Sie auch ersehen können, wie schnell Ihr Server geantwortet hat.
Natürlich kann dieser Dienst auch sinnvoll sein, wenn man einen eigenen Webserver hat, den man überwachen lassen möchte.
105
Abbildung 6.1: Ein Bericht von Internetseer mit Angabe der Antwortzeiten (connect time) in Sekunden und einer Nichtverfügbarkeit von 3 Stunden am Samstag, den 4.5.
6 Probleme für Suchmaschinen
6.3
Hyperlinks, die keine sind
Hyperlinks werden in HTML durch den Container ... festgelegt. Anstelle von ### würde der URL stehen, die beim Anklicken aufgerufen wird. Inhalt des Containers ist, was der Benutzer im Browser sieht: Text oder ein Bild. Suchmaschinen sind darauf ausgelegt, diese Hyperlinks zu finden und zu verfolgen. Es gibt aber auch andere Verfahren, Hyperlink-ähnliche Verweise zu erzeugen: 왘 Imagemaps – Bereiche innerhalb von Bildern, die beim Ankli-
cken wie ein Hyperlink wirken; innerhalb eines Bildes kann es mehrere solche Bereiche geben. Dies Hyperlinks werden nicht von allen Suchmaschinen erkannt und verfolgt. 왘 JavaScript-Lösungen – Ein Entwickler einer Seite kann den
JavaScript-Befehl location.href verwenden, um eine andere Seite aufzurufen. Geschieht dies, sobald der Benutzer an eine bestimmte Stelle klickt, wirkt dieses Verfahren wie ein Hyperlink. Das Verfahren wird gerne mit Schaltflächen eingesetzt, funktioniert aber auch mit Bildern oder Text. Solche Verweise werden nach allgemeiner Beobachtung von keiner Suchmaschine verfolgt. 왘 Hyperlinks in eingebetteten Komponenten – Manche Designer
ziehen es vor, Hyperlinks in Java-Applets oder Flash-Komponenten einzubinden, was im Browser auch gut funktioniert. Auch eine PowerPoint-Datei könnte eingebunden werden und Hyperlinks beinhalten, die von der zur Anzeige im Browser verwendeten Komponente beim Anklicken umgesetzt werden. Suchmaschinen werden diese Arten von Verweisen aber ebenfalls nicht finden.
106
Hyperlinks, die keine sind
Abbildung 6.2: Diese Website verwendet als Java-Applets angelegte Schaltflächen (oberer Rand) anstelle von HTML-Hyperlinks. Diese sind für Suchmaschinen nicht sichtbar.
Übrigens ist es aus Sicht des Suchmaschinenentwicklers durchaus nachvollziehbar, dass diese in Komponenten eingebundenen Hyperlinks nicht verfolgt werden: Für ihre Umsetzung muss der Browser zusätzliche Software starten, eine Java Virtual Machine oder eine ActiveX-Komponente beziehungsweise ein Plug-In für Flash. Dies kostet Zeit und Prozessorleistung. Für den Benutzer mag das kein großes Problem sein, für die auf Hochgeschwindigkeit optimierten Suchroboter wäre das jedoch eine Leistungsbremse. Da eine Suchmaschine ohnehin nicht gerade mit einem Mangel an auszuwertenden URLs kämpfen muss, ist es nur logisch, dass sie darauf verzichtet, diese Art von Verweisen zu verwenden. Noch ein weiteres Argument spielt mit: Die erhöhte Komplexität durch Ausführung von Komponenten, die gegenüber dem einfachen Textcode der HTML-Seiten in komplexeren Binär- oder Bytecode angelegt sind, kann zu Stabilitätsproblemen der Suchmaschine führen. Zumal die Entwickler dieser Komponenten dem Suchmaschinenteam ja unbekannt sind. Keine Suchmaschine wird sich auf das Risiko einlassen, solchen fremden Code auszuführen, der bei ihr zu Fehlern führen kann, die ihre Stabilität gefährden können.
107
6 Probleme für Suchmaschinen
6.4
Extern zuzuladende Seiteninhalte
Entwickler von Webseiten machen sich das Leben gerne leicht. Seiteninhalte, die sich in vielen Seiten wiederholen, wie zum Beispiel Navigationselemente, werden gerne in eine externe Datei ausgelagert, die dann in den einzelnen Seiten zugeladen wird. Der Entwickler spart sich damit eine Menge Schreibarbeit, vor allem, wenn es um spätere Änderungen geht, da er nur noch eine Datei bearbeiten muss, und verhindert Inkonsistenzen, wenn er beispielsweise beim Ändern eine Seite auslässt. Für den Benutzer ist zumindest auf den ersten Blick nicht erkennbar, ob Seiteninhalte auch wirklich in dieser Datei stehen, oder aus einer anderen Datei zugeladen worden sind. Für das Zuladen gibt es grundsätzlich zwei Verfahren: 왘 Serverseitig – Verfahren wie »Server Side Includes«, aber auch
die meisten anderen auf dem Server verwendeten Programmiersprachen, bieten Mittel an, externe Dateien zuzuladen. Dies geschieht, bevor die Seite an den Client gesandt wird, und macht daher einer Suchmaschine grundsätzlich keine Probleme. Wenn in diesen zuzuladenden Elementen Hyperlinks stehen, sieht die Suchmaschine diese genauso wie der Benutzer am Browser. 왘 Clientseitig – Auch der Browser kann angewiesen werden, das
Zuladen durchzuführen. Ein beliebtes Verfahren ist die Verwendung externer JavaScript-Dateien, die nach der Einfügung den Browser anweisen, Text oder Bilder mit Hyperlinks anzulegen. Wenn beispielsweise der Name dieser externen Datei navigation.js ist, und diese im gleichen Web-Ordner wie die aufrufende Seite steht, würde dann im Quelltext an der Stelle der HTML-Seite, wo die Einfügung platziert werden soll, ein ähnliches Tag wie das folgende stehen: <script language=javascript src=navigation.js>
Die Suchmaschine ist zwar auch ein Client, führt aber diese zeitund rechenintensiven Javascript-Aktionen nicht aus. Die mit dieser Methode von einem Browser erzeugten Hyperlinks stehen ihr damit nicht zur Verfügung, um weitere Seiten zu finden. Die Struktur der Website bleibt ihr somit verborgen.
108
Am Seitenende liegende Inhalte
6.5
Am Seitenende liegende Inhalte
Eine Suchmaschine liest von jeder Seite nur eine maximale Länge von Text aus. Bis wohin dies führt, wird von Suchmaschinenbetreibern nicht veröffentlicht, die Gründe sind aber naheliegend: 왘 Suchmaschinenbetreiber gehen grundsätzlich davon aus, dass
das Wichtige in einer Seite oben steht. Weiter vorne stehen Titel, Überschriften, vielleicht Schlagzeilen und alle Arten von relevanten Informationen. Die Suchmaschinen nehmen an, dass es ausreicht, eine bestimmte Textmenge aus der Datei zu laden, um die für die Seite interessanten Schlüsselwörter zu erfassen. Für Google lässt sich beispielsweise feststellen, dass diese Grenze bei 15.000 Zeichen liegt, und zwar im Quelltext. Die im Browser angezeigten Textmengen sind übrigens deutlich kleiner, da hier keine HTML-, CSS- und JavaScriptelemente mehr zu finden sind. 왘 Speziell das Laden großer Dateien kann zeitintensiv werden.
Außer einer Größenbegrenzung kann es daher auch eine Zeitbegrenzung geben: Was nach einer maximalen Zeitdauer von vielleicht 2 Sekunden nicht bei der Suchmaschine angekommen wird, wird dann ebenfalls ignoriert. Auch dieser Timeout ist nicht veröffentlicht und lässt sich auch nicht ermitteln. Navigationselemente am Ende einer Seite werden also möglicherweise von Suchmaschinen gar nicht erfasst, darin befindliche Hyperlinks entsprechend auch nicht weiterverfolgt.
6.6
Layers und DHTML
Layers sind in älteren Netscape-Browserversionen ein Verfahren, um Seiten während der Anzeigezeit dynamisch zu gestalten, zum Beispiel für ausklappbare Menüs und andere ein- und ausblendbare Inhalte. Mit dem gleichen Ziel wurde von Microsoft DHTML als Erweiterung zu HTML entwickelt. Dies wurde inzwischen offiziell standardisiert und wird zumindest teilweise auch in neueren Versionen des Netscape-Navigator und in anderen Browsern, wie zum Beispiel Opera, angewandt. Letztlich stellen beide Verfahren eine erweiterte Umsetzung von Cascading Style Sheets für die Formatierung und JavaScript als vom Browser auszuführender Scriptsprache dar.
109
6 Probleme für Suchmaschinen
Während einige Suchmaschinen DHTML- beziehungsweise Layer-Elemente komplett ignorieren, spielt es aus Sicht anderer keine Rolle, ob Texte oder Hyperlinks normaler Bestandteil der Seite sind oder in einem Layer beziehungsweise DHTML-Code eingebunden sind. Es gibt aber doch einige Ausnahmen: 왘 Worauf schon weiter oben hingewiesen wurde, gilt auch hier:
Aus externen Dateien eingebundener Quelltext wird von allen Suchmaschinen ignoriert 왘 Textinhalte, die mit der DHTML-Eigenschaft innerText dyna-
misch zugewiesen werden, sind für Suchmaschinen ebenfalls unsichtbar.
6.7
Sitemaps in Ergebnislisten
Vielleicht ist es jemandem im Unternehmen aus irgendeinem Grund wichtig, die oben beschriebenen Verfahren einzusetzen, obwohl sie Hyperlinks und andere wichtige Inhalte für Suchmaschinen unsichtbar machen können. Das Ergebnis könnte sein, dass die so wichtige Funktionalität der Suchmaschinen, sich selbst durch das Web zu crawlen, nicht mehr genutzt werden kann. Kann man die Seiten Suchmaschinen dennoch so bekannt machen, dass sie von selbst alle Seiten finden? Ja, mit den in Kapitel 8 genauer beschriebenen Sitemaps. Hierbei handelt es sich um eher einfache HTML-Dateien, in denen Hyperlinks auf andere Seiten der Website so angelegt sind, dass die Suchmaschinen ihnen leicht folgen können. Diese Sitemaps werden bei den Suchmaschinen angemeldet, welche sich von dort aus weiter durch die Website hangeln. Dabei kann sich ein neues Problem ergeben: Sitemaps sollen nicht unbedingt den Ergebnislisten, die den Suchenden angeboten werden, erscheinen. Die Sitemaps sind nur als Hilfe für die Suchmaschine gedacht, für Besucher haben wir die normalen Seiten mit ihrem besseren Layout und ihrer Benutzerführung vorgesehen. Im Kapitel »Suchmaschinen steuern« lernen Sie das Meta-Tag »Robots« und die Datei »robots.txt« kennen. Sie können diese verwenden, um den Suchmaschinen explizit mitzuteilen, welche Seiten sie indizieren sollen, und welche nicht. Leider werden diese Mittel nicht von allen Suchmaschinen berücksichtig.
110
Mit Cookies für den Benutzer optimierte Seiten
Eine andere Option: Geben Sie der Sitemap einen Dateinamen, der möglichst nichtssagend ist oder zumindest mit den Suchbegriffen Ihrer Besucher nichts tun hat. Lassen Sie sie außerdem ohne Titel, ohne Überschrift und ohne Textinhalte, die in den Index einer Suchmaschine kommen könnten, außer etwas Text natürlich für die Hyperlinks. Anders gesagt, machen Sie einfach alle die Fehler, vor denen sonst in diesem Buch gewarnt wird.
6.8
Mit Cookies für den Benutzer optimierte Seiten
Moderne Portallösungen möchten dem Benutzer ein Angebot an Web-Inhalten machen, das sich an seinen Interessen und Gegebenheiten orientiert. Das kann zum Beispiel in der Form geschehen, dass der Benutzer beim ersten Besuch nach der von ihm bevorzugten Sprache, nach seinen Wünschen und Hobbies befragt wird. Ein anderer Weg ist die Beobachtung des Klickverhaltens des Benutzers, um auf diesem Weg zu erfahren, woran er interessiert ist. Auch aus Online-Aufträgen des Benutzers können Informationen über seine Interessen abgeleitet werden, der Buchhändler Amazon.de verwendet dieses Mittel beispielsweise ausgiebig. Die Summe der Optimierungsinformationen für einen Benutzer wird übrigens als »Profil« bezeichnet, leider wird damit mittlerweile manchmal ein schwunghafter Handel getrieben. Das Problem für den Server ist dabei folgendes: Der Benutzer ist für den Server im Internet zuerst einmal anonym. Um jedoch Seiten entsprechend seinem Profil optimieren zu können, muss der Server den Benutzer wiedererkennen. Zu diesem Zweck sendet der Server dem Browser beim ersten Besuch einen Cookie, eine kleine Textmenge, die dieser auf der Festplatte des Benutzers abspeichert. Beim nächsten Aufruf einer Datei schickt der Browser diese Information wieder mit an den Server, so dass der Server den Benutzer wiedererkennen und die Inhalte für ihn optimieren kann. Eine Suchmaschine empfängt, speichert und sendet keine Cookies.
111
6 Probleme für Suchmaschinen
Das kann Probleme verursachen, im folgenden ein Beispiel: Ein Portal bietet Informationen in verschiedenen Sprachen an. Der Besucher, der diese Website zum ersten Mal aufsucht, muss eine Sprache auswählen. Wenn er sich beispielsweise für Deutsch entscheidet, wird dies in einem Cookie vermerkt, der auf der Festplatte des Benutzers gespeichert wird. Von jetzt an weiß der Server, dass er diesem Benutzer bei jedem Aufruf die Inhalte in Deutsch liefern muss, eventuell mit den für diese Sprache vorgesehenen Hyperlinks zu weiteren deutschsprachigen Dokumenten. Eine Suchmaschine würde diese sprachoptimierte Version und damit auch die in ihr befindlichen weiterführenden Links nie zu sehen bekommen. Entweder würde sie in der Seite hängen bleiben, in der der Erstbenutzer die Sprache auswählen soll, oder sie würde in eine Standardsprache geführt, zum Beispiel Englisch, die der Server für alle Benutzer bereithält, die keine Cookies übersenden.
6.9
Mehrsprachige Seiten
Das Beispiel mit der Sprachauswahl oben führt uns zu einem nächsten Problem: Seiten mit Inhalten in mehreren Sprachen. Mehrsprachige Werbeprospekte gelten in vielen Branchen als üblich. Man spart sich den Druck mehrerer Versionen eines Prospektes und muss nicht darauf achten, welche Version man einem Kunden zusendet. Wie geht man aber im World Wide Web mit Mehrsprachigkeit um? Nicht jeder Benutzer einer Suchmaschine ist daran interessiert, sich durch Suchergebnisse durcharbeiten zu müssen, die in einer Vielzahl von Sprachen abgefasst sind. Für manchen Suchbegriff mag es eindeutig erscheinen, da er nur in einer bestimmten Sprache vorkommt. Andere Begriffe, wie »Computer«, gibt es identisch in so ziemlich allen Sprachen.3 Die meisten Suchmaschinen sind deshalb daran interessiert, für jede Seite die Sprache zu erfassen, in der sie erstellt worden ist. Dies ermöglicht es ihnen, den suchenden Benutzern eine Option anzubieten, dass sie nur Ergebnisse für eine von ihnen gewünschte Sprache erhalten.
3
Außer in Französisch, hier heißt dieses Gerät »Ordinateur«.
112
Index voll
Der Entwickler der Seite kann diese Information in ein Meta-Tag setzen, die meisten Suchmaschinen analysieren die Inhalte der Seiten aber auch selbst daraufhin, in welcher Sprache sie geschrieben sind. Da es für jede Sprache typische Wörter gibt, auf deren Vorhandensein im Text geprüft werden kann, ist diese Aufgabe nicht allzu schwierig. Wie geht eine Suchmaschine nun damit um, wenn sie mehrsprachigen Text findet? Einfach gesagt: unvorhersehbar. Mehrsprachige Web-Inhalte sollten grundsätzlich in verschiedene Seiten, oder besser noch in verschiedene Web-Ordner, gestellt werden. Dies ermöglicht es Suchmaschinen, in ihrem Index jeder erfassten Seite die Sprache zuzuordnen und diese Information dann auch bei der Ergebnisausgabe am Bildschirm zu berücksichtigen.
6.10 Index voll Im Gegensatz zu den vorigen Problemen, die durch Änderungen in der Website und den darin befindlichen Inhalten zu lösen sind, kann der Anmeldende beim nächsten Problem erst einmal selbst nichts zur Lösung beitragen. Eine Suchmaschine speichert die von ihr gefundenen und gelesenen Seiteninhalte in Wortlisten ab. Das sind Datenbanken, die auf physikalischen Medien gespeichert werden. Solche Medien kennen Sie von Ihrem eigenen PC als Arbeitsspeicher, Festplatte, CDRom und so weiter. Was Sie von Ihrem PC kennen, gilt natürlich auch für Suchmaschinen: Das Fassungsvermögen des Speichers ist nicht unbegrenzt, irgendwann ist er einfach voll. Was macht eine Suchmaschine nun, wenn die Kapazitätsgrenze ihrer Medien erreicht ist? Sie prüft zwar weiter die in der Wortliste aufgeführten Seiten, ob es sie noch gibt oder ob sich darin etwas verändert hat. Bei gefundenen Änderungen wird sie die Wortliste aktualisieren, bei nicht vorhandenen Seiten werden die zugehörigen Einträge aus dem Index gelöscht. Jedenfalls wird sie nur in dem Maß neue Seiten aufnehmen, in dem Platz durch Löschen alter Verweise entsteht.
113
6 Probleme für Suchmaschinen
Google ist ein Beispiel, an dem sich dieses Verhalten beobachten lässt: Im Herbst/Winter 2001 hat Google offensichtlich den Index so vergrößert, dass er nun circa zwei Milliarden Seiten, statt wie bisher eine Milliarde, erfassen kann. Vermutlich war das für Google nicht so einfach zu bewerkstelligen wie etwa ein Speicherausbau oder der Einbau einer neuen Festplatte auf dem PC. Im Gegenteil ist anzunehmen, dass dies ein komplexes und wahrscheinlich recht teures Projekt war. Im November oder Dezember 2001 scheint dieser erweiterte Index erneut voll gewesen zu sein. Seither (Stand: Juni 2002) ist dieser Index nämlich nicht weiter gewachsen, sondern hat weiter eine Größenordnung von rund zwei Milliarden Seiten. Dies erklärt auch, warum es so mühselig sein kann, eine Website bei Google anzumelden. Für neue Inhalte ist erst mal einfach kein Platz. Wenn Sie Ihre neue Website anmelden wollen, sind Sie in einer ähnlichen Situation wie samstags in der Großstadt auf der Suche nach einem Parkplatz. Nur wenn Sie auf Ihrer Suche zufällig gerade dabei sind, wenn jemand anders einen Platz freimacht, haben Sie die Chance, diesen zu ergattern. Bei Google heißt das, über einen Zeitraum von mehreren Wochen in einer vernünftigen Frequenz die Website immer wieder anmelden mit dem Ziel, dabei zu sein, wenn entweder bei Google Speicherplatz frei wird, oder wenn Google erneut seinen Speicher ausbaut. Das Anmelden einer Website bei einer Suchmaschine ist Inhalt des nächsten Kapitels.
114
7
Die Website bei Suchmaschinen anmelden
Neben der Erstellung suchmaschinengerechter Dateien (siehe vorige Kapitel) ist die wichtigste Aufgabe zur erfolgreichen Platzierung in Suchmaschinen das Submitting. So bezeichnet man den Prozess, die Suchmaschine über die Website zu informieren. Dies kann mit viel Arbeit verbunden sein, und man sollte sich über einen Zeitraum von mehreren Wochen immer wieder eine halbe bis eine Stunde dafür nehmen.
7.1
Suchmaschinen über die eigene Website informieren – Submitting
Eigentlich sollte man meinen, dass Submitting gar nicht notwendig ist. Die Suchmaschinen finden bei ihrer Arbeit, die Inhalte des Web zu indizieren, laufend neue Hyperlinks, die sie in ihre Liste zu erfassender Seiten aufnehmen. Irgendwann sollten sie doch jede Seite erfasst haben. Muss man sich trotzdem dieser oft langwierigen und mühevollen Arbeit unterziehen? Ja, Submitting bleibt eine wichtige Arbeit: 왘 Vielleicht gibt es noch gar keine Seiten, die auf Ihre Inhalte ver-
weisen. Dann können Suchmaschinen diese gar nicht finden. 왘 Vielleicht gibt es bereits solche Seiten, aber die Suchmaschinen
wissen das noch nicht. 왘 Vielleicht stellen Sie auch fest, dass die einstmals gute Platzie-
rung Ihrer Seite verloren gegangen ist, und Sie wollen diese nun wieder herstellen. Gerade der letzte Punkt darf nicht unterschätzt werden. Platzierungskiller gibt es mehrere: 1. Vorübergehende Ausfallzeiten des Webservers. Suchmaschinen, die während einer solchen Auszeit eine Ihre Seiten aufrufen wollen, werden eine Fehlermeldung erhalten, dass der 115
7 Die Website bei Suchmaschinen anmelden
Server nicht verfügbar ist. Sie werden dann entweder nur die aufgerufene Seite oder möglicherweise alle Seiten Ihrer Website aus dem Index löschen. Das Thema wird ausführlicher in Kapitel 9 besprochen. 2. Lange Zeiträume ohne Änderungen an den Inhalten. Viele Suchmaschinen werden diese Inhalte als weniger aktuell im Vergleich zu anderen, jüngeren Inhalten betrachten und daher abwerten. 3. Suchmaschinengerechtere Seiten anderer Anbieter, die Ihre Seiten verdrängen. Submitting sollte zumindest für eine neu angemeldete Site in kurzen Abständen wiederholt werden. Wie schon in den Kapiteln 3 und 4 beschrieben, erzeugt ein Robot eine Liste von zu besuchenden Seiten. Da diese Liste mit der Zeit immer länger wird (neue URLs werden schneller hinzugefügt als alte abgearbeitet werden), muss die Suchmaschine diese regelmäßig wieder kürzen, also Einträge löschen. Die Wahrscheinlichkeit, dass es hierbei Ihren neu übermittelten URL trifft, ist sehr hoch. Die dazu gehörenden Seiten werden sie dann zumindest in der nächsten Zeit auch nicht besuchen. Bei manchen Suchmaschinen ist auch beobachtet worden, dass regelmäßiges Submitting die Platzierung verbessern kann. Die Entwickler sind wohl davon ausgegangen, dass die Anmeldung eines URL eine Art Empfehlung darstellt. Dies entspricht vielleicht einem früheren, etwas naiven Verständnis, dass ein Benutzer eine Seite, die er besucht hat und für wertvoll hält, einer Suchmaschine mitteilen würde. Heute gehen alle Beteiligten dagegen eher davon aus, dass es der Anbieter der Inhalte ist, der mit den Besuchern seines Internet-Auftritts bestimmte Interessen und Ziele verfolgt, und dass die Anmeldung daher vor allem von dieser Gruppe durchgeführt wird. Funktionen, die im Rahmen des älteren Verständnisses entwickelt worden sind, scheinen aber bei manchen Robotern noch vorhanden zu sein. Da der Anmeldeprozess ein wichtiger und unabdingbarer Bestandteil in der Arbeit von Suchmaschinen ist, wird von den Entwicklern auch immer weiter daran gefeilt. Neue Ideen und Methoden richten sich dabei nach Beobachtungen des Marktes, insbesondere natürlich der Konkurrenz. Was man bei der einen Suchmaschine schon länger kennt, kann eines Tages auch von einer anderen übernommen worden sein. Das gilt besonders
116
Suchmaschinen über die eigene Website informieren – Submitting
dann, wenn finanzielle Interessen der Betreiber dahinter stecken. So macht im Moment ein neues Angebot die Runde, das eine schnelle Seitenaufnahme und regelmäßige Aktualisierung im Index der Suchmaschine garantiert, dafür aber Geld kostet (nicht zu verwechseln mit der Schaltung von Werbe-Einträgen; im Grunde ist der Verkauf von Platzierungen zwar ähnlich – nur nach außen hin meist nicht erkennbar). Ob man es als störend empfindet, wenn diese Betreiber damit nicht alle Anbieter gleich behandeln und sich somit nicht unbedingt an das journalistische Prinzip halten, redaktionellen Teil und Werbung klar voneinander zu trennen, mag jeder selbst entscheiden – natürlich haben auch Suchmaschinenbetreiber ein kommerzielles Interesse und müssen versuchen, ihr Angebot finanziell abzusichern, gerade bei wachsender Konkurrenz. Allgemein sind die Verfahren bei den Suchmaschinen, wie neue Seiten angemeldet werden, leider sehr unterschiedlich. Im Folgenden sollen einige Beispiele für wichtigere Suchmaschinen zeigen, wie es funktioniert:
7.1.1
Altavista
Der Weg zur Anmeldeseite für neue URLs führt bei Altavista über den Hyperlink »Hilfe«. Abbildung 7.1: Erster Schritt bei Altavista
117
7 Die Website bei Suchmaschinen anmelden
In der nächsten Seite wird der Hyperlink »URL hinzufügen« angeklickt Abbildung 7.2: Links auf »URL hinzufügen« klicken
Bei AltaVista gilt seit Frühling 2002 das oben Erwähnte – Sie haben jetzt mehrere Möglichkeiten des Submitting zur Auswahl: Für Nutzer, die mehr als 500 URLs anmelden möchten, gibt es das sogenannte »Trusted Feed« und bei weniger als 500 URLs den »Express Inclusion Service«, den AltaVista in Partnerschaft mit der Firma infospider betreibt. Beide Angebote ermöglichen laut AltaVista eine schnellere Aufnahme und Aktualisierung der URLs, sind kostenpflichtig und erfordern eine vorherige Registrierung. In unserem Beispiel werden wir den kostenfreien »Basic Submit« nutzen. Sie finden ihn unten auf der Seite.
118
Suchmaschinen über die eigene Website informieren – Submitting
Abbildung 7.3: Basic Submit ist kostenlos, kann aber dauern
Um automatische Anmeldung unmöglich zu machen, muss der Benutzer Buchstaben in ein Feld eintragen. Außerdem werden der URL und eine E-Mail-Adresse benötigt Abbildung 7.4: Spiel mit Buchstaben zum Ausschluss von Submit-Diensten und -Software
119
7 Die Website bei Suchmaschinen anmelden
Was Altavista mit der E-Mail-Adresse macht, bleibt übrigens ziemlich unklar. Die erfolgte Übermittlung der Daten erhält der Benutzer anschließend bestätigt. Wir haben schon darüber gesprochen, dass sie keine Garantie dafür ist, dass die Seiten auch in den Index aufgenommen werden. Abbildung 7.5: Der Anmeldeprozess ist fertig – zumindest für den Augenblick
120
Suchmaschinen über die eigene Website informieren – Submitting
7.1.2
Google
Die Anmeldung in Google ist denkbar einfach. Klicken Sie auf den Hyperlink »Alles über Google«: Abbildung 7.6: Die Eingangsseite von Google
Auf der nächsten Seite finden Sie einen weiteren Link »Ihre URL hinzufügen/entfernen«. Bei Google gibt es keine Möglichkeit, gegen eine Bezahlung schneller in das Suchergebnis aufgenommen zu werden. Sie können natürlich – wie bereits erwähnt und wie bei fast allen großen Suchmaschinen – Werbe-Einträge schalten. Diese werden optisch strikt von den übrigen getrennt: Sie erscheinen dann, durch farbliche Hervorhebung gekennzeichnet, entweder mit den Hinweis »Sponsoren-Link« in der Ergebnisliste eines relevanten Begriffes ganz oben oder mit der Beschriftung »Werbung« am rechten äußeren Rand. Dass Werbe-Einträge hervorgehoben werden, ist ebenfalls bei fast allen großen Suchmaschinen so – da aber die Möglichkeit des kostenpflichtigen Express-Submittings bei Google fehlt, weiß man hier mit größerer Sicherheit, welche Einträge bezahlt wurden und welche nicht.
121
7 Die Website bei Suchmaschinen anmelden
Abbildung 7.7: Hier können Sie zur Seite »Ihre URL hinzufügen« wechseln
Nachdem Sie auf »Ihre URL hinzufügen/entfernen« geklickt haben, geben Sie Ihren URL ein sowie weitere Informationen, die dem Benutzer der Suchmaschine angezeigt werden. Abbildung 7.8: Tragen Sie hier Ihren URL ein
122
Suchmaschinen über die eigene Website informieren – Submitting
Auch bei Google erhalten Sie zur Bestätigung eine Mitteilung. Abbildung 7.9: Bestätigung, dass das Submitting erfolgt ist
Google weist – wie andere Betreiber auch – darauf hin, dass es in der Regel reicht, eine Ausgangsseite (das kann entweder die Startseite oder eine Sitemap sein, siehe auch die Kapitel 6 und 8) anzugeben, von wo aus der Roboter die weitere Suche beginnt. Dennoch kann es sinnvoll sein, weitere Seiten anzugeben, da wir ja schon gesehen haben, dass die Liste der Seiten, die von Robotern noch zu besuchen sind, immer wieder teilweise gelöscht werden müssen. Darunter könnten natürlich auch einige der Seiten sein, die von den Robotern gefunden werden sollten. Außerdem gilt auch hier die Regel, dass man den Anmeldeprozess regelmäßig wiederholen sollte.
7.1.3
Yahoo
Als Beispiel für die Anmeldung in Verzeichnisdiensten soll hier Yahoo vorgestellt werden. Das Verfahren ist bei den meisten Verzeichnisdiensten ähnlich. Sie müssen die entsprechende Kategorie, in der Ihr Eintrag erscheinen soll, anwählen und von dort
123
7 Die Website bei Suchmaschinen anmelden
dann den Anmeldeprozess starten. Die Anmeldung erfolgt dann auch für diese Kategorie, häufig lässt sich aber eine weitere Kategorie angeben, gelegentlich auch mehrere. Auch bei Yahoo gibt es verschiedene Möglichkeiten des Submitting: Yahoo bietet ebenfalls eine kostenpflichtige »Express«Anmeldung, die eine schnelle Aufnahme garantiert. Die Suchkategorien finden sich im unteren Teil der Startseite. Abbildung 7.10: Startbildschirm von Yahoo mit Kategorien
Anschließend wird weiter verzweigt bis in die gewünschte Kategorie.
124
Suchmaschinen über die eigene Website informieren – Submitting
Abbildung 7.11: Yahoo Kategorien
In den Kategorien mit den Ergebnislisten findet sich unten der Hyperlink »Website vorschlagen«. Abbildung 7.12: In der richtigen Kategorie die URL vorschlagen
125
7 Die Website bei Suchmaschinen anmelden
Wie schon beschrieben gibt es einen (teuren) Express-Dienst und die kostenlose Standardanmeldung. Abbildung 7.13: Optionen für die Anmeldung bei Yahoo
Die nächste Seite informiert über die Modalitäten und weist noch einmal darauf hin, in welcher Kategorie die Anmeldung vorgenommen wird. Abbildung 7.14: Infos zur Anmeldung in einer Kategorie
126
Suchmaschinen über die eigene Website informieren – Submitting
Im folgenden werden Informationen zur Website eingetragen. Abbildung 7.15: Infos eintragen zur eigenen Website
Im unteren Teil dieser Seite werden noch Fragen zur Person gestellt, mit »Weiter« werden die Daten übermittelt. Abbildung 7.16: Kontaktinformationen für Yahoo
127
7 Die Website bei Suchmaschinen anmelden
Auch Yahoo bestätigt die Anmeldung am Ende. Auch hier ist wieder der Hinweis zu finden, dass es keine Garantie für die Aufnahme gibt Abbildung 7.17: Fertig
7.1.4
Besonderheiten beim Open Directory Project
Wenn man sich die Statistiken ansieht, wie viel Verkehr bestimmte Suchdienste für Websites erzeugen1, steht das Open Directory Project an vergleichsweise untergeordneter Position. Wer nun jedoch annimmt, dieser Suchdienst sei unwichtig, unterschätzt dessen Bedeutung gewaltig. Die Anmeldung in diesem Verzeichnisdienst erfolgt im Grunde genauso wie bei Yahoo: Sie suchen die Kategorie auf, in der Sie Ihre Website gelistet sehen möchten, und folgen dort dem Hyperlink »URL anmelden«. Verzeichnisdienste bieten dem Benutzer zwei Suchmöglichkeiten: 왘 ein Formularfeld, in das der Benutzer seine Suchwörter eintra-
gen kann, und 왘 das hierarchische System aus Kategorien und Unterkategorien,
in dem man sich via Hyperlinks fortbewegen kann. 1
www.etracker.de.
128
Suchmaschinen über die eigene Website informieren – Submitting
Während Seitenverweise über Formularfelder wie schon beschrieben von (anderen) Suchmaschinen – speziell vom Typ Roboter – nicht verfolgt werden können, ist die Hierarchie des Kategoriensystems für einen Roboter leicht verfolgbar. Was diese Funktion beim Open Directory Project besonders interessant macht: Google kennt die Open Directory Kategorien nicht nur recht gut, sondern nutzt sie auch selbst als Datenbasis für ein eigenes Verzeichnisangebot. Im Unterschied zu den Ergebnisseiten des Open Directory Project, in denen die Ergebnisse alphabetisch sortiert sind, werden sie im Google-Verzeichnis mit dem Google-eigenen PageRank versehen und danach sortiert. Die so erzeugten Seiten mit Linklisten werden auch sehr hoch bewertet. Wie wir später sehen werden, wirkt sich bei Google ein hoher PageRank in einer Seite, die auf eine andere Seite verweist, auch auf die verwiesene Seite aus. Einträge im Open Directory Project sind also ein wichtiges Hilfsmittel, um bei Google zu einer verbesserten Bewertung und damit besseren Platzierungen zu kommen.
7.1.5
MetaGer
Als Meta-Suchmaschine verfügt MetaGer über keinen eigenen Datenbestand, sondern greift auf die Daten anderer Suchmaschinen zurück. Daher findet sich links der Hinweis: »URL melden: NEIN«. Abbildung 7.18: URL melden? Nein
129
7 Die Website bei Suchmaschinen anmelden
7.2
Submit-Dienste
Alternativ zur manuellen Anmeldung gibt es auch automatisierte Verfahren – zum Beispiel Dienste im Internet, die einem kostenlos oder gegen Bezahlung die Arbeit abnehmen. Dies kann vorteilhaft sein; manchmal ist der Zeitaufwand aber auch bei diesen Systemen doch noch recht groß, da man während des Anmeldeprozesses eine große Anzahl von Fragen, die jeweils nur für bestimmte Suchmaschinen von Bedeutung sind, beantworten muss. Außerdem sind die von solchen Systemen angesprochenen Suchmaschinen oft recht exotisch, man hat bei vielen den Eindruck, dass sie den Benutzern gar nicht bekannt sind und deshalb auch kaum benutzt werden. Abbildung 7.19: Angebot eines Submit-Dienstleisters, der Einträge in über 250.000 Suchmaschinen anbietet. Wie viele davon wohl in der Praxis eine Bedeutung haben?
130
Software
Ein weiteres Problem ist die Tatsache, dass manche Suchmaschinenanbieter Ihre Anmeldeseiten so eingerichtet haben, dass Submit-Dienste nicht darauf zugreifen können. Bei Altavista muss beispielsweise zur Anmeldung eine Reihe von zufällig erzeugten Buchstaben aus kleinen Grafik-Dateien ausgelesen und in ein Textfeld eingegeben werden. Diese Aufgabe kann von einem automatisierten System praktisch nicht erfüllt werden. Andere Suchmaschinen akzeptieren nur Anmeldungen, die von bestimmten Formularseiten aus abgesandt worden sind. Noch ein Problem kann sein, dass eine Suchmaschine den Anmeldeprozess oder vielleicht sogar nur die Adresse, wo dieser zu finden ist, ändert. Automatisierte Submit-Dienste und -Software werden dies vielleicht erst verzögert wahrnehmen und bis dahin für die spezielle Suchmaschine eben nicht funktionieren. Manche Submit-Dienste erzeugen übrigens am Ende ein Protokoll, aus dem zu entnehmen ist, wo sie erfolgreich waren, und wo nicht.
7.3
Software
Ein weiteres automatisiertes Verfahren kann der Einsatz spezieller Software sein, die man sich kostenpflichtig aus dem Internet beschaffen kann. Diese kann man sich einmal konfigurieren und anschließend wiederholt einsetzen. Die zu Submit-Diensten genannten Einschränkungen gelten auch hier: 왘 Eine Suchmaschine, die von Eintragsdiensten und -software
nichts wissen will, wird sich dauerhaft dagegen zu schützen wissen. 왘 Änderungen in den Anmeldeformularen und -verfahren der
Suchmaschinen können Submit-Software schnell veralten lassen. 왘 Übertriebener Einsatz kann von Suchmaschinen als Spamde-
xing (siehe unten) und damit letztlich als Missbrauch der Anmeldeoption interpretiert werden. Eine Suchmaschine könnte darauf mit Ausschluss der Website reagieren.
131
7 Die Website bei Suchmaschinen anmelden
7.4
Maschinelles oder manuelles Submitten?
Warum wehren sich einige Suchmaschinen gegen automatisiertes Anmelden? Einer der Hintergründe ist »Spamdexing«: das Überfluten der Suchmaschinen mit einer großen Zahl Anmeldungen in kürzester Zeit. Wie wir schon in Kapitel 4 gesehen haben, wächst die Liste der zu besuchenden Seiten schneller, als ein Roboter sie abarbeiten kann. Dies ist ein Gesetz, dem sich kein Entwickler eines Roboters entziehen kann. Wiederholtes Anmelden in vernünftigen Abständen – vielleicht zwei oder dreimal am Tag – ist sinnvoll und wird auch von den Suchmaschinenbetreibern selbst empfohlen. Submit-Dienste und -Software, die es dem Benutzer einfach machen, Anmeldungen abzusenden, verführen jedoch fast zwangsläufig zu Spamdexing. Wenn nun ein Benutzer innerhalb sehr kurzer Zeit eine große Zahl von Anmeldungen bei derselben Suchmaschine durchführt, wird dieses Ungleichgewicht weiter vergrößert, und nun muss man sich noch vorstellen, was es für eine Suchmaschine bedeutet, wenn das Hunderte oder Tausende Benutzer zur gleichen Zeit machen. Und dazu verführen Submit-Dienste und noch mehr natürlich Submit-Software. Bei Verzeichnisdiensten wie Open Directory Project oder Yahoo ist Spamdexing ohnehin tabu! Hier sitzen Menschen und führen redaktionelle Arbeit aus, denen jede Anmeldung einer Website zugestellt wird. Die Software, mit der sie arbeiten, kennt natürlich ebenfalls Sperrfunktionen, die der Redakteur immer dann einsetzen wird, wenn ihm ein Anmelder »auf die Nerven geht«. Es gibt übrigens einen zweiten, weniger offiziellen Grund, warum sich manche Suchmaschinen gegen automatisierte Anmeldung wehren: Viele Suchmaschinenbetreiber, wie Altavista oder Fireball, betreiben eigene Submit-Dienste und möchten diese Aufgabe einfach selbst übernehmen. Noch etwas sollte erwogen werden: Die Zahl der wirklich wichtigen Suchmaschinen ist eher klein, maximal 10 oder 15 von ihnen haben wirklich Bedeutung. Davon sind vielleicht die Hälfte Verzeichnisdienste, bei denen man sich ohnehin nur einmal anmeldet und dies frühestens eine Woche später wiederholt, falls man bis
132
Die Webagentur als Submitter
dahin nicht in den Index aufgenommen worden ist. Von den anderen Suchmaschinen wird es bei der Hälfte nicht allzu schwer sein, in den Index aufgenommen zu werden. Bleiben noch ein paar wenige richtig schwierige Roboter übrig, darunter wahrscheinlich auch Google. Bei diesen Diensten ist die Anmeldung aber vergleichsweise komfortabel: URL in ein Formularfeld eintragen und absenden. Eine Arbeit von Sekunden. Ob dafür die Kosten für Submit-Dienste und -Software lohnen? Submit-Dienste und -Software sollten also nicht als Werkzeug für Spamdexing missbraucht werden. Als Arbeitshilfe können sie nützlich sein, dagegen sind die Kosten zu rechnen. Adressen einiger Anbieter finden Sie im Anhang. Probieren Sie es einmal aus, um selbst abwägen zu können.
7.5
Die Webagentur als Submitter
Viele Internetprovider und Webagenturen bieten Submitting als Dienstleistung an. Dies kann eine gute Lösung sein, da sie in dieser Arbeit erfahren sind und durch die häufige Wiederholung diese Aufgabe schnell und professionell erledigen können. Es gibt aber auch Probleme, insbesondere den Leistungsnachweis: Niemand kann im Vorfeld eine Garantie darüber abgeben, ob und wann Submitting erfolgreich ist. Für Ihre eigene Website werden Sie die zugehörigen Prozesse in den für Sie interessanten Suchmaschinen so oft wiederholen, bis Ihr URL überall gelistet ist. Dies kann durchaus langwierig und manchmal auch mühselig werden. Und es ist nicht überprüfbar, ob die Agentur sich wirklich die Mühe macht, zumindest im vereinbarten Umfang. Submitting ist hier also auch Vertrauenssache. Oder man rechnet es erfolgsabhängig ab, vereinbart also einen festen Betrag für die erfolgreiche Platzierung in bestimmten Suchmaschinen.
133
7 Die Website bei Suchmaschinen anmelden
7.6
Mehrfache Anmeldung der gleichen Website?
Die meisten Webserver haben eine Default-Startseite definiert, die index.htm, index.html, default.htm oder anders heißen kann, der Administrator des Servers kann hierfür auch eigene Einstellungen vergeben. Wenn ein Benutzer eine Website aufruft, ohne einen Dateinamen anzugeben, wird der Server nachschauen, ob er eine Datei mit diesem Namen hat, und diese dann an den Benutzer senden. Wenn beispielsweise die Website www.abc.de als Startseite »index.htm« hat, erhält der Benutzer bei folgenden Aufrufen dieselbe Datei: http://www.abc.de http://www.abc.de/index.htm Dass bei beiden Aufrufen tatsächlich dieselbe Datei an den Client gesandt wird, ist nur am Server erkennbar. Der Client identifiziert eine Datei anhand Ihres URL, und der ist nun mal unterschiedlich. Was kommt dabei heraus, wenn Sie beide URLs anmelden? Bei einer Start-Datei mit der Bezeichnung »index.htm« wird jede Suchmaschine bemerken, dass es sich um die gleiche Datei handelt. Dies ist einfach der Normalfall, auf den alle Suchmaschinen eingerichtet sind. Sofern Sie einen eigenen Webserver einsetzen, können Sie den Namen der Standardseite verändern. Sie heißt dann nicht mehr »index.htm«, sondern hat einen von Ihnen gewünschten Namen, über den sie zugänglich ist. Sie wird aber auch für den Benutzer, der keinen Seitennamen angibt, erreichbar sein. Beide Adressangaben können dann in den Index übernommen werden. Sie werden vielleicht unterschiedliche Platzierungen haben, vor allem da sie von der Link-Popularität her verschieden sein werden. Vermutlich werden die meisten externen Links auf die Standard-Version zeigen. Bei internen Links haben Sie es selbst in der Hand, auf welche Adresse der Startseite Sie sie legen wollen; es hat Sinn, auch hier die erste Version zu verwenden, so dass sich die Ergebnisse beim Ranking aufaddieren.
134
Mehrfache Anmeldung der gleichen Website?
Der Benutzer sieht nun den ersten URL unter den Top-Platzierungen. Etwas weiter hinten taucht dieselbe Seite dann – mit ausführlichem URL – nochmal auf. Wiederholung kann die Wirkung steigern. Natürlich machen Sie dies nicht mit Verzeichnisdiensten, die von Menschen gepflegt werden. Die Redakteure werden merken, dass es sich um dieselbe Seite handelt, und dies eher negativ auffassen. Auch einige Roboter, zum Beispiel Google, scheinen dies zu merken, zumindest wenn die Startseite »index.htm« heißt. Es gibt oft noch einen weiteren Weg: Wenn Ihr normaler URL www.xyz.de lautet, dann versuchen Sie doch einmal, ob sie auch unter xyz.de erreichbar ist, Sie lassen also das »www.« zu Beginn weg. Ob das funktioniert, hängt davon ab, wie Ihre Site im DNS angemeldet ist, sozusagen dem Telefonbuch im Internet. Wenn es funktioniert, erkennen viele Roboter nicht, dass dies dieselbe Website ist. Auch so können Sie Ihre Site mehrfach anmelden. Seien Sie jedoch immer auf der Hut und übertreiben Sie es nicht, einige Suchmaschinen bemerken es sonst doch, interpretieren es als Betrugsversuch und nehmen infolgedessen Ihre Seiten nicht mehr auf.
135
8
Suchmaschinen steuern
Leider sind Bedienung und Steuerung von Suchmaschinen nicht einheitlich. Im Folgenden sehen Sie eine Übersicht über einzelne Verhaltensweisen – aber auch Aspekte, die im weitesten Sinne allgemeingültig sind.
8.1
Ranking und Relevanz
Wir erinnern uns an die bereits in Kapitel 4 erwähnten Begriffe: 왘 Relevanz: Die Übereinstimmung des Seiteninhalts mit dem
vom Benutzer gesuchten Begriff oder der Begriffskombination 왘 Ranking: Die Bewertung einer Seite aufgrund festgelegter
Maßstäbe, z.B. Link-Popularität Leider wird die Unterscheidung zwischen den beiden in der Fachwelt nicht klar durchgeführt. Selbst in Veröffentlichungen der Suchmaschinenbetreiber finden wir hier gelegentlich eine Begriffsverwirrung; wahrscheinlich haben die eigenen Marketingleute das Prinzip selbst nur teilweise verstanden. Da den Begriffen aber gänzlich andere Konzepte zugrunde liegen und sie miteinander letztlich die Platzierung bestimmen, müssen wir sie klar unterscheiden und unsere Arbeit auf sie einstellen. Top-Platzierung entsteht durch Top-Ranking und Top-Relevanz!
8.2
Relevanzkriterien im Seitentext
Der Benutzer erwartet von einer Suchmaschine Ergebnislisten, die auf Seiten verweisen, bei denen er eine hohe Übereinstimmung mit seinen Suchwörtern findet. Wie schaffen es Suchmaschinen, diese Erwartungen zu befriedigen? 137
8 Suchmaschinen steuern
8.2.1
Fundstellen-Relevanz
Es ist leider nirgends dokumentiert, wie viele Zeichen oder Wörter einer Seite von den einzelnen Suchmaschinen überhaupt gelesen werden, aber alle Suchmaschinen werden diese Anzahl begrenzen. Bei umfangreichen Dokumenten ist sicher, dass Wörter am Ende der Seite nicht mehr gelesen und indiziert werden. Das ist aber noch nicht alles. Viele Suchmaschinen, speziell Roboter, werten zusätzlich aus, wo im Inhalt die Wörter zu finden sind. Sie gehen davon aus, dass Wörter, die weiter oben im Text stehen, eine höhere Relevanz haben als Wörter, die weiter unten stehen, und dass Wörter in hochrangigen Überschriften und Titeln noch genauer mit dem Thema der Seite korrelieren. Wichtige Schlüsselwörter müssen also nach oben in der Seite. Es gibt eine alte Journalistenregel, die auch hier wieder Bedeutung erhält: Fakten nach vorne! Ebenfalls spielt für viele Suchmaschinen eine Rolle, welche Wörter in bestimmten HTML-Tags vorkommen, insbesondere in: xxx ....xxx.... <meta name=description content=xxx>
(und weitere, siehe Punkt 8.3.) Viele Suchmaschinen bewerten die Relevanz in diesen Zusammenhängen gefundener Wörter höher als solcher, die im einfachen Text gefunden werden. Manche Web-Autoren und Designer verzichten mittlerweile auf diese Tags. Der wird stattdessen aus einem JavaScript während der Laufzeit erzeugt (was von wohl allen Suchmaschinen ignoriert wird1), Überschriften werden als einfache
-Tags mit entsprechenden HTML-Schriftgrößen oder Style-Attributen 1
Dieser Tatbestand lässt sich aber trickreich nutzen: Für die Suchmaschine wird ein optimierter Titel eingetragen, der dann über JavaScript in den »freundlicheren« Titel umgewandelt wird, den der Benutzer in der Titelleiste des Browsers sehen soll. Aber Vorsicht: Ein Suchmaschinenbetreiber kann das als Cloaking betrachten und die Website aus dem Index ausschließen. Ein Thema, das uns immer wieder begegnet.
138
Relevanzkriterien im Seitentext
erzeugt. Technisch und optisch sind diese Lösungen in Ordnung, nur fehlt eben die Information, die den Suchmaschinen erhöhte Relevanz signalisiert.
8.2.2
Kontext-Relevanz
Speziell bei Suchwort-Kombinationen kennen viele Suchmaschinen Relevanz-Kriterien. Dabei werden der Abstand der Wörter zueinander und die Reihenfolge im Text bewertet. Wenn der Suchende beispielsweise »nah fern« eingibt, wird eine Seite, in der die Phrase »...von nah und fern...« vorkommt, als relevanter bewertet werden als eine Seite mit dem Text »...gestern war ich fern, heut bin ich nah...« oder eine andere, bei der die Wörter zwar in der richtigen Reihenfolge, aber mit mehreren Zeilen Text dazwischen erscheinen. Ideal ist natürlich, wenn die Wortkombination exakt so, wie sie gesucht wird, auch im Text steht: »...das neue Nah-Fern-Ticket...«
8.2.3
Relevanz mit alt-Attributtext
Web-Gestalter verwenden gerne Bilddateien für Texte, wenn es darum geht, bestimmte Schriftarten einzuhalten, die auf dem Rechner des Benutzers nicht vorhanden sein können. Ein anderer Grund kann sein, dass bestimmte grafische oder in JavaScript dynamisierte Effekte eingesetzt werden sollen, die mit Bildern einfach besser funktionieren als mit den Alternativen DHTML und Layers. Die Suchmaschine kann in Bildern abgefasste Textelemente natürlich nicht lesen. Das Attribut alt zum Bild kann hier jedoch helfen. Sinn dieses alt-Attributs war ursprünglich, für noch ungeladene Bilder einen Ersatztext bereitzustellen. Als die Bandbreiten im Internet Mitte der 90er Jahre noch sehr knapp waren, zogen es viele Benutzer sogar vor, Bilder standardmäßig vom Browser nicht laden zu lassen und sich stattdessen nur mit dem Alt-Text zu begnügen. In einigen Browsern gibt es deshalb noch eine Funktion, anhand derer man auf den leeren Bildbereich mit der rechten Maustaste klicken und dann das Bild nachträglich noch laden kann.
139
8 Suchmaschinen steuern
Heute hat das alt-Attribut eine andere Funktion übernommen. Wenn der Benutzer den Mauszeiger im Browser auf das Bild führt und dort kurz anhält, erscheint ein Flyout, ein gelbes Fähnchen, das den Alternativtext über dem Bild anzeigt. Beispiel:
Das alt-Attribut signalisiert also einen Textteil von besonderer Bedeutung. Die meisten Suchmaschinen können es lesen und den Inhalt in den Index übernehmen, aufgrund der besonderen Stellung im Dokument natürlich mit hoher Relevanz. Während die Suchmaschine eventuell in der Bilddatei »portrait.jpg« zu findende Textinhalte ignoriert, wird sie den Alt-Text auswerten und in den Index aufnehmen.
8.2.4
Hyperlink-Relevanz
Hyperlinks können bei der Bestimmung der Relevanz, der Übereinstimmung mit den gesuchten Begriffen, ebenfalls eine Rolle spielen. Hyperlinks beinhalten Text, der für den Benutzer anklickbar ist. Im HTML-Quelltext ist dies der Inhalt des -Tagcontainers. Bei Hyperlinks mit Bildern entspricht dem der durch das altAttribut zum -Tag in HTML zugewiesene Text, wie soeben beschrieben. Viele Suchmaschinen werten diesen Text ebenfalls aus und verwenden ihn hochrangig in ihren Wortlisten.
8.2.5
Groß-/Kleinschreibung
Die meisten Suchmaschinen ignorieren Groß- und Kleinschreibung völlig. Altavista und einige andere Anbieter unterscheiden jedoch, ob der Benutzer seine Angaben nur in Kleinbuchstaben – dann wird die Schreibweise ignoriert – oder in gemischter, also normaler, Schreibweise macht. Dann gilt eine Fundstelle als relevanter, wenn sie die gleiche Schreibweise hat. Zwischen Bindestrichen, Leerstellen und anderen Zeichen, die nicht Buchstaben oder Zahlen sind, wird in der Regel nicht unterschieden. Das Grad-Zeichen beispielsweise wird meist ebenfalls ignoriert, ob Sie nach 10° Celsius suchen oder nach 10 Celsius würde also keinen Unterschied machen.
140
Ranking und Relevanz weiter verbessern
8.3
Ranking und Relevanz weiter verbessern
Um die beiden Faktoren Ranking und Relevanz einer Website zu verbessern, gibt es verschiedene Maßnahmen, die zur Auswahl stehen.
8.3.1
Domänen-, Verzeichnis- und Dateinamen
Wie wir bereits in Kapitel 5 gesehen haben, ist bei der Wahl des Domänennamens von Vorteil, wenn er mit den Suchbegriffen der Benutzer übereinstimmt. Dasselbe gilt auch für die Verzeichnisund Dateinamen. Sie sollten »sprechend« und aussagekräftig sein, um von den Suchmaschinen die gewünschte Beachtung zu finden. Und nicht zuletzt prägt sich die Web-Adresse dann auch beim Benutzer leichter ein – ein Faktor, der nicht zu unterschätzen ist. Um für die gewünschten Suchbegriffe relevant zu sein, gibt es tatsächlich kein besseres Verfahren als das folgende:
8.3.2
Besucher-Popularität
Es ist allgemein recht schwierig für eine Suchmaschine, die Anzahl der Besucher auf einer Seite zu messen. Eigentlich wichtiger – und noch schwieriger zu erfassen – wären Verweildauern von Benutzern. Andererseits wäre dies sicher eine gute Basis, um ein Page-Ranking, also eine Bewertung, zu ermöglichen. Google hat dazu eine Lösung entwickelt: Eine ActiveX-Komponente, die man sich herunterladen und als Schaltflächenleiste im Internet-Explorer installieren kann.2 Abbildung 8.1: Google Toolbar
Zum einen vereinfacht sie die Suche, zum anderen kann man den Page-Rank der Seite ablesen, den von Google für das Ranking einer Website vergebenen Wert. Dieser wird von 0 bis 10 angegeben, wobei 10 das Maximum darstellt. Die einzigen den Autoren
2
Zu finden unter www.google.de/intl/de/options.html.
141
8 Suchmaschinen steuern
bekannten Seiten mit Page-Rank 10 sind übrigens www.google.com und www.netscape.com, mit dessen Verzeichnisdienst dmoz (Open Directory Project) Google zusammenarbeitet. Um den Zahlenwert des Page-Rank ablesen zu können, muss der Benutzer den Mauszeiger darauf kurz anhalten. Ein Page-Rank von 5 ist übrigens für eine Einzelperson oder ein kleines Unternehmen bereits ein hervorragender Wert. Für eine große Firma, die ihre Ressourcen gezielt zur Verbesserung des Ranking einsetzen kann, ist er eher unbefriedigend. Wie trägt diese Komponente nun dazu bei, dass Google den PageRank ermittelt? Jedes Mal, wenn ein Benutzer die Seite aufruft, schickt sie eine Nachricht darüber an Google. Die Benutzer der Komponente bilden also eine Art Stichprobe für die Benutzer des Webs überhaupt. Von ihnen aufgerufene Seiten werden somit auch automatisch an Google übermittelt. Wem es nicht so angenehm ist, beim Surfen im Web beobachtet zu werden, der kann sich auch eine Version der Komponente herunterladen, die keine Nachrichten an Google sendet. Damit wird sein Surf-Verhalten jedoch auch nicht den Page-Rank einer Seite erhöhen. Eine Reihe weiterer Suchmaschinen bieten inzwischen ähnliche Toolbars an. Man kann sich als Benutzer also fragen, wie viele davon man gleichzeitig verwenden will. Berichten zufolge experimentiert Google derzeit übrigens mit einer neuen Toolbar, die Leerlaufzeiten von Heim- und BüroComputern nutzen soll für umfangreiche Analysen im wissenschaftlichen Bereich. Ähnliche Verfahren haben sich seit dem populären Seti@Home-Projekt etabliert, bei dem hunderttausende von Privatrechnern an der Analyse von Radiosignalen mitgewirkt haben, um dadurch außerirdische Intelligenzen aufzuspüren. Es gibt noch viele Aufgabenstellungen, in denen die gekoppelte Rechenleistung einer großen Anzahl von Computern helfen kann, komplexe Probleme zu lösen. Ein anderes, vielfach benutztes Verfahren ist die Möglichkeit, auf der eigenen Seite ein Suchfeld einzubauen, das dann Ergebnisse bei einer der Suchmaschinen aufruft. Den HTML-Quellcode dafür erhält man vom Suchmaschinenanbieter selbst.
142
Ranking und Relevanz weiter verbessern
Ein Benutzer, der ein solches Suchfeld verwendet, muss diese Seite besucht haben, die Suchmaschine speichert diese Information und nutzt sie für das Page-Ranking. Übrigens sollten Sie nicht damit rechnen, dass Ihre Benutzer von einem solchen Angebot regen Gebrauch machen werden. Wer etwas sucht, geht normalerweise direkt auf die Homepage der von ihm/ihr bevorzugten Suchmaschine.
8.3.3
Link-Popularität
Bei vielen Suchmaschinen gilt, dass häufig gefundene Links in anderen Seiten auf die eigenen Inhalte das Ranking verbessern. Dabei wird unterschieden zwischen internen Links, die sich in derselben Website befinden, und externen Links aus anderen Websites. Letztere werden deutlich höher bewertet. Besonders hohe Bedeutung hat das bei Google. Während MetaTags offensichtlich ignoriert werden, bewertet Google Seiten außer über die Besucher-Popularität auch über: 왘 Häufigkeit der Links, die auf die Seite verweisen 왘 Page-Rank der Seite, in der sich der jeweilige Link befindet
Außerdem wird der Textinhalt des Hyperlinks beziehungsweise der Text des alt-Attributs, wenn es sich dabei um ein Bild handelt, für die Bestimmung der Relevanz mitbewertet. Wenn es Ihnen also gelingt, Anbieter von Seiten mit hohem PageRank zu veranlassen, einen Hyperlink auf Ihre Seite zu legen, kann dies Ihr Ranking deutlich verbessern. Vielleicht sollten Sie auch diese Seiten bei den Robotern anmelden, damit diese merken, dass es dort einen Hyperlink auf Ihre Seite gibt. Eine andere Möglichkeit ist, besonders viele Betreiber von Websites dazu zu bewegen, einen Link auf Ihr Angebot zu legen. Die Popgruppe Bro’Sis gab im Dezember 2001 dafür ein gutes Beispiel: Bro'Sis-Banner Vielleicht hast Du Lust, Deine Site mit dem Banner zu verschönern?! Hier ist der HTML-Code zum Einbau in Deine Seite:
Wer dies bis zu einem bestimmten Zeitpunkt gemacht hatte, erhielt gratis eine Maxi-CD der Gruppe. Angeblich war die Aktion sehr erfolgreich. Das bisher Gesagte gilt für Roboter und maschinell gepflegte Verzeichnisdienste wie Fireball (die ihre Verzeichniseinträge allerdings ohnehin verkaufen). Es ist dagegen vergleichsweise schwierig vorherzusagen, was notwendig ist, um bei manuellen Verzeichnisdiensten, wie Yahoo oder dem Open Directory Project/ dmoz erfolgreich zu sein. Bei der Anmeldung ist zu berücksichtigen, dass sie eben von einem Menschen entgegengenommen wird, dessen Zustimmung und Sympathie Sie gewinnen müssen. Unterschätzen wir andererseits nicht die Unterstützung, die diese von Menschen gepflegten Verzeichnisdienste für die Platzierung bei Robotern leisten können. Interessant ist, dass Verzeichnisdienste von Robotern einfach zu durchsuchen sind. Das Navigieren zwischen den Ergebnisseiten kann einfach über Hyperlinks geschehen, und das kann auch jeder Roboter. Sorgen Sie dafür, dass Ihre Seite in Verzeichnissen platziert ist. Falls Roboter das noch nicht mitbekommen haben, melden Sie doch einfach einmal die entsprechende Seite des Verzeichnisses bei ihnen an. Schon haben Sie eine Hyperlink-Referenz, die auf Ihre Seite verweist und Ihr Ranking verbessern kann. Viele Roboter bewerten übrigens Einträge in bestimmten Verzeichnisdiensten, mit denen sie vielleicht ohnehin zusammenarbeiten, besonders hoch. Die Logik ist: Das Web-Angebot wurde hier von einem Profi angesehen und geprüft. Cloaking – das Austricksen von Suchmaschinen – würde dabei gar nicht funktionieren, der Redakteur des Verzeichnisses sieht die Seite normal im Browser wie jeder andere Benutzer. Die Aufnahme im Verzeichnis wird somit zur Empfehlung, die mit einem höheren Ranking belohnt wird.
144
Ranking und Relevanz weiter verbessern
Google beispielsweise bewertet die Einträge in Open Directory Project (www.dmoz.de) hoch, der Quelle, aus der dieser Dienst selbst Verzeichnisdaten schöpft. Wie viele Hyperlinks Google kennt, die auf Ihre Seite verweisen, können Sie leicht testen: Geben Sie in das Suchfeld link:http:// www.xyz.de ein, wobei statt www.xyz.de natürlich der URL Ihrer Seite stehen muss. Google wird Ihnen alle ihm bekannten Seiten auflisten, die einen Hyperlink auf Ihre Seite haben. Ähnliche Abfragen lassen sich auch bei anderen Suchmaschinen stellen. Sie können dazu auch spezielle Internet-Dienste nutzen, Adressen finden Sie im Anhang.
8.3.4
Änderungen an Seiten
Viele Suchmaschinen beobachten auch, in welcher Häufigkeit Seiten geändert werden. Sie gehen davon aus, dass in der Regel Seiten mit häufigen Änderungen aktueller sind. Sie erhalten deshalb ein erhöhtes Ranking. Öffnen Sie also regelmäßig Ihre Webseiten in Ihrem Autorensystem. Speichern Sie sie anschließend neu ab, damit das Datum der letzten Änderung aktualisiert wird. Inhalt muss dabei überhaupt nicht geändert werden, die Suchmaschinen werden die Seite nicht wirklich mit der letzten Version vergleichen, das wäre zu aufwändig und sie haben Wichtigeres zu tun. Die Tatsache, dass eine Seite ein jüngeres letztes Datum der Änderung hat, sollte bereits reichen. Andererseits: Zu ändern und zu aktualisieren gibt es doch immer etwas. Eine Website lebendig und aktuell zu halten, ist allgemein eine gute Empfehlung, nicht nur die Suchmaschinen, sondern auch die Benutzer werden es Ihnen mit häufigen Besuchen danken. Wie geht man eigentlich überhaupt damit um, wenn wichtige Änderungen durchgeführt oder Seiten sogar gelöscht worden sind? Nun, genauso wie nach der Erstellung. Publizieren Sie die Seite bei den Suchmaschinen über einen bestimmten Zeitraum, bis die Änderungen überall aufgenommen worden sind. Speziell Google hält einen Seitencache vor, einen Speicher, aus dem der Benutzer Seiten, die es offiziell gar nicht mehr gibt, noch mal hervorholen kann.
145
8 Suchmaschinen steuern
Es ist sicher nicht in Ihrem Interesse, wenn alte Produktdaten, nicht mehr gültige Zusicherungen von Eigenschaften oder vielleicht sogar die Preise vor der vorletzten Preiserhöhung von Benutzern auf diesem Weg wieder ausgegraben werden können.
8.3.5
Direct Hit
Ein weiteres Verfahren, Popularität und Relevanz zu messen. Im Grunde ist auch Direct Hit eine Suchmaschine (Sie können Sie unter www.directhit.com aufrufen – sie wurde aber inzwischen in die neue Suchmaschine teoma, www.teoma.com, eingegliedert). Einige Suchmaschinen übermitteln an Direct Hit Informationen, wenn ein Benutzer bei ihnen auf eine Fundstelle geklickt hat. Auch wird ausgewertet, wie lange es dauert, bis der Benutzer wieder zur Suchmaschine zurückkehrt. Daraus wird ermittelt, wie relevant die Seite für die jeweiligen Suchbegriffe ist.
8.4
Meta-Tags
Meta-Tags werden im Kopfteil des HTML-Quellcodes untergebracht. Sie enthalten Informationen, die für den Betrachter der Seite unsichtbar sind, außer wenn man sich den Quelltext anzeigen lässt. Suchmaschine
Beachtung von Meta-Tags
AltaVista
Ja
Fireball
Ja
Google
Nein
Lycos
Nein
MSN
Ja
In Meta-Tags werden für gewöhnlich Angaben zum Autor der Seite gemacht, vielleicht auch verbunden mit Kontaktinformationen. Ein weiterer häufiger Inhalt von Meta-Tags ist der Generator, die Angabe der Software, mit der die Seite erstellt worden ist. Programme wie Frontpage oder Visual InterDev von Microsoft schreiben diese Angaben selbst hinein. Die Hersteller solcher Soft-
146
Meta-Tags
ware können dann mit eigenen Suchmaschinen dieses Meta-Tag erfragen und sich so eine Statistik der Verwendung eigener und vom Wettbewerb angebotener Programme erzeugen lassen. Eine Warnung vorneweg: In den Anfangszeiten der Suchmaschinen wurden Meta-Tags von Anbietern von Inhalten häufig missbraucht. Durch Wiederholung von Wörtern oder Angabe von Inhalten, die mit der Seite selbst nichts zu tun hatten, sollten hohes Ranking erzeugt und Benutzer angelockt werden, die am tatsächlichen Inhalt der Seite nicht interessiert sind. Heute wehren sich Suchmaschinen gegen solche Verfahren, sie können zum Ausschluss der ganzen Website führen. Wichtig zur Steuerung von Suchmaschinen sind folgende MetaTags: <meta name="abstract" content="xxxxxx">
»abstract« ist identisch mit »description« (siehe unten). Diese Meta-Angabe wird nur noch von wenigen Suchmaschinen unterstützt und wohl allgemein dadurch ersetzt. <meta name="description" content="xxxxxx">
Der Inhalt (»content=...«) soll den Inhalt der Seite in Kurzform beschreiben. Manche Suchmaschinen geben dies auch mit der Ergebnismeldung an den Benutzer aus. In Description gefundene Wörter werden meist auch als Keywords betrachtet, führen also bei Übereinstimmung zu hohem Ranking. <meta name="keywords" content="xxxxxx">
Schlüsselwörter, die für die Bestimmung der Relevanz von vielen Suchmaschinen in hohem Maß berücksichtigt werden. Hier sollte eine Auswahl der relevantesten Begriffe aus Ihrem Angebot stehen, wovon wiederum die wichtigsten nach vorne gehören. Schreiben Sie am besten für jede Seite diejenigen Keywords in den Quellcode, die für diese eine Seite von Bedeutung sind, nicht dieselben Keywords für eine ganze Site. Wie bereits erwähnt, ist es von Vorteil, wenn die Schlüsselwörter im Text der Seite noch einmal vorkommen. Manche Suchmaschinen übernehmen Sie sonst nicht, um Betrugsversuche zu unterbinden. Wiederholung von Schlüsselwörtern bringt heute praktisch bei keiner Suchmaschine mehr Erfolg. Manche der Entwickler von Robotern gehen heute sogar so weit, dass ihre Software Seiten aus-
147
8 Suchmaschinen steuern
schließt, bei denen Keyword-Wiederholungen ein festgelegtes Maß überschreiten. Seien Sie damit also sehr vorsichtig! Insgesamt sollten nicht mehr als 10 Keywords genannt werden. Mit dem Parameter lang="de" kann außerdem die Sprache der Keywords wie der Seite insgesamt definiert werden. <meta name="expires" content="xxxxxx">
Verfallsdatum einer Seite. Viele Suchmaschinen berücksichtigen dieses Verfallsdatum und löschen dann den Eintrag.3 <meta name="revisit-after" content="xxxxxx">
Datum für den frühesten nächsten Besuch einer Suchmaschine bei der Webseite. Statt Datum auch als Zeitabstand erlaubt, z.B. 14 days. <meta name="robots" content="xxxxxx">
Anweisungen für Roboter, wie diese und weitere Seiten zu indizieren sind. Inhalt von »xxxxxx« kann sein (mit folgende Seiten sind hier Seiten gemeint, auf die ein Hyperlink in dieser Seite verweist): 왘 All – Diese Seite und folgende Seiten 왘 None – Diese Seite und folgende Seiten nicht indizieren 왘 Index – Nur diese Seite indizieren 왘 Follow – Nur folgende Seiten indizieren 왘 Noindex – Diese Seite nicht indizieren 왘 Nofollow – Die folgenden Seiten nicht indizieren
Mehrere Anweisungen werden durch Komma getrennt: <meta name="robots" content="index,follow"> <meta http-equiv="language" content="de">
Meist werden die Suchmaschinen die Sprache aus dem Inhalt selbst ermitteln können. Als Unterstützung nutzen manche allerdings auch dieses Metatag. Weitere Sprachen könnten sein: en – Englisch fr – Französisch es – Spanisch 3
Datumsformat: Wed 26 june 2002.
148
Sitemaps und Doorway-Seiten
Speziell Fireball beachtet noch weitere Meta-Tags: publisher, copyright, page-topic, page-type, audience. Ein kompletter Satz an Meta-Tags könnte damit so aussehen: <meta name="abstract" content="Optimierung für Suchmaschinen, um Top-Platzierungen in den Ergebnislisten zu erreichen"> <meta name="description" content="Optimierung für Suchmaschinen, um Top-Platzierungen in den Ergebnislisten zu erreichen"> <meta name="keywords" content="Suchmaschine, Verzeichnis, Roboter, Relevanz, Ranking, Top-Platzierung, Marktplatz, Internet"> <meta name="author" content="Hugo Häberle"> <meta name="revisit-after" content="After 10 days"> <meta name="publisher" content="Hugo Häberle"> <meta name="copyright" content="2001"> <meta name="page-topic" content="dienstleistung"> <meta name="page-type" content="private homepage"> <meta name="audience" content="alle"> <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
8.5
Sitemaps und Doorway-Seiten
Es kann für Suchmaschinen recht mühselig sein, sich Seite für Seite durch ein ganzes Web durchzuhangeln, bis alle Seiten gefunden sind. Da grundsätzlich auch nicht alle Seiten bis zum Ende überprüft werden, kann es dabei passieren, dass einzelne Dateien gar nicht gefunden werden. Wir haben schon in Kapitel 6 darüber gesprochen, dass man den Suchmaschinen diese Arbeit erleichtern kann, indem man für sie Sitemaps einrichtet. Sitemaps sind meist schlichte Seiten, die im Wesentlichen nur aus zusammenfassenden Hyperlinks bestehen und die Struktur der Site wiedergeben. Das kann auch für Benutzer hilfreich sein, da ihnen langwieriges Durchklicken durch viele Seiten auf diese Weise erspart bleibt. Beim Submitting der Seite reicht es dann, die Sitemap zu übergeben, da die anderen Seiten von hier aus schnell gefunden werden.
149
8 Suchmaschinen steuern
Für Sitemaps gibt es eine Reihe von Regeln: 왘 »Sprechende« Hyperlinks; viele Suchmaschinen nutzen sie zur
Bewertung der Relevanz der Seite 왘 Zurückfahren grafischer Elemente, um die Seite selbst knapp
zu halten Als Beispiel für eine gute Sitemap sei hier die der Firma Tenovis genannt, sie lässt sich unter www.tenovis.de/deutsch/shortcut/sitemap.htm abrufen. Es gibt ein weiteres Argument für die Verwendung von Sitemaps: Webseiten, die überwiegend oder ganz aus vom Server dynamisch erzeugten Inhalten bestehen, haben oft verlängerte Antwortzeiten, die bei Suchmaschinen zur Ranking-Abwertung oder gar zum völligen Ausschluss aus dem Index führen können. Auch kann hierbei vorkommen, dass ein Timeout das Laden unterbricht, bevor die Seite komplett von der Suchmaschine empfangen worden ist. Hyperlinks in noch nicht geladenen Seitenbestandteilen würden somit für die Suchmaschine unsichtbar bleiben. Speziell für die Suchmaschinen eingerichtete statische Seiten werden dagegen von den Suchmaschinen schnell erfasst, die darin vorkommenden Hyperlinks können dann problemlos weiterverfolgt werden. Auch kann es sein, dass bestimmte Seiten nur bei Eingabe von bestimmten Wörtern in Webformularen oder beim Vorhandensein von Cookies für den Benutzer erzeugt werden. Nun haben wir aber bereits gesehen, dass solche Seiten für Suchmaschinen nicht erreichbar sind. Auch hier kann eine Sitemap eine Lösung darstellen. In den genannten Beispielen dient die Sitemap also als suchmaschinenfreundliche Umgehung der dynamischen Seite, die sich an den menschlichen Benutzer richtet. Eine Steigerung davon sind Doorway-Pages, auch als Bridge-Pages, Brückenseiten, bezeichnet. Dies sind Seiten mit Hyperlinklisten, speziell für die Roboter geschriebenen Metatags und Seitentiteln. Oft werden sie für Benutzer weitgehend unsichtbar gehalten, indem der Server einem Browser gleich eine andere Seite präsentiert, oder indem der Browser durch das Meta-Tag refresh oder ein JavaScript veranlasst wird, gleich auf eine andere Seite weiterzuleiten. Suchmaschinenbetreiber betrachten Doorway-Seiten als Cloaking, als Betrug (siehe Punkt 8.7). Sie wehren sich mittlerweile dagegen, indem die Roboter sich nicht mehr als solche ausweisen und so am
150
Robots.txt
Server von einem Browser nicht zu unterscheiden sind. Bei einigen Suchmaschinen ist auch beobachtet worden, dass Meta-Tags oder JavaScript-Befehle, die zur Umleitung des Browsers dienen, erkannt werden und sogar zum Ausschluss der ganzen Website führen können. Man sollte dieses Mittel also nur sehr vorsichtig einsetzen.
8.6
Robots.txt
Bei der robots.txt geht es eigentlich um das Gegenteil dessen, was Inhalt dieses Buches ist: Darum, Suchmaschinen aus bestimmten Verzeichnissen herauszuhalten. Aber auch dies kann sinnvoll sein, da sich diese Seiten vielleicht nicht als Startseiten für Besucher eignen. Viele Suchmaschinen suchen nach einer Datei »robots.txt« im Stammverzeichnis des Webservers. Dies ist eine einfache Textdatei, die Anweisungen an Suchmaschinen beinhaltet. Sie kann mit jedem einfachen Editor (z.B. Windows Notepad) erzeugt und gepflegt werden. Die Syntax besteht nur aus jeweils zwei Teilen: Der Angabe eines User-Agent (eine Art Spitzname des Suchmaschinen-Roboters), und Zeilen mit dem Schlüsselwort »Disallow«, also Verbot: user-agent:* disallow:/private/ disallow:/database/ disallow:/datsheets/ disallow:/images/ * steht für alle Suchmaschinen, zumindest die, die sich daran halten. Suchmaschinen gezielt anzusprechen ist schwieriger, da die Bezeichnungen der User-Agents nicht sofort erkennen lassen, zu welcher Suchmaschine sie gehören. Einige Beispiele: Suchmaschine
User-Agent (Bezeichnung des Roboters)
Altavista
Scooter
Google
Googlebot
Inktomi
Slurp
151
8 Suchmaschinen steuern
In den meisten Fällen wird wohl eine robots.txt für alle Roboter gelten, diese also mit »*« bezeichnen. Im allgemeinen ist es ansonsten recht schwierig, für jeden Roboter zu wissen, als welcher User-Agent er angesprochen werden will. Auch gibt es keine Garantie dafür, dass nicht einmal ein Suchmaschinenbetreiber den Namen seines User-Agent ändert. Der User-Agent ist übrigens eine Information, die die meisten Web-Clients an den Server senden, Client könnte ein Webbrowser sein, oder eben auch der Roboter der Suchmaschine. Es scheint, dass viele Roboter jedoch diese Information nicht mehr an den Server senden, Grund ist das als »Cloaking« bezeichnete Verfahren, Servern andere Seiten anzubieten als Benutzern.
8.7
Cloaking
In USA gibt es dazu bereits einen blühenden Software-Markt, während das Thema in Deutschland noch nicht so stark diskutiert wird: Eine Suchmaschine erhält eine für sie optimierte Seite, während der Benutzer unter der gleichen Adresse eine andere, besser an das menschliche Auge angepasste Seite sieht. Dazu gibt es grundsätzlich zwei Verfahren: 왘 Die Seite für die Suchmaschine ist die eigentliche Standard-
seite, für den Besucher, der einen Browser benutzt, wird sie dann im Moment des Zugriffs umgewandelt 왘 Die Seite für den Benutzer ist der Standard; wenn der Server
beim Request am User-Agent oder an der IP-Adresse merkt, dass dieser von einer Suchmaschine kommt, wird er stattdessen eine für Suchmaschinen optimierte Seite übergeben. Gegen das zweite Verfahren wehren sich die Suchmaschinen inzwischen, indem manche sich nicht mehr über den User-Agent erkennbar machen. Das erste Verfahren beinhaltet das Risiko, dass ein Benutzer einen Browser älteren Typs oder eine aus anderen Gründen unvollständige Lösung verwendet, bei der die Umsetzung in die für den Benutzer vorgesehene Version ausbleiben könnte, und er dann die für die Suchmaschine vorgesehene Version erhalten könnte.
152
Spoofing und Spamdexing
Cloaking ist nicht ganz problemlos und gilt auch als etwas fragwürdig. Richtig angewandt kann es aber recht erfolgreich sein. Eine primitive Version davon ist es, Text in Seiten so einzubauen, dass sie nur für Suchmaschinen, nicht aber für menschliche Benutzer lesbar sind: Weißer Text auf weißem Grund oder Schrift mit der Größe 1 Punkt. Dies wird allerdings inzwischen von vielen Suchmaschinen erkannt und kann dazu führen, dass die Seite überhaupt nicht indiziert wird.
8.8
Spoofing und Spamdexing
Der englische Begriff Spoofing steht für Betrug und wird als treffende Beschreibung verwendet, wenn jemand seine Seiten so erstellt, dass sie beim Aufruf durch einen Crawler diesen erkennen und ihm dann andere Seiten zukommen lassen als die, die normale Nutzer zu sehen bekommen würden. Spamdexing (zusammengesetzt aus »Spam« und »Index«) hingegen steht für übertriebenes Submitting, durch das die Indizes einer Suchmaschine mit den immer wieder gleichen Seiten regelrecht überflutet werden. In Zusammenhang mit Submitdiensten und -software haben wir über dieses Thema bereits gesprochen. Meist sind diese Seiten außerdem so erstellt, dass in ihnen ein häufig gesuchter Begriff mehrmals auftaucht, manchmal sogar ohne für das eigentliche Angebot wirklich relevant zu sein. Die Seiten werden dann in regelmäßigen Abständen minimal verändert und immer wieder neu angemeldet, so dass sie möglichst bald in der Trefferliste auftauchen. Gegen beide Methoden haben sich die meisten Suchmaschinen inzwischen abgesichert. Gemeinhin werden sie von den Betreibern als Betrugsversuche betrachtet, weshalb das für die Verursacher empfindliche Strafen zur Folge haben kann, wie etwa der komplette Ausschluss ihrer Seiten aus dem Index.
8.9
Gekaufte Platzierungen
Wir müssen uns hier noch einmal mit der die Frage beschäftigen, ob das Verkaufen oder sogar Versteigern von Platzierungen ein akzeptables Mittel für eine professionelle Suchmaschinenredaktion ist. Schnell drängt sich einem der Begriff »Schleichwerbung« auf.
153
8 Suchmaschinen steuern
Eine grundsätzliche Frage ist hier sicherlich die Trennung zwischen redaktionellem und werblichen Inhalt, die von vielen Anbietern nicht sehr ernst genommen wird. Interessant ist, dass die derzeit erfolgreichste Suchmaschine, Google, diese Trennung streng aufrechterhält und nach Äußerungen aus dem Unternehmen diese Strategie auch beibehalten will. Offensichtlich haben Benutzer ein bewusstes oder unbewusstes Unbehagen gegenüber Vermischung. Ob diese Lektion bei den anderen ankommt? Auf jeden Fall kann die Nutzung kostenpflichtiger Submit-Schnittstellen für zahlungskräftige Unternehmen ein recht wirkungsvolles Werkzeug sein, schnell hochrangige Platzierungen zu erreichen. Diese Unternehmen müssen aber damit rechnen, kurzfristig von einem anderen, besser zahlenden Unternehmen überholt zu werden, und dann erneut Kosten zu haben, um wieder nach vorne zu kommen. Bisher ist allerdings in Deutschland noch nicht beobachtet worden, dass solche Eskalationen entstanden sind. In den USA hat sich seit kurzem besonders Overture (ehemals GoTo, www.overture.com) dieser Methode angenommen: Bei dieser Suchmaschine werden die vordersten Plätze meistbietend versteigert. Einige Suchmaschinenbeobachter, die diesen Verfahren bisher negativ gegenüber gestanden sind, empfehlen inzwischen, ein besonderes Budget für den Platzierungskauf bei Suchmaschinen anzulegen.
8.10 Übersicht über das Verhalten von Suchmaschinen Die folgende Tabelle gibt für einige Suchmaschinen (Roboter) einen Überblick, welches Verhalten bei ihnen aus Veröffentlichungen oder aus Beobachtungen zu erwarten ist: Links verfolgen
Ja
robots.txt
Alle
Meta Tag »Robots«
AltaVista, Google, Inktomi
Frames indizieren
AltaVista, Inktomi
Aus Bildern erzeugte Hyperlinks verfolgen
Alle
154
Nein
Google
Übersicht über das Verhalten von Suchmaschinen
Links verfolgen
Ja
Nein
Hyperlinks in Image Maps (klickbare Bereiche innerhalb von Bildern) verfolgen
AltaVista
Google, Inktomi
Bezahlte Werbung
AltaVista, Google, Inktomi
Wortlisten
Ja
Stop-Wörter
Alle
Meta Tag »Description«
AltaVista, Inktomi
Google
Meta Tag »Keywords«
AltaVista, Inktomi
Google
ALT-Text (Attribut zu ) AltaVista, Google
Inktomi
Kommentare
Inktomi
AltaVista, Google
Ranking
Ja
Nein
Meta Tags verbessern Ran- Inktomi king
Nein
AltaVista, Google
Viele Hyperlinks, die auf Seite verweisen, verbessern Ranking *
Alle
Tricksereien
Ja
Nein
Meta Tag »Refresh«
AltaVista
Google, Inktomi
Unsichtbarer Text
AltaVista, Google, Inktomi
Unleserlich kleiner Text
AltaVista, Google, Inktomi
* Besonders wichtig bei Google
155
9
Erfolgskontrolle
Erfolg muss überwacht und weiter gesteuert werden. Sie wollen wissen, ob Sie die richtigen Suchwörter ausgewählt haben und auch langfristig top platziert bleiben, oder ob Sie eingreifen müssen.
9.1
Logdateien analysieren und anpassen
Logdateien sind vom Webserver erzeugte Protokolle der Anfragen (»Requests«) von Browsern und der darauf folgenden Rückantworten (»Responses«) des Servers selbst. Für eine langfristig erfolgreiche Arbeit mit Suchmaschinen sind sie unverzichtbar. Diese Textdateien werden vom Server geschrieben und in einem bestimmten Rhythmus, zum Beispiel wöchentlich, erneuert. Sie können in einem beliebigen Texteditor oder auch im Webbrowser geöffnet und dort bearbeitet werden. Das Hauptproblem ist, den Server dazu zu bringen, die interessanten Informationen, und hier vor allem den Referrer, in das Protokoll zu übernehmen. Dabei macht es einen Unterschied, ob es ein eigener Server ist, den man entsprechend konfigurieren kann, oder ob man die Inhalte einem Provider anvertraut, der nur ein Standardprotokoll zur Verfügung stellt.
9.1.1
Eigener Webserver
Wenn Sie den Webserver selbst verwalten, haben Sie die Möglichkeit selbst zu bestimmen, welche Informationen über httpRequests in Logdateien festgehalten werden sollen. Diese werden zum zentralen Werkzeug der Erfolgskontrolle, wenn sie folgende Informationen enhalten: 왘 Hostname oder IP-Adresse des Benutzers – sinnvoller wäre
natürlich der Hostname, dann weiß man auch, wer angefragt hat. Das Ermitteln dieses Namens durch »Reverse Lookup«, 157
9 Erfolgskontrolle
eine Art umgekehrte Telefonauskunft im Internet, kann aber sehr langsam sein und die Leistung des Servers reduzieren. Außerdem sieht man selten den Benutzer direkt, sondern einen Proxy-Server oder ähnliches, eine Art Vermittlungsstation, deren Name nicht sehr interessant ist. Wichtig ist die Information allemal – Requests, die innerhalb kurzer Zeit von der gleichen IP-Adresse oder vom gleichen Namen ausgehen, stammen vom gleichen Benutzer, so kann man dessen Surfverhalten beobachten. 왘 Datum und Uhrzeit – wann kommen die Besucher? Surfen sie
zu Ihrer Website eher während der Arbeitszeiten oder vielleicht abends, nachts oder am Wochenende? 왘 Mit dem Response übertragene Bytes – speziell bei dynamisch
erzeugten Inhalten ist oft schwer abschätzbar, wie groß die Seiten werden. Zusammen mit der Information, wann eventuell besonders viele Seitenabrufe erfolgen und wie hoch diese sind, kann man die dem Server bereitzustellende Bandbreite besser planen. 왘 http-Status – »200« steht hier für »OK«, die Seite wurde wie
vorgesehen übertragen. Statusmeldungen mit einer 4 oder 5 zu Beginn stehen für Fehler. 404 heißt beispielsweise »Datei nicht gefunden«. So lässt sich beobachten, ob Benutzer versuchen, falsche Seiten aufzurufen; schuld könnte ein fehlerhafter Link sein. Auch Virenattacken gegen Webserver lassen sich so oft erkennen. 왘 User-Agent – mit dieser Information wird der verwendete
Browser erkennbar. Dies gibt uns wertvolle Informationen darüber, für welche Browser wir unsere Inhalte optimieren müssen. 왘 Referrer1 - die Information, auf welchem URL der Benutzer
einen Hyperlink geklickt oder ein Formular ausgeführt hat oder durch eine andere Aktivität einen http-Request ausgelöst hat, der den Benutzer auf unsere Website gefunden hat. Daraus erfahren wir übrigens auch, über welche Suchmaschinen unsere Benutzer zu uns finden und wonach sie dort gesucht haben. 1
Aufgrund eines Schreibfehlers durch einen Entwickler bei Netscape auch häufig »Referer« geschrieben, insbesondere im http Request Header.
158
Logdateien analysieren und anpassen
Für die beiden zur Zeit wichtigsten Webserver, den Apache Web Server und die Microsoft Internet Information Services, soll im folgenden beschrieben werden, wie man die Referrer-Information in das Protokoll aufnimmt. Apache Web Server konfigurieren
Stellen Sie sicher, dass das Modul mod_log_config in den Apache Server einkompiliert oder geladen ist. Fügen Sie im Ordner conf in die Datei httpd.conf folgende Anweisung ein: LogFormat "%h %l %u %t \"%r\" %s %b \"%{Referer}i\" \ "%{User-agent}i\""
Stoppen und restarten Sie den Webserver, und die Information zu Referrer und User Agent wird in den Standard-Logfile aufgenommen. Sie können den Apache-Server mit dem gleichen Modul auch konfigurieren, diese Information in ein getrenntes Protokoll zu schreiben. Microsoft Internet Information Server
Im Gegensatz zum Apache Web Server, der über Textdateien konfiguriert wird, werden für die Internet Information Server von Microsoft Dialoge in einem Konfigurationswerkzeug »Management Konsole« verwendet. Öffnen Sie die IIS-Konfiguration durch Start/Programme/Verwaltung/Internetdienste-Manager. Klicken Sie auf den Namen des virtuellen Servers (im Beispiel unten Standardwebsite) mit der rechten Maustaste und wählen Sie Eigenschaften.
159
9 Erfolgskontrolle
Abbildung 9.1: Aufruf der Eigenschaften des IIS
In der Registerkarte Website ist die Protokollierung zu aktivieren. Als Protokolltyp ist »W3C erweitert« auszuwählen, da die anderen Typen keine Referrer-Information aufnehmen. Klicken Sie dann auf Eigenschaften. Abbildung 9.2: Aktivieren des Protokolls und Festlegung des Protokolls
160
Logdateien analysieren und anpassen
Suchen Sie in der Registerkarte Erweiterte Eigenschaften den Eintrag »Referenz ( cs(Referer) )« und aktivieren Sie das Kästchen links davon. Abbildung 9.3: Aktivieren des Referrer-Eintrags
9.1.2
Webserver beim Provider
In manchen Logfiles, wie sie von Service-Providern geboten werden, also von Unternehmen, bei denen Sie Ihre Inhalte einstellen können, fehlen wichtige Informationen, aus unserer Sicht vor allem die Angaben zu Referrer und zum Browser. Schreiben Sie die folgenden Zeilen in Ihren HTML-Quelltext, und Sie erhalten die Information dennoch im Logfile: //----- Referrer erfragen <script language="javascript"> ') //-->
161
9 Erfolgskontrolle
Wenn Sie JavaScript beherrschen (oder jemand, den Sie kennen), können Sie auch Informationen zur Bildschirmauflösung und vieles mehr eintragen lassen. Das folgende Beispiel zeigt einen Auszug aus dem Logfile der Website eines der Autoren vom 16.12.2001. 62.225.252.251 - - [16/Dec/2001:06:25:28 -0800] "GET / projekt_management.htm HTTP/1.1" 200 16395
Folgendes lässt sich beobachten: Ein Benutzer ruft in der Website eine Seite project_management.htm auf. Diese Seite hat eine Größe von 16.395 Bytes. Sie wird zum Browser gesandt (200 = OK!) und wird dort von diesem ausgewertet und normal dargestellt. Im Originalprotokoll werden anschließend eine Reihe von weiteren Dateien – speziell Bilder – zugeladen, die für unseren Zusammenhang hier nicht von Bedeutung sind und daher aus Gründen der Übersichtlichkeit ausgelassen worden sind. Der letzte Request entsteht durch die oben beschriebene Javascript-Anweisung, die leicht abgewandelt auch in dieser Seite zu finden ist, allerdings ohne die Prüfung auf den Browser. Man erkennt, dass der Benutzer bei der deutschen Site (hl=de) von Google war und dort nach Projektmanagement Seminare gesucht hat. Außerdem ist erkennbar, dass die Person sich in der Seite mit den ersten zehn Treffern befunden hat, als sie den Hyperlink geklickt hat. Ansonsten würde Google eintragen, die wievielte Seite dies ist. Die Zeichenfolge »>>>>>« wurde übrigens eingebaut, um den Logfile leichter durchsuchen zu können.
162
Externe Dienste: Web-Tracker
Wer solche Log-Einträge über längere Zeit verfolgt, erhält ein gutes Gespür dafür, 왘 welche Suchmaschinen genutzt werden, 왘 nach welchen Begriffen und Wortkombinationen Besucher
suchen, und 왘 welche Seiten typischerweise Einstiegsseiten für Benutzer
sind. Man könnte einräumen, dass natürlich Suchmaschinen, bei denen man gut platziert ist, im Protokoll besonders häufig erscheinen. Tatsächlich haben wir die Erfahrung gemacht, dass man sich bei vielen Suchmaschinen sehr viel Mühe gibt, um eine gute Platzierung zu erlangen, und dann feststellt, dass sie keinen besonderen Verkehr erzeugen. Andererseits wird man feststellen, dass bestimmte Suchmaschinen viele Benutzer bringen, und wird sein Augenmerk nun darauf legen, die einmal erzielte gute Platzierung zu behalten. Das Logfile hilft also, sich auf die wichtigen Suchmaschinen zu fokussieren, bei denen der Aufwand auf Dauer lohnt. Eventuell sind das nur drei oder vier!
9.2
Externe Dienste: Web-Tracker
Im Internet gibt es natürlich auch für die Erfolgskontrolle Dienste, die dies für Sie übernehmen können. Im Grunde verwenden sie den gleichen Trick mit der Einbindung einer Bilddatei, bei deren Aufruf die Informationen an den Anbieter übersandt und dort gesammelt und ausgewertet werden. Interessant an diesen Diensten ist außerdem, dass sie Benchmarking betreiben. Sie können die Statistiken Ihrer Site also mit dem vergleichen, was Standard in Ihrer Branche ist. Web-Tracker sind der komfortabelste Weg, nachteilig ist die oft eingeschränkte Möglichkeit, die Ergebnisse an den eigenen Bedarf anzupassen. Außerdem gibt es den vollwertigen Tracker-Service natürlich nicht zum Nulltarif. Adressen einiger Anbieter finden sich im Anhang.
163
9 Erfolgskontrolle
9.3
Ausprobieren
Tatsächlich kommt zu der Mühsal des wiederholten Anmeldens bei den Suchmaschinen das Austesten dazu, welche Ergebnisse Benutzer finden werden. Je mehr man optimiert hat, umso umfangreicher kann das Testen werden, schließlich muss man in verschiedenen Suchmaschinen die unterschiedlichen Suchwörter und Wortkombinationen austesten. Dies muss außerdem regelmäßig wiederholt werden, da sich Platzierungen ändern können.
9.4
Verfügbarkeit sicherstellen und überwachen
Ein Webserver ist eine Maschine, die zwischendurch immer wieder mal ausfallen kann und wird. Es ist Aufgabe eines Administrators, durch Auswahl geeigneter Hard- und Software, Schaffung von Redundanzen (Ausweichmöglichkeiten), Notstromversorgung, Backup-Strategie, Virenschutz und vielem mehr die Ausfallzeiten zu minimieren. Eine absolute Verfügbarkeit von 100% ist aber grundsätzlich unmöglich. Auch spielt hier vielleicht eine Geldfrage mit hinein: Zahlen Sie genug für den genutzten Dienst, um es dem Administrator zu erlauben, optimale und somit teure Lösungen einzusetzen? Vielleicht finden Sie ja eine für Sie geeignete Kompromisslösung. Selbst wenn die Server in Ihrem eigenen Haus stehen, überwachen Sie die Verfügbarkeit am besten laufend. Wie für alles im Internet, was irgendwie machbar ist, gibt es auch dafür einen Dienst, den man nutzen kann: www.internetseer.com. Dieser Dienstleister besucht Ihre Site in einem vereinbarten Intervall (z.B. stündlich) und protokolliert, ob sie verfügbar ist. Wenn nicht, wird per Mail ein Alarm an eine vereinbarte Adresse gesandt. Wenn die Seite wieder verfügbar ist, erhalten Sie ein weiteres Mail.
164
Verfügbarkeit sicherstellen und überwachen
Hier ist ein Wochenbericht, den einer der Autoren vor einiger Zeit erhalten hat: Abbildung 9.4: InternetseerBericht mit knapp 20 Stunden nicht verfügbarem Server am 22.9. und auch sonst langsamen Antwortzeiten
Am Samstag, den 22.9.2001, gab es einen Ausfall von knapp zwanzig Stunden. Hintergrund war der Virus »Nimda«, der in großem Umfang schlecht administrierte Microsoft Internet Information Server, die auf Windows NT basieren, befallen hatte. Diese Server suchen nach anderen NT-Servern im gleichen Subnetz, um diese ebenfalls zu attackieren, was einen hohen Netzwerk-Verkehr erzeugen kann. Der Server, auf dem die Daten liegen, ist übrigens ein UNIX-Server, Nimda kann ihm direkt gar nichts anhaben. Im Subnetz, in dem er sich befand, waren jedoch genug NT-Server befallen, um es über mehrere Stunden praktisch komplett lahm zu legen. Was war das Ergebnis? In dieser Zeit hatte der Server wohl Besuch von Scooter, dem Roboter von Altavista, wo er vorher hervorragende Platzierungen erreicht hatte. Scooter hatte dabei festgestellt, dass es die Website oliverlehmann.com überhaupt nicht mehr gab, und löschte sie einfach aus dem Index von Altavista. Interessanterweise – Googlebot, der Roboter von Google, kommt einen ja ohnehin eher selten besuchen und bemerkte deshalb diesen Ausfall überhaupt nicht. Durch die Alarmmeldungen und das Protokoll bei Internetseer konnte der Autor schnell reagieren. Eine E-Mail an die Kunden noch während des Ausfalls mit der Bitte um Verständnis war schnell erzeugt. Danach war zu prüfen, in welchen Suchmaschinen die Verweise auf die Site gelöscht worden waren, und dann musste in diesen durch neues Submitting der alte Zustand wieder hergestellt werden. Dieses Ziel war dann nach etwa 4 bis 6 Wochen erreicht.
165
9 Erfolgskontrolle
Wer die Verfügbarkeit nicht im Rahmen des Möglichen und Zumutbaren sicherstellt und zusätzlich laufend überwacht, wird immer wieder erleben, wie technische Probleme die Bemühungen beim Submitting zunichte machen und man wieder von vorne beginnen darf.
166
10
Optimierung und Anmeldung Schritt für Schritt
Dieses Kapitel soll als kurze Zusammenfassung dessen dienen, was bisher in diesem Buch über die notwendigen Schritte bei Webseiten-Optimierung und Submitting gesagt wurde und bietet somit einen Überblick über unsere Empfehlung, was die Vorgehensweise betrifft. Wie bereits im Vorwort erwähnt, wurde in diesem Buch zwar oft von der Optimierung und Anmeldung im Zusammenhang mit Web-Auftritten mit kommerziellem Hintergrund gesprochen, Aber natürlich lässt sich das hier Gesagte genauso gut auf private oder gemeinnützige Angebote anwenden!
10.1 Die Vorbereitung Der Realisierung eines Web-Auftritts sollte eine sorgfältige Planung vorangehen. Wenn die Seiten einmal angemeldet sind und/ oder im Index der Suchmaschinen auftauchen, ist es schwierig, Änderungen vorzunehmen und dafür zu sorgen, dass die Indizes immer die aktuellste Version Ihres Angebots führen (Stichwort: Dateileichen, im World Wide Web der Suchmaschinen nennt sich die Entsprechung »Archiv« oder »Cache«). Die Seiten sollten also von Anfang an für die Zielgruppe ausgerichtet und für die Suchmaschinen optimiert sein. Außerdem sollten sie in Firmen von der Geschäftsführung geprüft und abgenommen worden sein, bevor sie online gehen und bei den Suchmaschinen angemeldet werden. Unterschätzen Sie nicht den Aufwand, den eine spätere Überarbeitung mit sich bringen kann – das Submitting von URLs an Suchmaschinen schafft normalerweise vollendete Tatsachen, weshalb es ratsam ist, den richtigen Zeitpunkt sorgfältig im Voraus zu planen. Wenn Ihre Seiten bereits online und angemeldet, aber noch nicht optimiert sind, müssen Sie aber dennoch nicht entmutigt sein. Wie gesagt: Dass
167
10 Optimierung und Anmeldung Schritt für Schritt
aktualisierte Seiten auch in den Suchergebnissen in der neuen Version auftauchen, ist nur etwas schwieriger und von längerer Dauer, als wenn komplett neue Seiten angemeldet werden. Mit der notwendigen Geduld lässt sich aber auch das irgendwann erreichen. Treffen Sie Maßnahmen, damit Nutzer von alten oder »toten« Seiten Ihres Angebots auf die aktuellen weitergeleitet werden. Anstatt Seiten zu löschen können Sie in Ihrem Web eine Seite mit einem Hyperlink auf die neue Version stehen lassen. Ein guter HTML- oder JavaScript-Entwickler wird die Umleitung auch noch automatisieren, auch der Webserver bietet dafür eine Funktion an. Besser, ein Benutzer findet solche Seiten mit einem Link zum aktuellen Angebot, als dass er oder sie den berüchtigten http-Fehler »404 – Seite nicht gefunden« erhält. Sie können eine solche Fehlerseite zwar umgestalten, aber auch das ändert meist nicht viel daran, dass es für einen Nutzer in erster Linie ärgerlich ist, darauf zu landen. Beim Aufbau der Seiten ist eine der wichtigsten Tatsachen, die man im Hinterkopf behalten sollte, dass für den User jede Seite zur Einstiegsseite werden kann. Daher sollten sowohl die Navigation als auch die interne Verlinkung der Seiten entsprechend gestaltet sein. Der Benutzer soll im Angebot nie in einer »Sackgasse« landen, weil man nicht voraussetzen kann, dass er seinen Weg zur Startseite von alleine findet bzw. er sich überhaupt diese Mühe machen würde. Nicht zuletzt macht das auch einen schlechten Eindruck der Website im allgemeinen, genauso wie ein httpFehler 404. Rechnen Sie am besten immer mit einem etwas dünneren Geduldsfaden bei Ihren Nutzern – die durchschnittliche Zeit, die User in einem Angebot verbringen, liegt derzeit bei ca. 30 Sekunden (für alle Typen von Nutzern zusammengefasst – wie diese Zahl bei Ihrer persönlichen Zielgruppe aussieht, lohnt sich vielleicht für Sie herauszufinden). In dieser Zeit gilt es also, den Nutzern so viel Interessantes wie möglich zu präsentieren, und das möglichst, ohne dass sie an die Informationen nur über irgendwelche Umwege herankommen können (also z.B. nicht erst fünfmal auf »Klicken Sie hier!« gehen müssen). Die Dateinamen der einzelnen Seiten, Titel, Überschriften und AltTexte der Bilder sind im besten Fall »sprechend«. Das spielt bei einigen Suchmaschinen eine Rolle für die Relevanz Ihrer Seiten im Suchergebnis und sorgt somit für höhere Platzierungen. Die Wahl
168
Die Vorbereitung
der Begriffe, die Sie in den Meta-Tags einsetzen, sollte ebenfalls wohlüberlegt sein. Auch hier werden folgende Überlegungen, die wir bereits in diesem Buch erwähnten, wichtig: 왘 Unter welchen Begriffen will man als Anbieter gefunden wer-
den? Hierbei lohnt es sich auch, sich mehrmals zu überlegen, ob das dieselben Begriffe sind, die Sie selbst im Kopf haben, oder unter Umständen auch welche, an die Sie noch gar nicht gedacht haben. Fragen Sie doch einmal Ihre Freunde, Kollegen etc., was diese in Suchmaschinen eingeben würden, wenn Sie nach einem Angebot wie dem Ihren suchen müssten. 왘 In welchen Suchmaschinen wird gesucht bzw. welche Benut-
zergruppen haben welche Suchmaschinen-Präferenzen? Je nachdem, wie Sie den Bereich der für Sie relevanten Suchmaschinen eingrenzen, können Sie auch Ihre Seiten diesen Suchmaschinen anpassen. Manche Suchmaschinen haben einen besseren Ruf als andere, manche werden von bestimmten Leuten nicht oder eher weniger genutzt – Sie möchten demnach vielleicht nicht bei allen im Index stehen. Wahrscheinlich werden Sie aufgrund der hohen Nutzung von Google um die Indizierung dort nicht herumkommen (wollen), aber auch das hängt von den Wünschen ab, die Sie an Ihr Angebot und an Ihre Zielgruppe stellen. Denken Sie also auch darüber vor einer Anmeldung noch einmal nach. Ranking und Relevanz sind die beiden Schlagwörter, auf die Sie bei der Optimierung Ihrer Seiten Rücksicht nehmen sollten – beides lässt sich von Anfang an durch gewisse Tricks und Kniffe, die Sie in diesem Buch gelesen haben, verbessern. Nicht zuletzt spielt auch der Finanzierungsrahmen eine Rolle. Klären Sie ab, wie viel Geld für den Anmeldeprozess bei Suchmaschinen und für andere Kundengewinnungs-Maßnahmen wie Werbung etc. investiert werden soll oder darf. Möchten Sie auch kostenpflichtige Angebote nutzen, die die Platzierung in Suchmaschinen verbessern könnten? Also zum Beispiel Angebote von Firmen, die den Anmeldeprozess für Sie übernehmen (eventuell automatisiert), oder auch Angebote von manchen Suchmaschinenbetreibern selbst, die eine schnellere Indizierung und Aktualisierung gegen Bezahlung beinhalten? Vielleicht soll auch Werbung bei Suchmaschinen geschaltet werden? Das alles sollte im Optimalfall geklärt und abgesteckt sein, bevor die erste Zeile HTML geschrieben wurde.
169
10 Optimierung und Anmeldung Schritt für Schritt
Sobald Ihre Seiten online sind, sollten Sie auf verschiedene Weisen versuchen, den Bekanntheitsgrad zu erhöhen. Vielleicht können Sie Betreiber anderer Angebote, die mit Ihrem eigenen zu tun haben, dazu bewegen, Links auf Ihre Seiten zu setzen. Sie können sich in Spezialsuchmaschinen und Verzeichnissen zu Ihrem Thema eintragen lassen und eventuell auch Ihre Web-Adresse in Gästebüchern und Diskussionsforen hinterlassen (das gilt eher für private Anbieter – seien Sie damit sehr vorsichtig, so dass es nicht rufschädigend wirkt). Solche Links können die Relevanz Ihrer Seiten erhöhen. Nachdem all diese Prozesse abgeschlossen sind, können Sie sich daran machen, Ihre Seiten bei den Suchmaschinen anzumelden.
10.2 Die Möglichkeiten Das Submitting Ihrer Seiten können Sie selbst übernehmen. Ihre Chancen, auf diese Weise hohe Platzierungen zu erreichen, stehen sehr gut, wenn Sie Ihre Seiten entsprechend optimieren, die Ratschläge und Anleitungen in diesem Buch befolgen sowie das, was durch neueste Entwicklungen auf dem Suchmaschinenmarkt eventuell notwendig wird. Allerdings ist damit ein nicht unerheblicher Zeitaufwand verbunden. Möchten Sie das Ganze also lieber jemand anderem überlassen, können Sie sich auch an Submitdienste wenden oder spezielle Software einsetzen. Das bedeutet weniger Aufwand, dafür aber höhere Kosten. Der Markt solcher Anbieter ist groß, und es tummeln sich darin auch manche, die vielleicht nicht allzu zuverlässig agieren. Informieren Sie sich also vorher über das Angebot, lesen Sie eventuell Erfahrungsberichte im Netz und versuchen Sie herauszufinden, welchen Firmen Sie dabei vertrauen können. Der Unterschied kann für Sie eine Menge Geld bedeuten. Wenn Sie bereits eine Web-Agentur mit der Erstellung Ihrer Seiten beauftragt haben, kann diese vielleicht auch das Submitting für Sie übernehmen; manche Agenturen bieten das an, achten Sie aber auf Abrechnungsverfahren und Erfolgskontrolle. Der Einmalschuss in Sachen Submitting ist selten erfolgreich. Darüber hinaus kann es ratsam sein, nicht nur die eigenen Seiten bei Suchmaschinen anzumelden. Wenn Sie Seiten finden, die auf Ihr Angebot verlinken, melden Sie doch auch diese gleich an. Das kann wiederum Ranking und Relevanz Ihrer eigenen Seiten erhöhen. Über eventuelle mehrmalige Anmeldung brauchen Sie sich
170
Der Aufwand
keine Gedanken zu machen, wenn es sich um Roboter handelt. Solange Sie die Suchmaschinen nicht regelrecht mit Seiten »bombardieren« (Spamdexing), ist eine mehrmalige Anmeldung desselben URL im Normalfall kein Problem für einen Roboter. Bei manuell gepflegten Verzeichnissen müssen Sie vorsichtiger sein, da Menschen auf wiederholte Anmeldungen etwas empfindlicher reagieren können als Maschinen. Aber auch die sind das normalerweise gewohnt – solange Sie es eben nicht übertreiben.
10.3 Der Aufwand Der zeitliche Aufwand für die Auseinandersetzung mit Suchmaschinen-Platzierungen ist hoch. Abhängig auch von Ihrer Konkurrenz und deren Versuchen, im Suchergebnis nach oben zu steigen, kann es notwendig sein, sich alle paar Tage über den aktuellen Stand Ihrer Platzierungen zu informieren und entsprechend zu handeln. Aber auch bei geringer nennenswerter Konkurrenz kann sich eine gute Platzierung schneller in eine schlechte umwandeln, als man das vielleicht möchte. Das passiert zum Beispiel aufgrund eines Ausfalls des eigenen Web-Servers oder aufgrund der sinkenden Popularität anderer Angebote, die auf das eigene verweisen – oder nicht zuletzt aufgrund der sinkenden Popularität des eigenen Angebots. Damit nicht das eine zum anderen führt und Sie schlimmstenfalls immer weiter absinken, wiederholen Sie die in diesem Buch angeführten Prozesse in einer sinnvollen Häufigkeit. Melden Sie Ihre Seiten in einem bestimmten Rhythmus neu an. Sorgen Sie dafür, dass aus anderen Websites auf sie verlinkt wird. Melden Sie vielleicht auch diese Seiten an. Wenn Sie eine Toolbar installiert haben: Rufen Sie Ihr eigenes Angebot häufig auf, damit der PageRank nicht mit der Zeit sinkt. Bringen Sie außerdem immer wieder neue und interessante Inhalte in Ihr Angebot – zwar gilt das oben Gesagte, dass große Veränderungen in Ihrer Website Probleme mit den Suchmaschinen erzeugen können, da diese vielleicht Benutzer ins Leere führen oder Erwartungen wecken, die Sie heute nicht mehr befriedigen können oder wollen. Das soll aber nicht bedeuten, dass Sie Ihre Seiten nicht mehr verändern sollen. Im Gegenteil. Bei einem Besuch des Roboters auf Ihrer Website wirken sich Aktuali-
171
10 Optimierung und Anmeldung Schritt für Schritt
sierungen positiv auf die Indizierung aus (das merkt er vor allem am Veröffentlichungsdatum der Dateien). Im Zweifelsfall ist es allgemein wichtiger, dass die Seiten überhaupt in den Top-Positionen der Ergebnislisten stehen, als dass sie dort vielleicht nicht auf dem aktuellsten Stand sind. Im Idealfall haben Sie sowohl erreicht, dass sie unter den besten Plätzen auftauchen, als auch, dass die Einträge auf dem neuesten Stand sind. Das wird Ihnen gerade bei Seiten, die häufig verändert werden, wahrscheinlich nicht gelingen – es ist jedoch ein Ziel, das man sich als Betreiber immer vor Augen halten kann, und damit eine Motivation, stets »am Ball« zu bleiben. Befassen Sie sich also in einem regelmäßigen zeitlichen Abstand immer wieder mit Suchmaschinen und der Platzierung Ihres Angebots. Außerdem müssen Sie das bei längeren Serverausfällen und größeren Überarbeitungen Ihres Auftritts wiederholen, Ihre Seiten also gleich noch einmal neu anmelden und die Entwicklung in den Indizes verstärkt beobachten. Dann sollte Ihrer Top-Platzierung nichts mehr im Wege stehen!
172
11
Ausblick: Die Suchmaschinen der Zukunft
Der Ausblick in die Zukunft ist in Sachen Suchmaschinen eigentlich gar nicht so schwierig. Die neuen Standards und Methoden sind in Entwicklung, und es lässt sich bereits recht gut absehen, wie die Lösungen der Zukunft aussehen sollen – wenn sie sich denn durchsetzen. Viele User und Experten sind der Meinung, dass Google & Co. zumindest die nahe Zukunft gehört. Die Technologie der meisten Roboter ist inzwischen sehr ausgereift, sie sind schnell, benutzerfreundlich, bringen Ergebnisse hoher Relevanz und sind im Internet meist der schnellste Weg auf der Suche nach den gewünschten Daten. Außerdem haben sie Geschäftsmodelle entwickelt, die zumindest einem Teil von ihnen die Existenz langfristig sichern werden. Ob die Benutzer es akzeptieren, wenn dies bei manchen Suchmaschinen die Grundfunktionalität in Frage stellt (zum Beispiel durch Verkauf oder Versteigerung von Platzierungen), wird sich zeigen. Aber die Welt dreht sich weiter und im Internet gilt: das Neue ist des Guten Feind. Es gilt doch eine Reihe von offenen Wünschen zu befriedigen, und die Suchmaschinen werden sich in dem Maße weiterentwickeln, wie sich auch das World Wide Web verändert. Auch, wenn das jetzt vielleicht langsamer als in den 90er-Jahren vor sich geht – es wird noch eine Menge passieren.
11.1 Datenmengen und -strukturen Das aktuell wohl größte Problem für die Entwickler von Suchmaschinen sind die weiter rasch wachsenden Datenmengen, die indiziert und den Benutzern als Ergebnislisten angeboten werden müssen. Täglich wächst die Menge an Websites weiter, die erfasst werden wollen – Schätzungen und Statistiken dazu sind vielleicht vorhanden, aber selten aktuell. Der Anteil der Seiten, die tatsächlich indiziert werden, ist im Vergleich dazu eher gering, trotz der 173
11 Ausblick: Die Suchmaschinen der Zukunft
sehr großen Speicher- und Rechenleistungen der Rechner, die Betreiber einsetzen. Die aktuellen zwei Milliarden Seiten, die Google im Index hat, sind selbst nur ein Bruchteil des gesamten Angebots. Besonders manuell gepflegte Verzeichnisse hinken in diesem Punkt hinterher. Dabei wachsen auch ihre Verzeichnisse an, die Anzahl an Kategorien und Unterkategorien wird laufend größer, und es ist anzunehmen, dass entweder der Personalbestand in den Redaktionen dieser Unternehmen mitwächst, oder dass ihnen ihre Softwareunterstützung hilft, produktiver zu werden. Gleichzeitig soll aber auch die Spreu vom Weizen getrennt werden: Nicht jede Seite im World Wide Web soll indiziert werden und viele Seiten sind für Suchmaschinen wertlos (z.B. dynamische, für einen Benutzer individuell erzeugte Seiten). Andere sind nicht das, was sie vorgeben zu sein. Das Problem, das sich hier stellt, lässt sich auch anders beschreiben: Stellen Sie sich vor, Sie bekommen tagtäglich eine Menge Fragen stichwortartig gestellt und müssen antworten, ohne Rückfragen stellen zu dürfen. In dieser Situation sind die Suchmaschinen: Noch fehlt eine wirkliche Systematik, gibt es keine ausgereiften Technologien und Methoden für die Suchmaschinen, um zu verstehen, was das eigentlich ist, auf das hier verzweigt wird. Die Anbieter der Roboter auf der einen und der Verzeichnisdienste auf der anderen Seite werden sich in ihren eingesetzten Methoden und Verfahren zunehmend ähnlicher, der Wettbewerb ist auch hier der wichtigste Lehrmeister. Dennoch sind einige mit ihren Methoden erfolgreicher als andere. Bei vielen der Suchmaschinenbetreiber hat man mittlerweile auch den Eindruck, dass die Suchfunktion in ihren komplexen Portalen an Bedeutung verloren hat. Das Geld wird mit Werbung gemacht, und die Benutzer werden eher mit Nachrichten, Unterhaltung und Gewinnspielen gelockt. Weitere beliebte Lockvögel sind derzeit Astrologie und Erotik. Der Trend geht hier sicher dahin, dass es getrennte Betreiber für Portale und Suchmaschinen geben wird, wie wir es heute bei Fast und Inktomi bereits sehen können. Das Know-how der Portale wird sein, Benutzer zu ködern und zu halten, das der Suchmaschinenbetreiber die Technik im Hintergrund.
174
Neue Suchangebote
Andererseits zeigt der weltweite Erfolg von Google, die statt eines Portals ein schlichtes Web-Formular für den Zugriff haben, dass möglicherweise der Wunsch der Kunden genau in die andere Richtung geht: Eine schnell zu ladende Oberfläche, die auf eine ebenso schnell reagierende Applikation im Hintergrund zugreift. Es kann einfach sein, dass sich die Benutzer den schlanken Spezialisten wünschen. Obwohl – hartnäckig halten sich seit Monaten Gerüchte, Google solle zum großen Portal ausgeweitet werden...
11.2 Neue Suchangebote Der Suchmaschinenmarkt ist weiter in Bewegung und die Betreiber probieren immer wieder neue Möglichkeiten aus. Letztlich wird sich jedoch die Zukunftssicherheit all der neuen Ideen, die immer wieder vorgestellt werden, neben der unsicheren Akzeptanz bei den Benutzern vor allem durch die Frage entscheiden, wem es gelingen wird, daraus funktionierende Geschäftsmodelle zu entwickeln.
11.2.1
Neue Suchinhalte
Suchmaschinen laufen dem aktuellen Informationsangebot im Internet immer mit einem gewissen Zeitabstand hinterher. Neue Informationen werden erst erfasst, wenn die Maschinen in ihren Aktualisierungszyklen durch Hyperlinks in anderen Seiten darauf geführt werden. Beim Bestreben um möglichst aktuelle Inhalte ist eine Lösung für einen Suchmaschinenbetreiber, bestimmte Seiten mit häufig wechselnden Inhalten zu identifizieren und diese einem erhöhten Aktualisierungsrythmus zu unterwerfen. Daraus lässt sich eine neue Form der Suchmaschine ableiten: Google hat kürzlich ein neues Suchsystem für Nachrichten vorgestellt, in dem zu einem Suchthema aktuelle Artikel aus diversen Online-Nachrichtenangeboten gefunden werden können. Dabei werden verschiedene Quellen, teils auch aus verschiedenen Ländern, gegenübergestellt, so dass der Leser sich ein umfassendes Bild machen kann. Zum Zeitpunkt der Drucklegung dieses Buchs ist dieser Dienst erst als Betaversion und nur in englischer Sprache verfügbar.
175
11 Ausblick: Die Suchmaschinen der Zukunft
Abbildung 11.1: Google News Search gibt einen Überblick über die internationale Lage am Nachrichtenmarkt zu einem bestimmten Thema
11.2.2
Neue Benutzerschnittstellen
Ein weiteres von Google angekündigtes Angebot ist die Spracheingabe von Suchbegriffen. Vielleicht werden wir bald unsere Suchanfragen in normaler, menschlicher Sprache an den Computer richten, und die Suchmaschinen werden uns die von ihnen gefundenen Ergebnisse in derselben Sprache vortragen. Einen anderen Ansatz verfolgt die Meta-Suchmaschine KartOO. Das besondere an ihr ist weniger die Such- oder Findelogik, sondern die eigentümlich komplexe Grafik mit einer Vielfalt von Konfigurationsmöglichkeiten und Mouseover-Effekten, die bei Überfahren eines Ergebnisknotens mit der Maus zusätzliche Informationen anbieten. Die Ergebnisseite von Kartoo erinnert etwas an eine Straßenkarte und wird von KartOO konsequenterweise auch als »Map« bezeichnet.
176
XML, RDF und das semantische Web
Abbildung 11.2: Kartoo.com zeichnet sich durch eine spezielle grafische Darstellung von Relevanz sowie von Verknüpfungen zwischen Websites aus
11.3 XML, RDF und das semantische Web Es gibt noch weiteren Anlass für ein gewisses Maß an Unzufriedenheit: Ein Beispiel ist die Unmöglichkeit im jetzigen Web, Benutzer direkt zu den Fundstellen ihrer Suchwörter in einer Seite zu führen. Man erfährt, in welcher Seite die gesuchten Inhalte zu finden sind, wenn man diese dann geöffnet hat, beginnt die Suche erneut: Wo stehen denn die gewünschten Inhalte? Außerdem eignen sich die von uns besprochenen Suchmaschinen nur für dokumentenartige Dateien: HTML, Microsoft Word und Excel, Adobe Acrobat und Postscript und ähnliche Formate lassen sich damit hervorragend durchsuchen und auswerten. Schwierig wird es, wenn es darum geht, dynamische Elemente zu erfassen (siehe unten). In den Webtechnologien wird dieses Problem heute allgemein noch so gelöst, dass aus Nicht-HTML-Daten, wie Inhalten von Datenbanken, direkt erfassten Daten von Maschinen- und Betriebssteuerungen, Posteingangsfächern von Mailsystemen etc., Webseiten erzeugt werden, die von Browsern und dann eben auch von Suchmaschinen erfasst werden können.
177
11 Ausblick: Die Suchmaschinen der Zukunft
Umgekehrt werden Daten vom Webbrowser an den Server mit einem Verfahren übertragen, das eigentlich für den Abruf von Seiten gedacht worden ist, den http-Request. Die Entwickler haben inzwischen zwar gelernt, damit zu leben und erzeugen Web-Applikationen von früher ungeahnter Interaktivität. Aber es ergeben sich dabei einige Grundprobleme: 왘 Vom Server umzusetzende Aktionen erfordern immer wieder
einen neuen Request. Dieser kostet Zeit und ist in seinen Möglichkeiten begrenzt. 왘 Der Entwickler kann auch den Browser Aktionen ausführen
lassen, muss sich dann aber mit den teilweise sehr unterschiedlichen Möglichkeiten der unterschiedlichen Browser beschäftigen.
11.3.1
Dynamische Elemente, Dokumente und weitere eingebundene Dateien
Die Erfassung von dynamischen Dateien und Elementen wie Applets, Flash-Animationen etc. durch die Roboter der Suchmaschinen ist ebenfalls eine Herausforderung. Zur Zeit kann man auch beobachten, dass sich diesbezüglich etwas auf dem Markt tut: Die Entwickler einiger größerer Suchmaschinen haben in den letzten Monaten Testversionen von Robotern vorgestellt, die sowohl Fähigkeit haben, diese Elemente zu erkennen und zu erfassen, wie auch Funktionen zur Sucheingabe hinzugefügt, mit denen Nutzer speziell nach solchen Inhalten suchen können. Gerade hier stellt sich aber auch wieder die oben beschriebene Problematik von großen zu bewältigenden Datenmengen sowie der Notwendigkeit, für Suchmaschinen nützliche Seiten von den anderen zu unterscheiden. Außerdem fällt es den Robotern oft nicht leicht, an die verwertbaren Informationen zu kommen, die in solchen Elementen stecken – zum Beispiel können sie in FlashFilmen höchstens die darin enthaltenen Texte auswerten. Die Indizierung neuer Dateitypen ist auch laut dem Experten Klaus Patzwaldt (dem Betreiber des Suchmaschinen-Informationsdienstes @-web, www.at-web.de) eine der großen Aufgaben, die es für die Entwickler im Moment zu meistern gilt.
178
XML, RDF und das semantische Web
11.3.2
XML
XML ist eine recht neue Sprache für Web-Inhalte, die HTML teilweise ergänzen, teilweise aber auch ersetzen wird. Sie beschreibt die Web-Daten und ihre Struktur in einem Format, das dem Entwickler einerseits ein viel höheres Maß an Freiheiten und Möglichkeiten bietet, andererseits aber auch viel Disziplin verlangt. Anhand von XML können Web-Entwickler ihre eigene Seitenbeschreibungs-Sprache erstellen, so dass derselbe Inhalt in verschiedenen Formaten dargestellt werden kann. XML wurde vom W3-Konsortium 1998 als Norm verabschiedet. Seither ist es als Metasprache anerkannt und wird darüber hinaus von vielen als eine der Seitenbeschreibungs-Methoden der Zukunft angesehen. Es ermöglicht eine leichtere Navigation, besseren Datenaustausch sowie eine effizientere, personalisierte Lieferung von Informationen. Langsam beginnt XML, sich auf einer breiteren Basis durchzusetzen. Zur Zeit stellt eine wachsende Zahl von Anbietern ihre Inhalte von HTML auf XML um (unter anderem sichtbar bei Redaktionssystemen). XML ist für Suchmaschinen lesbar wie HTML. Was allerdings fehlt, sind standardisierte Tags, die einer Suchmaschine hohe Relevanz signalisieren, wie , oder die Metatags. Somit werden die Entwickler der Suchmaschinen lernen müssen, in XML vergleichbare Verfahren der Bewertung von Inhalten zu finden. Das Interessante an XML ist: Es eignet sich gleichermaßen für Dokumenteninhalte wie für Daten anderer Art. In HTML könnte eine Suchmaschine nur auslesen, dass es eine Buchstabenfolge »Hans Müller« gibt, vielleicht noch das Wort »Schuhgröße« sowie die Zahl »46«. In XML kann die Suchmaschine zusätzlich erkennen, dass Hans Müller eine Person ist, die auf ziemlich großem Fuß lebt. Und statt Sie via Hyperlink nur zu dem Dokument zu führen, wo Sie dann die Fundstelle selbst finden müssen, weiß eine XML-bewusste Suchmaschine auch, wo im Dokument diese ist. Die künftige auf XML ausgerichtete Suchmaschine sammelt also nicht nur Wörter und Textfragmente, sondern versteht auch ihren Kontext und kennt die Zusammenhänge zwischen ihnen.
179
11 Ausblick: Die Suchmaschinen der Zukunft
11.3.3
Die große Vision: RDF und das semantische Web
Die Vordenker im Web gehen noch einen Schritt weiter: Das Web der Zukunft soll semantisch sein – es soll wissen, was die in ihm bereitgestellten Ressourcen tatsächlich sind und den Benutzer, der an ihnen interessiert ist, darüber informieren. Die Idee des semantischen Web wurde bereits vor einiger Zeit von Tim Berners-Lee, Erfinder des World Wide Web und Vorstand des W3-Konsortiums, vorgestellt und bietet eine Möglichkeit, den beschriebenen Herausforderungen zu begegnen – speziell in bezug auf Datenbanken und dynamische Web-Inhalte. Der Begriff »semantisch« wird vor allem in der Sprachwissenschaft verwendet und beschreibt Bedeutungszusammenhänge. Das Problem, das Berners-Lee in seiner »Semantic Road Map« von 1998 sieht, stellt sich folgendermaßen dar: Computer können zwar Daten lesen, aber nicht verstehen. Sein Zitat: »Jetzt verfügen wir plötzlich und wie durch ein Wunder über das Web. In Bezug auf Dokumente ist dadurch alles ganz einfach geworden. Aber was die Daten betrifft, da sind wir immer noch in denselbem Zustand wie zu den Zeiten, bevor es das Web gab.« Die Semantic Web Agreement Group (SWAG) arbeitet seit 1998 an der Entwicklung des Semantischen Web – es ist also noch immer ein Stück weit Zukunftsmusik. Ziel ist es, das Web durch »Daten über Daten« (Metadaten) besser für Computer zu beschreiben, als das im Moment der Fall ist. So wird es auch für Programme einfacher, damit zu arbeiten. Zum Beispiel sollen die neuen Beschreibungstechniken ermöglichen, dass sich Fotos im Web für die beteiligten Rechner (Server, PCs der User, Suchmaschinen-Spider) nicht nur einfach durch Dateinamen und einen alt-Text darstellen, sondern dass der Inhalt eines Bildes genau beschrieben werden kann. Eine große Rolle im semantischen Web spielt deshalb das sogenannte Resource Description Framework (RDF), was wiederum auf URI und XML basiert. Wie bereits angesprochen, bietet XML mehr Möglichkeiten zu einer automatisierten Beschreibung von Daten als HTML. Um an das Ziel zu gelangen, bedarf es jedoch noch eines großen Entwicklungsaufwands: Damit der Austausch von Daten auch wirklich effektiv sein kann, muss eine gemeinsame Basis definiert werden, die den Austausch unterstützt. Teil dieser Basis ist zum Beispiel ein standardisiertes Glossar, damit alle Computersysteme die Begriffe auf gleiche Weise verarbeiten.
180
XML, RDF und das semantische Web
Das Semantische Web ist also eine neue Vision, nach der Komponenten eines Dokuments Zusammenhänge zwischen verschiedenen Aspekten von Web-Inhalten beschreiben und verstehen, so dass Maschinen die Daten intelligenter und eigenständiger interpretieren können. Dadurch würde die Automatisierung des Web beachtlich vorangetrieben, und nicht zuletzt würde es Suchmaschinen erleichtern, Informationen genauer einordnen und bewerten zu können. Natürlich müssen aber Suchmaschinen erst einmal an die neuen Technologien angepasst werden, um davon profitieren zu können. Für das semantische Web wird es notwendig sein, neue Suchmaschinen zu entwickeln, die sehr viel genauer als die heutigen wissen, worin die von ihnen erfassten Inhalte bestehen. An die Stelle der Wortlisten werden Beschreibungen von Objekten – Seiten, andere Dateien oder auch nur Bestandteile davon – treten. Die Suchmaschinen werden nicht nur wissen, wo diese Inhalte zu finden sind und woraus sie genau bestehen, sondern werden sehr viel schneller reagieren, wenn sich in ihnen etwas ändert. Tim Berners-Lee und die SWAG möchten erreichen, dass Informationsfindung im Web individualisiert und vereinfacht wird und so im Endeffekt ein nutzerfreundlicheres System entsteht, das den Anwendern Spaß macht und ihre Produktivität steigert. Ein wichtiger Teil davon ist der Einsatz von Suchmaschinen. Auch diese Entwicklung ist sehr spannend und es ist sinnvoll, sie weiter zu beobachten. Eines steht aber fest: Wie die Zukunft des Web auch aussehen mag – die Zukunft der Suchmaschinen wird damit eng verbunden bleiben.
181
Anhang
Im Anhang haben wir für Sie weitere Informationen über den Optimierungs- und Anmeldeprozess bei Suchmaschinen sowie einige wichtige Adressen zusammengestellt.
183
Anhang
184
A
Hierarchie der Platzierungs-Kriterien bei Suchmaschinen
Betreiber von Suchmaschinen geben nur teilweise Preis, nach welchen Kriterien die Platzierung der Ergebnisse erfolgt, und wie diese Kriterien gewichtet werden. Den folgenden Angaben sollte man folgen, wenn man Web-Seiten in möglichst vielen Suchmaschinen – speziell in Robotern – top platzieren will. Die Gewichtungen werden in einzelnen Suchmaschinen abweichen, auch verwenden viele Suchmaschinen nur einen Teil der Kriterien: Gewichtung
Ranking
Relevanz
1
Platzierung in Verzeichnisdiensten, die mit dem Roboter unternehmerisch verbunden sind
Domänenname***, Text in Hyperlinks in anderen Seiten, die auf diese verweisen
2
Anzahl an Hyperlinks von anderen Web-Sites, die auf diese Seite verweisen*
Ordnernamen, Dateinamen
3
Anzahl an Hyperlinks in der...-Container, selben Web-Site, die auf diese Meta-Tag Keywords, Seite verweisen* Meta-Tag Description
4
Häufigkeit der Seitenaufrufe, Verweildauer der Benutzer**
... Container, ... Container
5
alt-Attribut zum -Tag, Text innerhalb von ... Containern
6
normaler Text****
*
Google bewertet auch das jeweilige Ranking der Seiten mit, von denen der Aufruf ausgeht.
**
Soweit für die Suchmaschine erkennbar
*** Ranking der Toplevel-Domänen untereinander **** Kann durch Kontextrelevanz (bei Wortkombinationen Übereinstimmung der Reihenfolge und Nähe zueinander im Text) aufgewertet werden. 185
B
Checkliste für SuchmaschinenOptimierung und -Anmeldung
Hier finden Sie noch einmal in Kurzform, welche Dinge Sie in welcher Reihenfolge beachten sollten.
B.1
Vor der Anmeldung bei Suchmaschinen
왘 Gibt es einen Businessplan? Gibt es ein Pflichtenheft? Ent-
spricht die Website den Anforderungen dieser Dokumente und ist sie als gültig verabschiedet? Es kann sehr lange dauern, bis die Suchmaschinen spätere Änderungen erfassen, bis dahin wird eventuell nicht nur auf veraltete Seiten verwiesen, diese werden auch in Cache-Speichern weiter vorgehalten. 왘 Haben Sie einen Marketingplan, aus dem ersichtlich wird, was
Sie mit den Besuchern weiter unternehmen wollen? Sind die dazu notwendigen Maßnahmen eingeleitet? Manchmal dauert es sehr lange, bis sich die ersten befriedigenden Ergebnisse zeigen, es kann aber auch sehr schnell gehen. Dies ist nicht vorhersehbar und man sollte vorbereitet sein. 왘 Kennen Sie Ihre Zielgruppe genau genug und wissen Sie, wie
diese zu erreichen ist? Spätere Änderungen in den Seiten sind natürlich möglich und werden immer wieder notwendig sein, es kann aber lange dauern, bis die Suchmaschinen Notiz davon nehmen.
187
Checkliste für Suchmaschinen-Optimierung und -Anmeldung
왘 Verfügt der Webserver über ausreichend Rechen- und Netz-
werkleistung? Ist er sicher gegen Ausfälle aufgrund technischer Probleme? Ist er geschützt vor Viren, trojanischen Pferden etc.? Werden Auslastung und Verfügbarkeit laufend überwacht und bei Bedarf angepasst? Unzureichende Leistung und Verfügbarkeit des Web-Servers können einmal erreichte Platzierungen und Erfolge bei Kunden schnell wieder vernichten. 왘 Spricht der URL? Das heißt, finden sich in ihm wichtige
Schlüsselwörter der Web-Seite wieder? Dies wird von vielen Suchmaschinen mit einer besonders hohen Relevanz für den Suchbegriff belohnt. Spätere Änderungen von Datei- oder Verzeichnisnamen können dazu führen, dass der Verweis im Ergebnis der Suchmaschine ins Leere führt. 왘 Sind die Tags <meta>, , bis , für Suchmaschi-
nen optimiert? Sind Bilder mit einem alt-Attribut suchmaschinengerecht gekennzeichnet? Steht Text, in dem die wichtigen Schlüsselwörter vorkommen, oben in der Seite? Auch mit diesen Maßnahmen wird die Relevanz verbessert. 왘 Ist sichergestellt, dass dabei keine geschützten Namen, speziell
Bezeichnungen des Wettbewerbs, unbefugt verwendet werden? Es ist sicher verführerisch, auf diesem Weg zu versuchen, Verkehr, der eigentlich dem Wettbewerb gilt, auf die eigene Seite zu führen. Aber Vorsicht: Die Grenze zum unlauteren Wettbewerb ist schnell überschritten. Im Zweifelsfall: Fragen Sie einen Anwalt. 왘 Sollen weitere, kommerziell angebotene Verfahren verwendet
werden, um Besucher auf die Seite zu führen? Dies könnten sein: Käufliche Top-Platzierung, Werbung mit Bannern und Tiles, Werbung in Newslettern anderer Veranstalter etc.
188
Während der Anmeldung bei Suchmaschinen
B.2
Während der Anmeldung bei Suchmaschinen
왘 Ist die Site bei den wichtigen Verzeichnisdiensten angemeldet?
Dies kann zu deutlich verbessertem Ranking und somit besserer und schnellerer Platzierung in Suchmaschinen führen, z.B. führt eine Platzierung im Open Directory Project oft zu einem höheren PageRank in Google. 왘 Wird die Website bei den wichtigen Robotern regelmäßig ange-
meldet? Da viele Anmelde-Versuche wirkungslos bleiben, ist diese Aktivität über den notwendigen Zeitraum in einem vernünftigen Rhythmus – z.B. ein- bis zweimal täglich – zu wiederholen, bis der gewünschte Erfolg erreicht ist. 왘 Wenn es Verweise in Webseiten in anderen Domänen gibt, die
auf die Web-Site verweisen, werden diese den Suchmaschinen ebenfalls bekannt gemacht?
B.3
Nach der Anmeldung bei Suchmaschinen
왘 Werden Ergebnisse der Suchmaschinen sowie Leistung und
Verfügbarkeit der Web-Site laufend überwacht und bei Bedarf angepasst? 왘 Greifen die weiteren vorgesehenen Maßnahmen zur Entwick-
lung der Kundenbeziehung? 왘 Zeigen sich Fehler in der Website, die Anpassungen oder
Änderungen erforderlich machen? Dies wird in vielen Fällen dazu führen, dass die Prozeduren der Anmeldung erneut durchlaufen werden müssen.
189
C
Einige der wichtigsten Suchmaschinen in Deutschland
Diese Tabelle liefert eine Übersicht über die größten und vielleicht wichtigsten Suchmaschinen bei uns. Die hier gemachten Angaben sind eine Momentaufnahme von 2002. Häufige Änderungen sind zu erwarten. Ein »X« steht für ein eigenes Angebot. Die Angaben basieren auf Mitteilungen der Anbieter sowie auf eigenen Beobachtungen und sind ohne Gewähr. Dienst- URL name (http://...)
Roboter
Aarno
X
www.aarno.de
VerMetaSubmit- Bemerzeichnis Suchm. Dienst kung
Abacho www.abacho. de
X
X
Acoon
www.acoon.de
X
Alles Klar
www.allesklar. de
Altavista
de.altavista. com
Overture, LooksX mart
AOL
suche.aol.de
Inktomi
Bellnet
www.bellnet. de
Caloweb
www.caloweb. de
DinoOnline
www.dinoonline.de
Domanova
www. domanova.de
X
X X
Top-Platzierungen werden bei Overture versteigert
dmoz X
X X X
Kein Submit von URLs
191
Einige der wichtigsten Suchmaschinen in Deutschland
Dienst- URL name (http://...)
Roboter
VerMetaSubmit- Bemerzeichnis Suchm. Dienst kung
Fireball
Altavista
X
Inktomi
Dino
www.fireball. de
Freenet www.freenet. de
X
Eintrag im Verzeichnis kostenpflichtig Keine Möglichkeit, URL anzumelden
Google
www.google. de X
Hotbot
www.hotbot. lycos.de
Inktomi
Lycos
Lycos
www.lycos.de
Fast
X
MetaGer
meta.rrzn. unihannover. de
MSN
search.msn.de
X
Alles Klar
Submit bei MSN und AllesKlar in einem Durchgang
Open Directory Project
dmoz.org/ World/Deutsch
X
X
NetscapeInitiative, ehrenamtliche Redakteure
Qualigo
www.qualigo. de
Rex.de
www.rex.de
Sharelook
www.sharelook.de
192
dmoz
X
X
X
X
versteigert Einträge und Ranking Einschränkung auf T-OnlineSeiten möglich
X
Einige der wichtigsten Suchmaschinen in Deutschland
Dienst- URL name (http://...)
Roboter
Suchknecht
www. suchknecht.at
X
Suchmaschi ne. com
www.suchmaschine.com
TOnline
t-online.de
VerMetaSubmit- Bemerzeichnis Suchm. Dienst kung X
Bellnet
Overture, Fast
Tramwww.trampelpelpfad pfad.de
Top-Platzierungen werden bei Overture versteigert X
Web.de web.de
Fast
X
Yahoo
Google
X
de.yahoo.com
Österreichische Suchmaschine, sehr nützlich als MetaSuchmaschine
X
193
D
Hyperlinks zum Thema
Die Autoren übernehmen keine Garantie für die Inhalte, die beim Aufruf der folgenden Hyperlinks im Internet angeboten werden – können sie den Lesern aber für weitere Informationen empfehlen.
Das von Seth Godin entwickelte Permission-Marketing verwendet das Mittel des Newsletters, eventuell mit individuell angepassten Inhalten. Im Mittelpunkt steht die jederzeit widerrufliche Zustimmung des Benutzers. Permission Marketing eignet sich hervorragend zur weiteren Bearbeitung der über Suchmaschinen gewonnen Kontakte. 1. Web-Site von Seth Godin www.permission.com 2. Deutscher Direktmarketing Verband e.V. www.ddv.de/service/top_news_1457.html
198
Bulk-Mail-Software/Hardware
3. Ideenreich.com www.ideenreich.com/mehrbesucher/permission_marketing_1.shtml 4. Flatfox www.flatfox.de/b2b/deutsch/permission_marketing/index.htm 5. Interview mit Seth Godin (4/1998), ergänzende Infos www.fastcompany.com/online/14/permission.html www.fastcompany.com/online/14/fourrules.html www.fastcompany.com/online/14/fourtests.html www.fastcompany.com/online/14/sixlevels.html 6. A comprehensive Analysis www.ascusc.org/jcmc/vol6/issue2/krishnamurthy.html 7. In Online Permission Marketing www.responsys.com/documents/seybold.pdf
Eine weitere Hilfe, Suchmaschinen besser zu verstehen, ist die Möglichkeit selbst eine eigene Suchmaschine zu unterhalten. Tatsächlich kann es mehrere Gründe geben, sich für die Bereitstellung eines eigenen Suchangebots zu entscheiden: 왘 Es soll eine Möglichkeit für den Web-Besucher geschaffen wer-
den, gezielt innerhalb des unternehmenseigenen InternetAngebots nach Inhalten zu suchen. Zwar könnte der Benutzer dafür auch eine normale Internet-Suchmaschine einsetzen, aber häufig besteht der Wunsch, ihm ein besonderes, auf die eigene Website konzentriertes Suchangebot zu machen, das nach eigenen Wünschen konfiguriert werden kann und dessen Darstellung der Ergebnisse selbst gestaltet werden kann. 왘 Speziell in Intranets, unternehmensinternen Weblösungen, ist
die obige Möglichkeit von vornherein ausgeschlossen, da die öffentlichen Suchmaschinen des Internets zu den Seiten, die in Intranets aufgerufen werden können, überhaupt keinen Zugang haben und aus Sicherheitsgründen auch nicht haben sollen. Der Zugang ist nur von unternehmensintern aufgestellten Rechnern aus möglich, oder von externen Computern, wenn die Benutzer dafür eine spezielle Berechtigung haben, was auch als Extranet bezeichnet wird. 왘 Die Suchmaschine soll Basis eines eigenen Web-Portals werden
und in diesem Zusammenhang Teil eines neuen Angebots für Benutzer. Dabei ist zu bedenken, dass man sich in den Wettbewerb mit bereits etablierten Suchanbietern begibt. Im Zusammenspiel mit einem auch sonst passenden Geschäftsmodell kann das aber durchaus funktionieren, zumindest wenn man bereit ist, hohe Beträge in leistungsfähige Internetzugänge, Rechenleistung, Speicherplatz und Ausfallsicherheit zu investieren.
201
E Eine eigene Suchmaschine unterhalten
E.1
Suchlösungen für eigene Webs
Die meisten modernen Autorensysteme bieten integrierte Suchlösungen an, die für einfache Websites durchaus ausreichen können. Microsoft Frontpage beispielsweise kann beim Speichern von erstellten oder geänderten Webseiten deren Inhalte in statische Wortlisten einbinden, die anschließend vom Benutzer über Webformulare abgefragt werden können. Die Funktion wird von Frontpage auf dem Webserver als Frontpage-Erweiterung eingerichtet, sobald eine Suchseite angelegt wird, und benötigt keine weitere Konfiguration. Allerdings sind die Möglichkeiten, selbst auf das Suchgeschehen Einfluss zu nehmen, auch eng begrenzt. Nachteilig ist bei dieser und ähnlichen schlichten Lösungen jedoch, dass bei jedem Speichervorgang einer Webseite ein Index in einer Datei überschrieben werden muss, was bei unfangreichen Webs den Speichervorgang langsam werden lassen kann. Außerdem kann sich die Suchfunktion nur auf ein Web mit einheitlichem Hostnamen beschränken. Web-Inhalte, die sich über mehrere Server hinweg erstrecken, lassen sich damit nicht erfassen. Sehr viel leistungsfähigere Index-Server, die Dateien auswerten und daraus konfigurierbare Wortlisten in Datenbankform anlegen können, gibt es mittlerweile von einer großen Zahl von Anbietern. Neben Unternehmen, die man ohnehin als Anbieter von InternetServersoftware für verschiedene Aufgaben kennt, wie Microsoft1 oder Sun Microsystems/Netscape2, haben sich in diesem Zusammenhang auch einige Suchdienstleister als Softwarelieferanten etabliert, wie Altavista oder Google. Auch im Umfeld der Freeware-Lösung Apache Web Server gibt seit kurzem eine interessante Lösung: Lucene.
1
2
Microsoft liefert einen einfach zu installierenden und zu konfigurierenden Index Server bereits mit ihrem Web-Server Internet Information Server mit, beide sind übrigens auch Bestandteile von Microsoft Windows 2000 Server. Die früher von Netscape entwickelten und vertriebenen Server-Lösungen liegen heute in den Händen der Firma Sun Microsystems, unter anderem auch eine Software »Catalog Server« mit vergleichbarer Funktionalität.
202
Suchlösungen für eigene Webs
Lucene setzt eine Reihe von installierten Paketen voraus, bevor es in einem Web-Umfeld eingesetzt werden kann: 왘 Apache Web Server (lauffähig unter Windows, Linux und
anderen UNIX-Betriebssystemen, kostenlos zu beziehen von http://httpd.apache.org) 왘 Aktuelles Java SDK (Software-Developmentkit, kostenlos zu
beziehen von http://java.sun.com) 왘 Tomcat 4.0 oder ähnliche Servlet-Engine (kostenlos zu bezie-
hen von der Jacarta-Entwicklergruppe innerhalb von Apache. org unter http://jacarta.apache.org) Man sieht: Zum Einsatz von Lucene sind gute Kenntnisse in Installation und Einsatz von Apache Web Server und Java Servlets/Server Pages notwendig. Die Zahl der Experten in diesem anspruchsvollen Gebiet ist mittlerweile allerdings recht groß, da dies die Standardausstattung für viele moderne Web-Applikationen ist, z.B. Webshops, Buchungssysteme und andere. Die für die Installation von Lucene notwendigen Dateien können übrigens auch kostenlos heruntergeladen werden. Man erhält sie unter http://jacarta.apache.org/lucene/. Abbildung 5.1: Die Homepage von Lucene innerhalb der Apache Website
203
E Eine eigene Suchmaschine unterhalten
Die Installation von Lucene besteht im wesentlichen aus zwei Schritten: 왘 Anlegen des Index, also der Wortlisten 왘 Einrichten der Web-Applikation, die dem Benutzer den Zugriff
auf den Index ermöglicht. Wenn die Grundlagen – Apache, Java SDK und Tomcat – korrekt geschaffen sind, ist die Installation von Lucene eine recht einfache und schnell erledigte Aufgabe: Entpacken von Archiven und Kopieren von Dateien gemäß mitgelieferter Dokumentation, danach ist Tomcat neu zu starten. Nach erfolgreicher Installation der Software kann man eine sehr schlichte Suchseite öffnen, über die man den Index von Lucene abfragen kann: Abbildung 5.2: Die Lucene Suchseite
Diese Suchseite kann beliebig erweitert werden, so dass sie sich hinsichtlich Aufbau und Gestaltung in den eigenen Internetauftritt eingliedert.
204
Die eigene Internet-Suchmaschine
Wer sich in der Apache-/Java-Umgebung nicht zuhause fühlt, wird möglicherweise begrüßen, dass es unter http://sourceforge.net/ projects/nlucene ein neues Projekt gibt, eine ähnliche Lösung für die .NET-Umgebung von Microsoft und somit für den Einsatz auf Windows-Servern zu entwickeln.
E.2
Die eigene InternetSuchmaschine
Die meisten Index-Server von Softwareanbietern, die man wie Lucene kostenlos herunterladen kann, haben ein Manko: Zwar verfügen sie über Funktionen, einen Index zu erstellen und zu pflegen, und über die Möglichkeit für den Benutzer, den Index mit eigenen Suchwörtern abzufragen. Ihnen fehlt jedoch (noch) ein Crawler, der das Internet eigenständig durchsucht, in Seiten Hyperlinks aufspürt, diese weiterverfolgt, und so den Index mit einer zunehmenden Menge an Daten füllt. Stattdessen müssen diesen Systemen die Adressen der zu indizierenden Seiten manuell mitgeteilt werden, was natürlich nur für das Indizieren bekannter Sites Sinn macht. Sie können darauf warten, dass Lucene den von ihren Entwicklern bereits angekündigten Crawler vorstellt und zur Marktreife entwickelt. Wann das soweit ist, ist bei Freeware-Produkten nie ganz sicher, da die meisten Entwickler die entsprechenden Arbeiten in ihrer Freizeit durchführen. Sie können auch eine eigene Lösung entwickeln (was auch für einen guten Entwickler nicht ganz trivial ist). Als Alternative können Sie aber auch auf eine weitere FreewareLösung zurückgreifen, deren Entwicklung bereits um einiges weiter fortgeschritten ist: ht://Dig. Diese Software ist in der Programmiersprache C geschrieben und benötigt somit keine Servlet-Engine wie Lucene. Dafür ist sie nur unter UNIX-Umgebungen wie zum Beispiel Linux lauffähig. Sie ist auch noch nicht in allen UNIX-Varianten ausreichend getestet.
205
E Eine eigene Suchmaschine unterhalten
Abbildung 5.3: Die Website von ht://Dig
Da diese Software, die man unter http://www.htdig.org kostenlos herunterladen kann, bereits über einen Crawler mit umfangreichen Konfigurationsmöglichkeiten verfügt, kann man sich damit schnell seine eigene Internet-Suchmaschine mit professionellem Funktionsumfang praktisch »aus dem Baukasten« einrichten. Die hier genannten Lösungen bieten vielfältige Schnittstellen für Entwickler zur Konfiguration, zur Anpassung an besondere Anforderungen und zur Erweiterung mit selbst entwickelten Softwarelösungen. Wer mit ihnen etwas experimentiert und nach der für die eigenen Bedürfnisse optimalen Lösung sucht, wird schnell verstehen, welchen Anforderungen sich die Anbieter der Suchdienste im Internet stellen müssen, und welcher Aufwand notwendig ist, dem Benutzer das Maß an Komfort und Schnelligkeit sowie an Umfang und Relevanz der Ergebnisse zu bieten, das dieser heute von seiner Lieblingssuchmaschine erwartet.
206
Glossar
Betriebssystem Ein System von Programmen, das den Computer steuert und seine Abläufe organisiert. Das Betriebssystem ist also beispielsweise zuständig für die Verwaltung und Ordnung von Dateien, des Speichers usw. Die Wahl des Betriebssystems hängt unter anderem auch von Typ des Rechners und von dessen Prozessor ab – es gibt viele verschiedene Systeme, die sich teilweise stark unterscheiden, da sie andere Aufgabenstellungen bewältigen und verschiedene Anforderungen erfüllen müssen (Stichwort z.B. Multitasking). Vor allem gibt es Unterschiede zwischen Betriebssystemen für Großrechnern und denen für Heimcomputer. Bei letzteren wären zum Beispiel Windows von Microsoft oder Linux für den PC zu nennen, Apple liefert sein eigenes Betriebssystem für den Mac. Auch Suchmaschinen laufen auf verschiedenen Betriebssystemen. Browser Eine verbreitete Bezeichnung für Software, die das Navigieren im World Wide Web ermöglicht. Ein Browser ruft HTML-Seiten auf und stellt den Inhalt für den Nutzer grafisch dar. Gängige Browser sind der am häufigsten genutzte Microsoft Internet Explorer, der Netscape Navigator und Opera. Verschiedene Browser können große Unterschiede in der Interpretation von HTML, XML, CSS und eingebundenen Dateielementen aufweisen. Auch das verwendete Betriebssystem kann darauf Auswirkungen haben – was es besonders schwierig macht, Web-Seiten so zu optimieren, dass jeder Nutzer auf ihnen dasselbe sieht und sie entsprechend nutzen kann.
207
Glossar
Client Ein Client ist ein Rechner oder ein Programm (zum Beispiel ein Browser), das Daten von einem Server abruft und wieder an ihn zurücksendet. Client-Programme müssen also mit einem Server verbunden sein, um von Nutzen zu sein. Das Internet basiert auf dieser Struktur und auf dem damit verbunden »Geben-und-Nehmen«-Prinzip. Weitere Clients außer Browsern sind zum Beispiel FTP-Programme. Code / Quelltext Im allgemeinen steht der Begriff »Code« für eine Regel für die Zuordnung Zeichen zu Zeichensätzen. In unserem Fall, wenn wir mit HTML oder XML arbeiten, steht Code für den Quelltext einer Seite, also für den reinen HTML-Text, der die Seite beschreibt. Im Browser lässt er sich im Menü (meistens unter »Ansicht – Quelltext« o.ä.) anzeigen, bei eigenen Seiten sieht man den Code auch, wenn man die Datei in einem Editor öffnet. Für die Seitenoptimierung ist die Handhabung des HTML-Quelltextes ein sehr wichtiges Werkzeug. Container Wenn wir in diesem Buch von HTML sprechen, steht »Container« für den Inhalt zweier Tags, also für alles zwischen Start- und Schlusstag eines Befehls. So ist zum Beispiel das, was zwischen und steht, Inhalt des -Containers. Das kann Text sein oder auch beliebig viele weitere Container – solange die HTML-Struktur in sich schlüssig bleibt, zum Beispiel: Folgen Sie diesem Link
Abstände und Einrückungen sind beliebig und wurden hier nur zur Veranschaulichung gesetzt.
208
Glossar
Crawler Siehe Roboter. Domäne / Toplevel-Domäne Der Domänenname ist ein Teil des URL, also der Adresse Ihrer Web-Site. Er steht zwischen www. und .com (oder .de oder...); Beispiel: http://www.ihredomaene.com. Domänen muss man registrieren und bezahlen, sie sind dann geschütztes Eigentum. In der Vergangenheit gab es einige Streitereien um Domänenrechte, meist zwischen Firmen und Privatpersonen, deren Ausgang dann oft vor Gericht entschieden werden musste. Manchmal kauften Firmen die begehrten Domänen den Privatpersonen auch für viel Geld ab – ein lukratives Geschäft, wenn man den richtigen Riecher hatte. Inzwischen gibt es aber Rechtssprechungen, die den Kauf von bereits durch Copyright geschützten Firmennamen untersagen bzw. die vorschreiben, dass solche Domänennamen ohne Rechtsansprüche an die betreffenden Firmen abgegeben werden müssen. Domänennamen haben für Suchmaschinen eine große Bedeutung in der Bewertung der Relevanz einer Web-Site für das Suchergebnis. FAQ - Frequently Asked Questions Eine Liste mit häufig gestellten Fragen und den Antworten dazu. Eine solche Liste wird meist dann geschrieben, wenn der Betreiber einer Web-Site immer wieder die gleichen Fragen per E-Mail gestellt bekommt. Durch eine gut platzierte und gekennzeichnete FAQ-Liste können Anfragefluten eingedämmt werden. FAQs gibt es zu allen erdenklichen Themen, je nach Typus des Web-Angebots – oft sind es aber Antworten zu technischen Fragen oder solche, die den Umgang mit einem Angebot wie zum Beispiel ebay.de erleichtern sollen. Auch die meisten Suchmaschinenanbieter haben inzwischen FAQs zusammengestellt. Fehlermeldung 404 – File Not Found Eine der häufigsten http-Fehlermeldungen. Sie wird zum Beispiel von einem Browser angezeigt, wenn eine aufzurufende Seite gelöscht, umbenannt oder verschoben wurde. Natürlich kann es auch sein, dass der Nutzer sich bei der URL-Eingabe vertippt hat.
209
Glossar
Wenn der Roboter einer Suchmaschine auf diese Fehlermeldung bei der Verfolgung von Links stößt, kann sich das negativ auf die Platzierung der betreffenden Seite in der Ergebnisliste auswirken. Die Seite wird dann aus dem Index gelöscht. Homepage Die Startseite eines Web-Auftrittes, meist mit »index.htm« benannt. Sie erscheint im Normalfall sowohl bei der Eingabe des URL mit Angabe des Pfades (also www.ihredomaene.de/index.htm), als auch bei der Eingabe des URL ohne Pfad (also www.ihredomaene.de). Sie bildet für viele Nutzer die Einstiegsseite und sollte eine entsprechende Bedeutung zugemessen bekommen. Dabei darf aber nicht vergessen werden, dass auch einige Nutzer über Verlinkungen in den Ergebnislisten von Suchmaschinen zunächst auf anderen Seiten Ihres Angebotes landen können. Deshalb sollte auf jeder Seite eine klar strukturierte Navigation sowie die Zugänglichkeit zum restlichen Angebot für den Nutzer gegeben sein. Host Von englisch »Gastgeber«: Ein Rechner, der Dienste bereitstellt, und deshalb oft die Bezeichnung für einen Web-Server. Ein Host bietet den Weg zu Dokumenten, Dateien, Datenbanken, InternetDiensten etc. HTML – Hypertext Markup Language Seitenbeschreibungssprache, vor allem im Internet verwendet. HTML unterstützt Querverweise zwischen und innerhalb von Seiten (Hyperlinks). Die mit HTML beschriebenen Seiten werden dann in Browsern dargestellt. HTML ist eine vom W3-Konsortium standardisierte Sprache, in letzter Zeit wird sie allerdings immer mehr auch durch XML erweitert oder ersetzt. Hyperlinks Querverweis auf eine Stelle innerhalb einer Seite oder auf eine beliebige andere Seite. Durch das Anklicken mit der Maus wird der Nutzer zum Zielort geführt. Der kann auch auf einer anderen Web-Site sein (externer Link). Da sich fremde Inhalte schnell
210
Glossar
ändern können, sollte man sich als Betreiber von ihnen mit einem entsprechenden Hinweis distanzieren. Auch Dateien wie ZIPs oder Word-Dokumente, die sich auf einem Web-Server befinden, lassen sich verlinken – dann kann bei Aktivierung des Hyperlinks die entsprechende Datei auf den Computer des Nutzers geladen werden. Hyperlinks auf andere Seiten lassen sich in HTML so erstellen: Hier klicken. Wichtig ist dabei, dass der Pfad innerhalb der Ordnerstruktur des Web-Servers stimmt, sonst erscheint eine 404-Fehlermeldung. Roboter von Suchmaschinen messen Hyperlinks Bedeutung bei, meist verfolgen sie sie auch. Index Siehe Roboter. Internetprotokolle Standardisierte Regeln für die Datenübertragung in und zwischen Rechnernetzen, zwischen Einzelrechnern und zwischen Rechnern und Peripheriegeräten. Internet-Protokolle ermöglichen einen geregelten Datenaustausch und sichern die Übertragung auch gegen Fehler ab, die sich durch Störeinflüsse ergeben. Logfile Ein Logfile (oder eine Logdatei) zeichnet alle Aktionen auf, die Benutzer und Suchmaschinen-Roboter auf einer Website ausführen. Ein Logfile kann zur Erfolgsmessung einer Website statistisch ausgewertet und oft auch individuell angepasst werden, so dass ein Betreiber die Informationen über die Nutzung seines Angebots erhält, die er zur Optimierung benötigt. Newsgroups Austausch- und Diskussionsforen innerhalb des Usenet, eines weiteren Dienstes im Internet neben WWW und E-Mail. Ein Nutzer kann sich nach einer Anmeldung bei einem Provider, der diesen Dienst anbietet, über spezielle Software, dem Newsreader, bei diversen Newsgroups anmelden und in ihnen Beiträge verfassen. Die Zahl der Newsgroups schwankt immer wieder, da täglich neue hinzukommen und alte verschwinden, aber sie geht in die Tau-
211
Glossar
sende – zu jedem erdenklichen Thema und in fast jeder Sprache. Im Usenet gelten jedoch strenge Regeln, die bei einer erfolgreichen Teilnahme unbedingt vorher durchgelesen und eingehalten werden sollten, sie sind auf vielen Web-Sites von Usenet-Teilnehmern über Suchmaschinen zu finden. Provider Ermöglicht Nutzern den Zugang zum Internet, meist ein Dienstleistungsunternehmen. Ein Provider bietet einen Einwahlknoten an, über den der Nutzer mit seinem Modem den Server des Providers erreicht. Unter den Providern herrscht eine starke Konkurrenz, außerdem findet man Unterschiede in der Leistungsfähigkeit, je nach Kapazität. Proxy-Server Um überlasteten Fernverbindungswegen entgegenzusteuern, gibt es auf den Servern von Providern Zwischenspeicher, sogenannte Proxy-Server. Daten auf Proxy-Servern werden häufig aktualisiert, dennoch gibt durch die großen Entfernungen zum Ursprung der Informationendes öfteren Verzögerungen in ihrer Übertragung. Roboter Eine Suchmaschine mit einer Komponente, die ständig »auf Reise« durch die unendlichen Weiten des WWW geht, der Webseiten auf ihren Informationsgehalt durchsucht und prüft und sie dann für den Index seiner Suchmaschine erfasst. Diese Komponente wird als Crawler oder Spider bezeichnet, die bei dieser Arbeit erzeugte Wortliste nennt man Index. Die Entwickler von Robotern müssen verschiedenen Herausforderungen begegnen – wie zum Beispiel der kaum zu bewältigenden Datenmenge im Web oder neuen Dateiformaten, die ausgelesen werden sollten. Verschiedene Suchmaschinenbetreiber haben verschiedene Roboter mit unterschiedlichen Techniken im Einsatz, diese ähneln sich aber inzwischen immer mehr. Außerdem greifen viele Suchmaschinen durch vertragliche Vereinbarungen auf dieselben Datenbestände zurück (siehe Übersichten und Tabellen in diesem Buch). Roboter folgen auch Hyperlinks, auf die sie auf einer Seite stoßen.
212
Glossar
Server Ein Rechner, der anderen, mit ihm vernetzten Computern Dienste und Daten zur Verfügung stellt. Die Computer, die diese Daten, werden Clients genannt. Auf Web-Servern werden alle Dateien gespeichert, die Nutzer im entsprechenden Angebot abrufen sollen – auch Host genannt. Sitemap Eine Art »Inhaltsverzeichnis« Ihrer Web-Seite, eine HTML-Seite, die alle – oder zumindest die wichtigsten Links – eines Angebots zusammenfassen und sie so auf übersichtliche Art und Weise zugänglich machen. Aber nicht nur für Nutzer bietet die Sitemap einen Vorteil: Es kann sich lohnen, sie bei Suchmaschinen direkt anzumelden. So können Sie versuchen sicherzustellen, dass die Links verfolgt und die Seiten gefunden werden, von denen Sie das gerne möchten. Besonders empfehlenswert auch dann, wenn Sie für Suchmaschinen nicht abrufbare dynamisch erzeugte Daten indiziert haben möchten: Sie stellen diese Daten noch einmal in HTML-Format dar und melden die Seite dann gesondert an. Spam Spam-Mail bezeichnet das Versenden von unverlangten WerbeMassenmails an beliebige Empfänger. Genauso wie das Versenden von unverlangter Werbung durch die Post ist Spam nicht nur fast immer unerwünscht, sondern auch illegal – dafür aber kaum kontrollierbar. Die Absenderadressen sind meist bei anonymen MailAccounts und werden oft auch sofort nach dem Versenden wieder gelöscht. Als Faustregel gilt: Nie antworten oder igendwie sonst reagierten (z.B. Links innerhalb der Mail folgen) – auch nicht, wenn der verlockende Hinweis »unsubscribe« in der Mail angebracht ist. Das zeigt den Spammern nur, dass die von ihnen verschickte Mail tatsächlich gelesen wurde und verführt sie zu noch mehr Spam an Ihre Adresse. Auch wenn die Methode vielleicht nicht allzu wirkungsvoll ist – eine bemerkenswerte Initiative kommt von SpamCop: Unter www.spamcop.net können Sie Spam melden und dafür sorgen, dass solche Accounts gesperrt werden. Ansonsten hilft leider nur die Verwendung von Mailfiltern, aber auch sie wirkt nur eingeschränkt. Spammer wissen, wie die Filter aussehen, die gegen sie errichtet werden, und passen ihre Kampagnen daran an.
213
Glossar
Spider Siehe Roboter. Submitting Das Anmelden von URLs bei Suchmaschinen. Submitting gibt keine Garantie für die tatsächliche Aufnahme in den Index, weshalb der Vorgang regelmäßig wiederholt werden sollte. Submitting bei Suchmaschinen verläuft oft recht unterschiedlich, manche bieten auch die Möglichkeit eines kostenpflichtigen Verfahrens und garantieren dafür schnellere Aufnahme und regelmäßige Aktualisierung. Tag (Meta-Tag) Steht im Englischen für »Etikett« und bezeichnet in Seitenbeschreibungssprachen wie HTML die Befehle. Tags in HTML werden in eckige Klammern gesetzt. Eine besondere Rolle spielen Meta-Tags: Sie stehen im Kopfteil einer HTML-Seite und beschreiben deren Eigenschaften wie z.B. die Sprache, den Zeichensatz, den Verfasser oder – wichtig für die meisten Suchmaschinen – Keywords und den Inhalt der Seite in Kurzfassung. URL – Uniform Resource Locator Die eindeutige Adresse einer Web-Seite. Im Web beginnen die meisten URLs mit http:// (steht für Hypertext Transfer Protocol, eines der gängigsten Internet-Protokolle neben ftp für File Transfer, mailto für E-Mail und news für das Usenet). Ein URL beginnt also mit der Angabe des Protokolls. Häufig beginnt der URL mit dem Namen eines Webservers, der meist www. heißt. Danach werden der eigentliche Domainname, die Endung und gegebenenfalls der Pfad der aufzurufenden Datei. Verzeichnisdienst Ein von Redakteuren manuell gepflegter Web-Katalog, in dem der Anbieter einer Website diese in einer bestimmten Kategorie anmeldet. Die Site wird überprüft und bei Gefallen in den Katalog aufgenommen. Die Popularität dieser Suchmaschinenart scheint zwar langsam nachzulassen, weil die Roboter anderer Suchma-
214
Glossar
schinenbetreiber diesen Prozess automatisch und viel schneller und umfangreicher durchführen. Dennoch werden Verzeichnisse gerade dann geschätzt, wenn sie sich auf bestimmte Bereiche spezialisieren und dort im Suchergebnis dann Qualität statt Quantität anbieten können. Außerdem spielen Platzierungen in Verzeichnisdiensten oft eine positive Rolle für die Aufnahme bei den Robotern.
215
Stichwortverzeichnis ! .pdf 44 404 – File not found 99, 104, 168, 209
Hypertext Markup Language siehe HTML I Image Maps 155 Index siehe Roboter Index siehe Suchmaschinen-Index Internet 19, 47 Internet Information Server 159 Intranets 20 J Java-Applets 43, 77 JavaScript 27, 39, 42 f., 106, 108 L Layers 109 Link-Popularität 143 Logfile 93, 157 ff., 211 M Marketing-Aktivitäten 47, 93 Mehrfache Anmeldung 134 Mehrsprachige Seiten 112
W W3-Konsortium 37, 179 Webbrowser 91 Web-Formulare 37, 46 Webserver 24, 104 f., 134, 157, 188, 214 Website 25 f., 67, 87, 104, 115, 134, 171 Web-Tracker 163, 197 World Wide Web 21, 180 X XML 25, 179 Z Zeichensatz siehe Sonderzeichen
Copyright Daten, Texte, Design und Grafiken dieses eBooks, sowie die eventuell angebotenen eBook-Zusatzdaten sind urheberrechtlich geschützt. Dieses eBook stellen wir lediglich als persönliche Einzelplatz-Lizenz zur Verfügung! Jede andere Verwendung dieses eBooks oder zugehöriger Materialien und Informationen, einschliesslich •
der Reproduktion,
•
der Weitergabe,
•
des Weitervertriebs,
•
der Platzierung im Internet, in Intranets, in Extranets,
•
der Veränderung,
•
des Weiterverkaufs
•
und der Veröffentlichung
bedarf der schriftlichen Genehmigung des Verlags. Insbesondere ist die Entfernung oder Änderung des vom Verlag vergebenen Passwortschutzes ausdrücklich untersagt! Bei Fragen zu diesem Thema wenden Sie sich bitte an: [email protected] Zusatzdaten Möglicherweise liegt dem gedruckten Buch eine CD-ROM mit Zusatzdaten bei. Die Zurverfügungstellung dieser Daten auf unseren Websites ist eine freiwillige Leistung des Verlags. Der Rechtsweg ist ausgeschlossen. Hinweis Dieses und viele weitere eBooks können Sie rund um die Uhr und legal auf unserer Website