This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Die Wahl für professionelle Programmierer und Softwareentwickler. Anerkannte Experten wie z.B. Bjarne Stroustrup, der Erfinder von C++, liefern umfassendes Fachwissen zu allen wichtigen Programmiersprachen und den neuesten Technologien, aber auch Tipps aus der Praxis. Die Reihe von Profis für Profis!
Hier eine Auswahl: Professionelle Websites Stefan Münz 1136 Seiten € 59,95 (D), € 61,70 (A) ISBN-13: 978-3-8273-2370-5 ISBN-10: 3-8273-2370-3
Wenn heute von Webdesign die Rede ist, dann immer häufiger von striktem HTML, von sauberer Trennung zwischen Layout und Inhalt, und von Beachtung der Regeln für barrierefreie Websites. Beschrieben wird hier, was der Zukunft gehört und auf immer breiterer Front Anwendung findet: strukturell sinnvolles, am Strict-Standard des W3-Konsortiums orientiertes HTML, layout-formendes, intelligent eingesetztes CSS und benutzerfreundliches, DOM-orientiertes JavaScript. Auch die Serverseite darf nicht fehlen. Immer mehr Site-Betreiber steigen auf eigene Root-Server um. Vorinstalliert ist dort meistens das beliebte LAMP-Paket, bestehend aus einem Linux-Derivat, dem Apache Webserver, dem MySQL Datenbank-System und der Scriptsprache PHP. Genau diese Technologien werden im Buch gründlich und zusammenhängend behandelt.
Einführung in XHTML, CSS und Webdesign Michael Jendryschik 496 Seiten € 39,95 (D) € 41,10 (A) ISBN 978-3-8273-2477-1
Das Buch existiert bereits als Online-Tutorial. Die Einführung setzt grundlegendes Interesse voraus, sich mit Web-Technologien und Webstandards auseinander-setzen zu wollen, vor allem mit den Sprachen XHTML und CSS. Sie lernen, wie man standardkonforme, zugängliche und suchmaschinenfreundliche Webseiten erstellt, die darüber hinaus auch noch gut aussehen. Dabei wird der für einen Anfänger überschaubare Rahmen nicht überschritten. Ein ausführliches Glossar ergänzt das Buch.
Daniel Koch
SuchmaschinenOptimierung Website-Marketing für Entwickler
An imprint of Pearson Education München • Boston • San Francisco • Harlow, England Don Mills, Ontario • Sydney • Mexico City Madrid • Amsterdam
Bibliografische Information Der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über abrufbar. Die Informationen in diesem Produkt werden ohne Rücksicht auf einen eventuellen Patentschutz veröffentlicht. Warennamen werden ohne Gewährleistung der freien Verwendbarkeit benutzt. Bei der Zusammenstellung von Abbildungen und Texten wurde mit größter Sorgfalt vorgegangen. Trotzdem können Fehler nicht vollständig ausgeschlossen werden. Verlag, Herausgeber und Autoren können für fehlerhafte Angaben und deren Folgen weder eine juristische Verantwortung noch irgendeine Haftung übernehmen. Für Verbesserungsvorschläge und Hinweise auf Fehler sind Verlag und Herausgeber dankbar. Alle Rechte vorbehalten, auch die der fotomechanischen Wiedergabe und der Speicherung in elektronischen Medien. Die gewerbliche Nutzung der in diesem Produkt gezeigten Modelle und Arbeiten ist nicht zulässig. Fast alle Hardware- und Softwarebezeichnungen und weitere Stichworte und sonstige Angaben, die in diesem Buch verwendet werden, sind als eingetragene Marken geschützt. Da es nicht möglich ist, in allen Fällen zeitnah zu ermitteln, ob ein Markenschutz besteht, wird das ®-Symbol in diesem Buch nicht verwendet.
Umwelthinweis: Dieses Produkt wurde auf chlorfrei gebleichtem Papier gedruckt.
Einführung Wo man sich früher auf der Suche nach Ereignissen und Charakteren, nach Dramatik und Handlung dem Roman zuwandte, hält man sich jetzt an Film oder Fernsehen.
Elizabeth Young, Shopping in Space
Das Internet mit seinen Milliarden Seiten ist ohne Suchmaschinen längst nicht mehr beherrschbar. Google, Yahoo! und wie sie alle heißen, sind die Wegweiser durch den Daten-Dschungel. Über 70 Prozent aller Online-User starten ihre OnlineSitzung mit der Eingabe eines Suchbegriffs in eine Suchmaschine. Kein Wunder also, dass fast ausschließlich solche Webseiten erfolgreich sind, die an prominenter Stelle in den Suchergebnissen gelistet sind. So zeigen aktuelle Studien zum Suchverhalten Folgendes: Die ersten 3 Plätze in den Suchergebnissen werden von 100 % der Suchenden gelesen. Auf Platz 10 schauen dann nur noch 20 %. 87 % aller Klicks erfolgen auf natürliche Suchergebnisse und nicht etwa auf AdWords. Diese Erkenntnisse sind allemal interessant. Sie sind aber noch viel mehr. Für kommerzielle Webprojekte enthalten sie den Schlüssel zum Überleben. Denn wer Suchmaschinen-Optimierung mit gekauften Suchbegriffen gleichsetzt oder ganz auf die Optimierung seiner Seiten verzichtet, wird seine Internetseite kaum erfolgreich gestalten können.
Kapitel 1
1.1 Eine kurze Geschichte von fast allem Ein Blick auf die Geschichte der Suchmaschinen spiegelt gleichermaßen die Historie des Internets wider. Angefangen hat alles an der McGill Universität in Montreal. Dort startete man den ersten Versuch, dem Internet eine Art Inhaltsverzeichnis zu verpassen. Die Grundidee stammte von Alan Emtage. Emtage, permanent auf der Suche nach neuer Software für die Rechner seiner Universität, durchforstete hierzu zahllose FTP-Server. Um die Suche zu erleichtern schrieb er 1990 einige Skripte (zusammengefasst unter dem Namen Archie), die Server nachts automatisch nach bestimmten Stichwörtern in Dateinamen durchsuchten und ihm die Ergebnisse am nächsten Morgen präsentierten. Das Ziel von Archie war es, eine zentrale Datenbank zu entwickeln, in der sämtliche Dateien und Verzeichnisse der wichtigsten Anonymus-FTP-Server enthalten sein sollten. Diese Datenbanken ließen sich vom Benutzer über einen Befehlssatz abfragen. Um Archie nutzen zu können, brauchte man lediglich eine Telnet-Verbindung zum Server herzustellen und konnte die entsprechenden Kommandos eingeben. Spätestens im Jahr 1992 gehörte Archie zu den am häufigsten genutzten Internet-Tools. Aufgrund juristischer Probleme musste der Betrieb von Archie eingestellt werden, sodass der Dienst heute leider nicht mehr zur Verfügung steht. Angespornt vom Archie-Erfolg entwickelten die Mitarbeiter der University of Nevada in Reno 1991 ein ähnliches Werkzeug für den Vorläufer des WWW, Gopher1. Das unter dem blumigen Namen Veronica (Very Easy Rodent-Oriented Netwide Index to Computerized Archives) entwickelte Tool hatte bereits große Ähnlichkeit mit den heutigen Suchmaschinen. Monatlich wurden alle Gopher-Sites, die beim Haupt-Gopher-Server an der University of Minnesota angemeldet waren, indiziert. Veronica erlaubte schon die Verwendung von Operatoren wie NOT, OR und AND. Der erste Suchroboter für das gerade im Entstehen befindliche WWW war der WorldWideWeb Wanderer der von dem Studenten Mathew Gray 1993 entwickelt wurde. Konnte der Wanderer zunächst lediglich Webserver zählen, wurde er binnen weniger Monate von Michael L. Mauldin dahingehend weiterentwickelt, dass der Datenbestand durchsucht werden konnte. Zwischen 1993 und 1996 durchforstete der Wanderer zweimal pro Jahr das Netz und katalogisierte die gefundenen Seiten. Mit dem im Oktober 1993 veröffentlichten Archie-Like Indexing of the Web (Aliweb) wurden Betreiber von WWW-Servern dazu veranlasst, eine standardkonforme Datei auf ihren Servern abzulegen, in denen sie ihren Service beschreiben sollten. Die Adressen dieser Dateien wurden an Aliweb übermittelt, der daraus wiederum einen Index generierte, der sich von den Anwendern durchsuchen ließ. 1
12
Gopher ist ein Informationsdienst, der im Jahr 1991 an der Universität von Minnesota entwickelt wurde und der dem frühen WWW ähnelt. Heute spielt Gopher (fast) keine Rolle mehr, auch wenn noch einige Gopher-Server existieren.
Einführung
Ende Dezember 1993 wurde mit dem RBSE Spider die erste Suchmaschine online gestellt, bei der die Trefferlisten nach einem Ranking-System angezeigt wurden. Diese Entwicklung war revolutionär und bereitete den Weg für zahllose Suchmaschinen. Die beiden Studenten David Filo und Jerry Yang stellten im Jahr 1994 ihre beliebtesten Webadressen unter dem Namen Yahoo! online zur Verfügung. Mit Infoseek und AltaVista folgten 1995 die ersten kommerziellen Suchmaschinen. Ein Jahr später wird die Inktomi Corp. gegründet. Die gleichnamige Suchmaschine bildet später die Grundlage für weitere Suchmaschinen, wie z.B. Hotbot. Erst 1998 ging Google an den Start. Das mit einem Startkapital von 800.000 Euro gegründete Unternehmen hat heute einen Börsenwert von ca. 156 Milliarden US-Dollar.
Abbildung 1.1: Der Ur-Google
1.2 Die Bedeutung von Suchmaschinen gestern, heute und in Zukunft Die Zukunft hat längst begonnen. Spätestens seit die Firma Google vor einiger Zeit Google Maps und Google Earth an den Start gebracht hat, kann sich jeder ein Bild davon machen, wie der Suchmaschinen-Markt in Zukunft aussehen wird, oder besser, wie er aussehen könnte. Dabei ist Google längst nicht allein, was die Arbeit an zukunftsfähigen Anwendungen anbelangt. So hat Yahoo! mit der Beta-Version von My Web 2.0 (http://beta.bookmarks. yahoo.com/) sein Online-Angebot ebenfalls um interessante Funktionen erweitert.
13
Kapitel 1
Abbildung 1.2: So stellt sich Yahoo! die Suchmaschine der Zukunft vor.
Yahoo! versucht mit My Web 2.0, eine sogenannte Social Search Engine (soziale Suchmaschine) zu etablieren. Dabei sollen die Benutzer ganz gezielt von den Erfahrungen und Informationen anderer User profitieren. Suchergebnisse werden bei My Web 2.0 danach gewichtet, wie interessant die Seiten für andere Benutzer sind. Als weitere Neuerung lassen sich Interessengemeinschaften aufbauen, in denen sich Freunde und Bekannte zusammenschließen, die sich alle mit einem bestimmten Themengebiet befassen. All diese Neuerungen sollen bessere Suchergebnisse liefern und die Suche mit Yahoo! für den Anwender intuitiver gestalten. Einen Schritt weiter geht die Suchmaschine ChaCha.com. Zunächst einmal ist ChaCha.com eine ganz normale Suchmaschine, die sich gewöhnlicher Suchalgorithmen bedient. Zusätzlich wird aber die Möglichkeit geboten, Fragen direkt einem sogenannten Guide zu stellen. Im Gegensatz zu anderen vergleichbaren Anwendungen wie beispielsweise Yahoo! Answers ist allein dieser Guide für die gestellte Frage zuständig. Nun wird das von den Guides freilich nicht freiwillig gemacht, sondern sie werden bezahlt. Das ganze funktioniert über eine Chat-Funktion. Dort wird man mit einem Guide verbunden und kann ihm die Frage stellen. Und in der Tat funktioniert die Suche mit ChaCha.com relativ gut. Die Ergebnisse werden binnen weniger Sekunden angezeigt. Fast schon wieder ein alter Hut, dabei aber natürlich hochgradig innovativ sind Google Maps und Google Earth, dank derer man sich Luftaufnahmen in Kombination mit Routenplanern und lokaler Suche anzeigen lassen kann.
14
Einführung
Abbildung 1.3: Beim Pommeranzer Seopard muss der Guide passen.
Interessant ist der Blick in die Zukunft allemal, er kann und wird für viele Webdesigner beziehungsweise Entwickler aber auch »überlebenswichtig« sein. Denn nur wer weiß, was die aktuellen Trends auf dem Suchmaschinen-Sektor sind, kann für seine Kunden suchmaschinenoptimierte Webseiten erstellen.
1.2.1 Die beliebtesten Suchmaschinen sind ... Spricht man heute von der Suche im Internet fällt fast zwangsläufig der Begriff googeln. In der Tat ist die Vormachtstellung von Google kaum noch zu toppen. Wie rasant der Aufstieg von Google allein in den letzten beiden Jahren vonstatten ging, zeigen die folgenden Statistiken von OneStat.com aus dem Jahr 2004 und dem Jahr 2006: Platzierung
Suchmaschine
Genutzt von
1
Google
56,4 %
2
Yahoo!
21,1 %
3
MSN Search
9,2 %
4
AOL Search
3,8 %
5
Terra Lycos
2,0 %
6
AltaVista
1,7 %
7
Askjeeves
1,7 %
Tabelle 1.1: Die Suchmaschinen-Nutzung im Jahr 2004
15
Kapitel 1
Google hatte damals zwar bereits einen beeindruckenden Marktanteil von über 50 %, trotzdem hätte man Yahoo! und MSN hier noch als ernstzunehmende Konkurrenz betrachten können. Anders sieht es Ende 2006 aus: Platzierung
Suchmaschine
Genutzt von
1
Google
88,0 %
2
Yahoo!
2,7 %
3
MSN
2,2 %
4
T-Online
1,9 %
5
AOL Suche
1,7 %
6
Lycos
0,5 %
7
WEB.DE
0,3 %
8
AllesKlar
0,3 %
9
suche.freenet.de
0,3 %
10
AltaVista
0,2 %
11
search.com
0,2 %
12
arcor.de
0,2 %
Tabelle 1.2: Die Suchmaschinen-Nutzung im Jahr 2006
Die Vormachtstellung von Google scheint zementiert zu sein, vereint dieser Suchdienst doch allein fast 90 Prozent aller Suchanfragen. Dass es sich dabei aber nicht etwa um ein Naturgesetz handelt, hat die Vergangenheit gezeigt. Ob Google seine Spitzenposition verteidigen kann, wird die Zukunft zeigen. Derzeit gilt aber: Bei Google an »vernünftiger« Position gelistet zu sein, ist eigentlich ein Muss.
1.2.2 Wonach eigentlich gesucht wird Eine interessante Frage ist natürlich, wonach die Anwender eigentlich bei Google & Co am häufigsten suchen. Google Zeitgeist liefert aufschlussreiche Ergebnisse. Unter http://www.google.de/intl/de/press/zeitgeist.html stellt Google monatlich die Top Ten der beliebtesten Suchbegriffe der interessierten Öffentlichkeit zur Verfügung. Anhand der Zeitgeist-Liste kann man hervorragend nachvollziehen, wie sich die Suchbegriffe verändern. Führte im April 2002 der Film Ice Age noch die Hitliste an, so lauten jetzt die beliebtesten Begriffe Wikipedia und Tokio Hotel. Zunächst die Liste für April 2002: 1. Ice Age 2. Handyzubehoer Nokia 3. Servlet Schulung
16
Einführung
4. Hochzeit 5. Fussball 6. SMS Kostenlos 7. Deutsche Bahn 8. Aldi PC 9. Kommunion 10. Mallorca Und zum Beweis das geänderte Suchverhalten vom Februar 2006: 1. wikipedia 2. antivir 3. tokio hotel 4. valentinstag 5. heidi klum 6. torino games 7. 50 cent 8. icq 9. bmw 10. bushido Google Zeitgeist spiegelt natürlich nur die bei Google beliebtesten Suchbegriffe wider. So meldete Yahoo! zum Beispiel als Top-Suchbegriff Britney Spears. (Ob das ihrer Sangeskunst oder mangelnder Unterwäsche geschuldet ist, sei hier einmal dahingestellt.) Aktuelle Studien des Webstatistikers OneStat.com belegen, dass sich das Suchverhalten der Anwender weg von einzelnen Begriffen hin zu Begriffskombinationen und sogar Suchphrasen gewandelt hat. So gehen Experten davon aus, dass Einzel-Suchwörter nur noch von ca. 22 % aller Anwender genutzt werden. Die Anzahl der Mehrwörter-Suchanfragen macht längst den Löwenteil aus – für 2er 30 %, 3er 24 % und 4er 15 %. Aber nicht nur wie gesucht wird, auch wer sucht, ist entscheidend. Eine interessante Studie zum Suchverhalten von Internet-Nutzern hat iProspect (http://www.iprospect.com/) veröffentlicht. Dabei hat man 1.649 US-Probanden auf ihr Suchverhalten in Abhängigkeit von Bildung, Geschlecht, Häufigkeit der Internetnutzung und der vorhandenen Internet-Erfahrung getestet. Interessant sind vor allem die folgenden Erkenntnisse:
17
Kapitel 1
65 Prozent der User mit einer Festanstellung ziehen reguläre Suchergebnisse vor. Bei Arbeitslosen beträgt diese Quote 55 Prozent. Je erfahrener Anwender sind, umso seltener werden Paid Listings (bezahlte Sucheinträge) genutzt. 43 Prozent der weiblichen Nutzer finden bezahlte Suchergebnisse relevanter als reguläre Listings. Im Gegensatz dazu sind nur 34 Prozent der männlichen Benutzer dazu bereit, auf bezahlte Suchergebnisse zu klicken. Die Studie kommt zu dem Schluss, dass nur eine Kombination aus SuchmaschinenOptimierung und Paid Ads (bezahlte Suchergebnisse) letztendlich zum Erfolg führen wird. (Überraschen tut dieses Ergebnis freilich vor dem Hintergrund nicht, dass es sich bei iProspect um ein Suchmaschinen-Marketing-Unternehmen handelt.) Weiteres Fazit der Studie: Es wird immer wichtiger, es unter die Top 30 der Suchergebnisse zu schaffen. Und für all diejenigen, die immer noch glauben, SEO-Maßnahmen durch AdWord-Kampagnen ersetzen zu können, fördert die Studie eine fatale Erkenntnis zutage: Etwa 87 % aller kommerziellen Klicks wurden auf natürliche Ergebnisse und nicht auf AdWords abgegeben.
1.3 Von der Hommingberger Gepardenforelle zum Pommeranzer Seopard Im Jahr 2005 erhielt der SEO-Wettbewerb der Computer-Zeitschrift c’t eine riesige Resonanz. Ziel dieses Wettbewerbs war es, bei den Suchmaschinen Google.de, Yahoo.de, MSN.de und Seekport.de eine Top-Platzierung für den Begriff Hommingberger Gepardenforelle zu ergattern. Die Redakteure der c’t wollten damit einen Einblick in die Rankingmechanismen der Suchmaschinen und die aktuellen Entwicklungen im Bereich der Suchmaschinen-Optimierung erhalten. Und tatsächlich: Der Wettbewerb wurde ein riesiger Erfolg. Als Ausgangspunkt wurde die Hommingberger Gepardenforelle gewählt. Denn weder gibt es den Ort Hommingberg noch existiert eine Gepardenforelle. Die Hommingberger Gepardenforelle lieferte somit zu Beginn des Wettbewerbs keinen einzigen Suchtreffer. Das sollte sich allerdings binnen weniger Wochen drastisch ändern.
18
Einführung
Datum
Yahoo!
Google
MSN
Seekport
18. April 2005
752
979
730
2
25. April 2005
234.000
568.000
88.012
382
10. Mai 2005
549.000
1.122.000
30.296
79.216
14. Juni 2005
423.000
1.270.000
33.593
96.566
30. Oktober 2005
955.000
3.570.000
52.223
5.329
27. März 2006
459.000
1.830.000
44.241
105.627
18. Oktober 2006
351.000
613.000
923
70.517
Tabelle 1.3: Erfolg der Aktion in Zahlen
Wie der Wettbewerb ausging? Wenig überraschend landeten auf den vordersten Plätzen nicht die Seiten mit den besten Informationen zur Hommingberger Gepardenforelle, sondern diejenigen, deren Webmaster ihre Seiten am effizientesten für den SEO-Wettbewerb optimiert haben. Und genau hier kann der Ansatz für Ihre eigenen Projekte liegen. Denn zwar ist der Inhalt von Webprojekten wichtig, ebenso müssen diese aber auch so aufbereitet sein, dass sie von Suchmaschinen gefunden und möglichst weit vorn gelistet werden. Das notwendige Rüstzeug für dieses Vorhaben liefern die folgenden Kapitel. In guter c’t-Manier wird im Buch, dort wo es ohne ein konkretes Beispiel nicht geht, ein noch nicht belegter Suchbegriff verwendet. Was der c’t die Hommingberger Gepardenforelle ist diesem Buch der Pommeranzer Seopard (http://www.pommeranzerseopard.de/).
19
2
Funktionsweise von Suchmaschinen Wenn man verlauste Kleidung bei niedrigen Temperaturen wäscht, bekommt man nur saubere Läuse.
Bill Bryson, Eine kurze Geschichte von fast allem
Die Arbeitsweise von Suchmaschinen ist durchaus interessant. Denn für die Suchmaschinen-Optimierung ist es allemal wichtig, wenn man die hinter einer Suchanfrage ablaufenden Prozesse kennt und versteht. Dieses Kapitel bietet Ihnen eine kurze Einführung in das Thema Suchmaschinen-Architektur. Allzu sehr ins Detail soll an dieser Stelle allerdings nicht gegangen werden. Sollten Sie sich über dieses Buch hinausgehend mit diesem Thema beschäftigen wollen, gibt es durchaus interessante Webseiten und Literatur. Eine gute Anlaufstelle ist die Webseite von Dr. Dirk Lewandowski (http://www.durchdenken.de/ lewandowski/publikationen.php). Bevor es um die Architektur von Suchmaschinen geht, wird zunächst untersucht, welche Suchmaschinen-Varianten es eigentlich gibt. Denn schließlich muss man wissen, ob sich die Anmeldung bei einer bestimmten Suchmaschine überhaupt lohnt.
2.1 Suchmaschinen-Übersicht Nicht alles, was eine Suchmaske bereitstellt, ist auch tatsächlich eine Suchmaschine. (Auch wenn viele Internetnutzer gerne alles miteinander gleichsetzen.) Tatsächlich
Kapitel 2
verfolgen die Suchhilfen im Internet verschiedene Strategien und Ausrichtungen. Die Grobeinteilung sieht folgendermaßen aus: Suchmaschinen – Es handelt sich um indexbasierte Programme, die automatisch die Seiten des WWW2 durchsuchen und dabei ihre Datenbestände automatisch aktualisieren und erweitern. Suchmaschinen sind das derzeit mit Abstand wichtigste Medium zum Suchen von Informationen im WWW. Gleichzeitig stellen sie Webentwickler aber auch vor die größten Probleme. Denn will man seine Webseiten einer breiten Öffentlichkeit zugänglich machen, kommt man um die Optimierung seiner Seiten für Suchmaschinen nicht herum. Webkataloge – Das sind verzeichnisbasierte Suchhilfen. In diesen Verzeichnissen klickt man sich als Anwender durch komplexe Linkstrukturen. Der bekannteste Webkatalog dürfte immer noch Yahoo! (http://de.dir.yahoo.com/) sein. Die Aufnahme in Webkataloge ist allerdings oft kostenpflichtig.
Abbildung 2.1: So sieht ein typischer Webkatalog aus.
Neben diesen beiden Grundvarianten gibt es noch andere Arten von Suchhilfen. Bei diesen verteilten Suchdiensten werden die Informationen im Gegensatz zu zentral organisierten Suchdiensten allerdings dezentral verwaltet.
2
22
In diesem Buch wird der Fokus auf WWW-Suchmaschinen liegen. Es gibt aber auch Suchmaschinen für den lokalen Rechner oder kleinere Computernetzwerke.
Funktionsweise von Suchmaschinen
Spezialsuchmaschinen Metasuchmaschinen Das Grobraster haben Sie nun kennengelernt. Auf den nächsten Seiten wird mehr ins Detail gegangen, und die einzelnen Varianten werden genauer untersucht.
2.1.1 Webkataloge Webkataloge sind die einfachste Methode, seine eigenen Seiten prominent zu platzieren und sie einer breiten Öffentlichkeit zugänglich zu machen. Denn im Gegensatz zu anderen Suchdiensten setzen sie keinerlei technisches Verständnis oder Know-how voraus. Die Besucher können sich mithilfe übersichtlicher Katalogstrukturen ganz bequem zu den gewünschten Seiten »durchklicken«. Im Vergleich zu normalen Suchmaschinen hat die Benutzung reiner Kataloge in letzter Zeit zwar abgenommen, was allerdings nicht für alle Länder gilt. Während in Deutschland die Kataloge mehr und mehr ein Schattendasein führen, erfreuen sie sich in England großer Beliebtheit. Diesen Aspekt muss man berücksichtigen, wenn man die eigene Seite über die Landesgrenzen hinweg bekannt machen will. Trotz abnehmender Bedeutung, spielen Kataloge für die Suchmaschinen-Optimierung eine wichtige Rolle. Wird man in einem wichtigen Katalog, wie dem DMOZ (Open Directory Project), gelistet, erhält man dadurch wichtige Backlinks3, was dann wiederum zu einer besseren Positionierung in den Suchmaschinen führt. Sie sollten dafür sorgen, dass Ihre Seiten nach Möglichkeit in den folgenden Katalogen gelistet werden: DMOZ (http://www.dmoz.de/) Yahoo! (http://www.yahoo.de/) AllesKlar.de (http://www.allesklar.de/) Web.de (http://www.web.de/)
> >
>
HINWEIS
Neben diesen allgemeinen Katalogen, gibt es auch noch spezielle Themenkataloge. Auch dort sollten Ihre Seiten in den für Ihre Branche/Thema relevanten Katalogen aufgeführt sein. Am einfachsten finden Sie solche Kataloge, indem Sie in die Suchmaschinen Phrasen wie Link hinzufügen Seite vorschlagen und Ähnliches eingeben, wobei durch die entsprechende Branche zu ersetzen ist.
3
Aus Sicht einer Webseite sind das die Links, die auf die Seite zeigen.
23
Kapitel 2
2.1.2 Linklisten Bei Linklisten handelt es sich zwar um keine Suchmaschinen, fehlen dürfen sie in dieser Aufzählung trotzdem nicht. Die meisten Linklisten sind sogenannte »Free for all«Listen. Bei dieser Variante werden alle angemeldeten Seiten aufgenommen und den Besuchern in einer oder mehreren langen Listen angezeigt. Viele Eintragsdienste werben damit, dass sie Ihre Seiten in bis zu 20.000 Suchmaschinen eintragen. Dabei können Sie davon ausgehen, dass es sich bei 19.950 davon um diese unsäglichen, nicht redaktionell betreuten Listen handelt. Kaum jemand macht sich die Mühe, in diesen Listen nach interessanten Seiten zu suchen. Und auch das Argument, dass ein Eintrag in eine solche Liste die Linkpopularität und somit das Ranking der eigenen Seite positiv beeinflusst zieht nicht. Denn längst haben Suchmaschinen Algorithmen entwickelt, die diese Linklisten erkennen und Links von dort nicht mehr in die Bewertung der Seite einfließen lassen.
!
!
!
ACHTUNG
Egal was Ihnen Eintragsdienste oder gute Bekannte erzählen: Tragen Sie sich nicht in solche Linklisten ein. Denn da Sie dort auch meistens noch Ihre E-Mail-Adresse hinterlegen müssen, ist der einzige spürbare Effekt, ein deutlich höheres Spam-Mail-Aufkommen in Ihrem Posteingang.
2.1.3 Metasuchmaschinen Metasuchmaschinen sind besonders praktisch, schließlich erlauben sie die gleichzeitige Suche bei mehreren Suchdiensten von einer zentralen Eingabemaske aus. Diese Suchmaschinen-Art ist vor allem dadurch gekennzeichnet, dass sie keinen eigenen Datenbestand besitzt. Stattdessen greifen sie auf die Datenbestände anderer Suchmaschinen-Anbieter zu und binden diese in ihre Trefferlisten ein. Bei vielem was heute gemeinhin unter dem Namen Metasuchmaschine läuft, handelt es sich genau genommen nicht um Metasuchmaschinen. Ob Ihre Lieblingssuchmaschine eine echte Metasuche bietet, können Sie ganz einfach überprüfen. Bei einer Tagung im Jahr 1998 in Genf wurden Kriterien definiert, die eine Suchmaschine erfüllen muss, um als Metasuchmaschine zu gelten. Dabei gilt: Sechs der folgenden sieben Kriterien müssen mindestens erfüllt sein: Parallele Suche – Die Suche muss tatsächlich parallel laufen und es darf sich nicht um ein sogenanntes All-In-One-Formular handeln, das zum Beispiel durch ein CGI-Skript mehrere Suchmaschinen nacheinander abarbeitet. Ergebnis-Merging – Die gesammelten Ergebnisse müssen standardisiert präsentiert werden. Dubletten – Doppelte Einträge müssen erkannt und entfernt werden.
24
Funktionsweise von Suchmaschinen
Abbildung 2.2: Metacrawler zeigt an, aus welchen Suchmaschinen die Treffer stammen.
Operatoren – Es müssen zumindest die beiden Operatoren AND und OR benutzt werden und an die entsprechenden Suchmaschinen weitergeleitet werden können. Informationsverlust – Wird von einer Suchmaschine eine Kurzbeschreibung eines Suchtreffers angeboten, muss die mit übernommen werden. Search Engine Hiding – Die Eigenschaften der verwendeten Suchmaschinen dürfen auf die Benutzung der Metasuchmaschine keinen Einfluss haben. Vollständige Suche – Es muss so lange in den Trefferlisten der Suchmaschinen gesucht werden, bis diese keine weiteren Treffer mehr liefern. Diese Liste macht es nun einfacher, die echten von den unechten Metasuchmaschinen zu unterscheiden. Ein entscheidendes Problem der Metasuchmaschinen ist die Gewichtung innerhalb der Trefferliste. Denn natürlich haben auch die Betreiber von Metasuchmaschinen keinen Einblick in die Algorithmen von Google & Co. Und selbst wenn sie den Algorithmus kennen würden, gibt es da ein weiteres Problem: Die Ranking-Algorithmen lassen sich untereinander nicht vergleichen. Die meisten Metasuchmaschinen übernehmen ausschließlich die Suchergebnisse, lassen die Ranking-Positionen jedoch außer Acht. Stattdessen wird die Relevanz auf Basis der Worthäufigkeit in Bezug auf die Stichwörter selbst berechnet. Für diese Analyse werden die von der Suchmaschine übermittelten Daten wie URL, Titel und Kurzbeschreibung verwendet.
25
Kapitel 2
Abbildung 2.3: MetaGer, die älteste deutsche Metasuche, bietet zahlreiche Optionen.
2.1.4 Interessante Spezialsuchmaschinen Mittlerweile gibt es eigentlich kein Thema, für das nicht eine eigene Suchmaschine existiert. Diese sogenannten Spezial- beziehungsweise vertikalen Suchmaschinen ermöglichen zum Beispiel die Suche nach Telefonnummern, News und MP3-Dateien. Andere Spezialsuchmaschinen wiederum greifen auf die Indizes der großen Suchmaschinen zurück, bedienen sich dort aber nur bestimmter Segmente. Die Bedeutung der Spezialsuchmaschinen nimmt immer mehr zu. Denn für viele User ist die riesige Trefferzahl in den klassischen Suchmaschinen mittlerweile viel zu groß und unübersichtlich geworden. Auch wenn meistens auf Google als Suchmaschine zurückgegriffen wird, gibt es durchaus interessante Alternativen. Einige davon zeigt die folgende Liste:
Nachrichten und Blogs Paperball (http://www.paperball.de/) – Artikel Paperazzi (http://www.paperazzi.de/) – Artikel Technorati (http://www.technorati.com/) – Blogs Google Blog-Suche (http://www.google.de/blogsearch) – Blogs
26
Funktionsweise von Suchmaschinen
Musik und Video Music-Seek (http://www.music-seek.com/) – Musik AltaVista (http://de.altavista.com/audio/default) – Musik AltaVista (http://de.altavista.com/video/default) – Video
Personen/E-Mail/Telefon Bigfoot (http://www.bigfoot.com/) – E-Mail-Adressen Yahoo! People Search (http://people.yahoo.com/) – E-Mail-Adressen und Telefonnummern
Dateien/Programme FILEZ (http://www.filez.com/) – Dateien Jumbo (http://www.jumbo.com/) – Software Diese Liste ließe sich noch beliebig fortführen. Aber auch bei der vergleichsweise kleinen Auswahl wird deutlich, dass für fast jedes Thema eigene Suchmaschinen existieren. Und dabei spielt es keine Rolle, ob es sich um ein populäres Thema wie MP3 oder eher einen Randbereich wie die Psychologie4 handelt.
2.2 Architektur Nachdem Sie die verschiedenen Arten von Suchmaschinen kennengelernt haben, geht es auf den folgenden Seiten um deren Architektur. Für gewöhnlich bestehen Suchmaschinen aus den folgenden Komponenten: Spider – Die Daten werden gesammelt und in bestimmten Abständen aktualisiert. Indexer – Die gesammelten Daten werden auf bestimmte Schlüsselwörter hin untersucht und auf dieser Basis im inversen Index den Suchwörtern zugeordnet. Datenbank – Hier werden die indizierten Seiten gespeichert. Suchmaschinen-Algorithmus – Anhand ausgeklügelter Algorithmen werden die indizierten Seiten nach Relevanz bewertet. Eingabemaske – Im Frontend wird dem Benutzer eine Eingabemaske präsentiert, über die er seine Suchanfrage stellen kann.
4
Wobei die Psychologie an sich natürlich interessant und keinesfalls nur ein Randthema ist.
27
Kapitel 2
Der URL-Server, ein oder mehrere Crawler, der Parser und der Storage-Server bilden dabei die Webcrawler-Komponente der Suchmaschine. Diese durchläuft das WWW und indexiert alle gefundenen Daten. Aufbereitet werden sie in den Datenstrukturen Lexikon, Hit Lists und Repository. Der Besucher kann diese Datenstrukturen mit einem Searcher durchsuchen. Der genaue Aufbau variiert in der Praxis von Suchmaschine zu Suchmaschine. Die genannten Kernkomponenten kommen aber normalerweise überall vor.
2.2.1 URL-Server Die Aufgabe des URL-Servers besteht darin, die noch zu verarbeitenden URLs zu verwalten. Sobald der Crawler wieder bereit ist, beziehungsweise Kapazitäten frei hat, werden die URLs an ihn übergeben. Der Server hat zusätzlich die Aufgabe, zu entscheiden, in welcher Reihenfolge die URLs abgearbeitet werden sollen. Es können allerdings ausschließlich Seiten erfasst werden, auf die bereits von anderen Seiten verlinkt wurde. Um auch nicht verlinkte Seiten indexieren zu können, bieten die meisten Suchmaschinen die Möglichkeit der manuellen Seitenanmeldung.
2.2.2 Crawler Der Crawler bildet das Herzstück der Suchmaschine. Seine Aufgabe besteht darin, die verschiedenen URLs aufzurufen und Kopien der Seiten an den Parser zu übergeben. Mithilfe des Domain Name Service (DNS) wird der URL in eine IP-Adresse umgewandelt. Anschließend versucht der Crawler, zu dem entsprechenden Server eine Verbindung herzustellen. Aufgrund langer Latenzzeiten werden immer mehrere URLs parallel abgearbeitet. Um die Server bei der Abfrage nicht zu sehr zu belasten, existiert das ungeschriebene Gesetz, dass die Abfragen dem Server nicht mehr als ein Prozent der Systemressourcen stehlen dürfen. Für den Fall, dass ein URL nicht erreichbar ist, wird er zurückgestellt und zu einem späteren Zeitpunkt erneut besucht.
> >
>
HINWEIS
Das Verhalten des Crawlers kann vom Seitenbetreiber beeinflusst werden. So kann man ihm explizit mitteilen, welche Seiten er nicht indexieren soll. Realisieren lässt sich das zum Beispiel über Metatags und die Datei robots.txt.
2.2.3 Parser Der Parser ist für die Aufbereitung der vom Crawler gesammelten Dokumente verantwortlich. Ausführliche Informationen zum Parser und den Prozessen, die Dokumente in ihm durchlaufen müssen, erhalten Sie im weiteren Verlauf dieses Kapitels.
28
Funktionsweise von Suchmaschinen
2.2.4 Store Server Der Store Server (Indexer) hat die Aufgabe, aus den vom Parser erhaltenen Ableitungsbäumen, die für die Suchmaschine wichtigen Informationen zu extrahieren. Das sind zunächst einmal die Links auf andere Seiten, die dem URL-Server übergeben werden. Über einen Filter kann man definieren, welche URLs dabei indexiert werden sollen. Die Texte der eingelesenen Seiten werden anschließend nach neuen Wörtern durchsucht. Sollten neue Wörter gefunden werden, wird das Lexikon entsprechend erweitert. Für jedes Wort der Seite wird innerhalb der Hit List festgehalten, wie oft es vorkommt. Zum Abschluss wird ein Teil der Seite im Repository gespeichert.
2.2.5 Lexikon Im Lexikon sind alle Wörter hinterlegt, die der Crawler aus dem Netz zusammengetragen hat. Lediglich Stoppwörter (z.B. die Artikel der, die, das, usw.) werden nicht in das Lexikon aufgenommen. Zu jedem abgespeicherten Wort gibt es wenigstens einen Verweis auf die entsprechende Hit List.
2.2.6 Hit List In der Hit List ist zu jedem Wort des Lexikons eine Menge von Verweisen auf die Seiten im Repository enthalten, in denen es vorkommt. Bei einer Suchanfrage muss dadurch nicht der gesamte Datenbestand durchsucht werden, sondern die Seiten zu den Suchwörtern lassen sich schnellstmöglich berechnen.
2.2.7 Repository Im Repository werden alle Informationen der indexierten Seiten als lokale Kopie gespeichert, die zur Ausgabe der Ergebnisse benötigt werden. In diesem Datenspeicher sind überwiegend Webseiten mit HTML-Code enthalten. Eine Sortierung der Datensätze findet normalerweise nicht statt. Stattdessen erfolgt eine Nummerierung in der Reihenfolge des Eingangs. Zusätzlich werden URL-Länge, der URL sowie Länge und Größe der Ressource gespeichert. Was genau gespeichert wird, ist allerdings von Suchmaschine zu Suchmaschine unterschiedlich. Während manche Suchdienste ausschließlich den Titel speichern, nehmen andere die ersten 20 Wörter auf. Mittlerweile gibt es sogar immer mehr Suchmaschinen, die die gesamte Seite speichern. Damit sich der vorhandene Speicherplatz effektiv nutzen lässt, werden die gesammelten Daten ausschließlich komprimiert abgelegt. Eine wichtige Entscheidung ist dabei, ob der Fokus auf Qualität oder Geschwindigkeit der Kompression gesetzt wird. Die stärkste Komprimierung wird allerdings nur in sehr seltenen Fällen gewählt, da dadurch nicht nur die Suche sehr lange dauern würde, auch das Komprimieren selbst würde sich unnötig in die Länge ziehen.
29
Kapitel 2
Ob das Erstellen der Daten, ihre Komprimierung und Speicherung vom Store Server oder dem Repository übernommen wird, hängt von der vorhandenen Systemarchitektur ab. Sobald eine neue Version eines bereits vorhandenen Dokuments entdeckt wird, wird der vorhandene Eintrag durch die aktualisierte Version ersetzt.
2.2.8 Searcher Der Searcher ist die Komponente, mit der der Suchmaschinen-Nutzer direkt in Berührung kommt. Es handelt sich um die Startseite des Servers, die ein Suchformular enthält, über das die Suchanfrage gestellt wird. Sobald der Searcher eine Suchanfrage erhält, generiert er mithilfe des Lexikons und der Hit Lists die Ergebnismenge. In welcher Reihenfolge die Ergebnisse tatsächlich angezeigt werden, hängt von den verwendeten Algorithmen ab. Auf die Algorithmen wird im weiteren Verlauf dieses Buches noch ausführlich eingegangen.
2.3 Dokumente analysieren Suchmaschinen sind dazu da, auf Basis von eingegebenen Suchbegriffen relevante Dokumente zu finden. Wie das funktioniert und welche Aufgaben dabei vom Crawler übernommen werden, haben Sie im vorherigen Abschnitt erfahren. Nur, das Sammeln von Informationen allein ist lediglich der erste Schritt. Denn die vom Crawler beschafften Daten müssen anschließend in den Index aufgenommen werden. Der SuchmaschinenIndex ist dabei mit dem Index eines Buches vergleichbar. Die Aufgabe, auf Basis des Indexes dem Benutzer für seine Suchanfrage gute Ergebnisse zu liefern, fällt dabei dem Information-Retrieval-System zu. Aufgeteilt ist diese Aufgabe in die folgenden drei Bereiche: Datennormalisierung Datenanalyse Aufbau des Indexes Ausgangspunkt sind die vom Crawler gesammelten Dokumente im Repository. Liest ein Information-Retrieval-System Dokumente ein, erkennt es zunächst einmal keinerlei Struktur, sondern sieht lediglich eine Ansammlung einzelner Zeichen. Ziel des Information-Retrieval-Systems ist es nun, aus diesen Zeichen Stichwörter zu extrahieren.
2.3.1 Datenaufbereitung Für die Aufarbeitung der Daten ist der Parser zuständig. Der Parser liest Dokumente aus dem Repository ein und lässt sie einen mehrstufigen Prozess durchlaufen. Auf dieser Basis werden alle eingelesenen Dokumente in das gleiche Format gebracht. Das hat
30
Funktionsweise von Suchmaschinen
zwei Vorteile: Die Dokumente liegen in einem gut weiterzuverarbeitenden Format vor und überflüssige Daten werden entfernt. Für die Datenaufbereitung wendet der Parser verschiedene Prozesse an, die jedes Dokument durchlaufen muss. Welche das sind, und in welcher Form sie eingesetzt werden, zeigen die folgenden Seiten:
Datennormalisierung Das vom Crawler eingelesene Dokument muss zunächst in das entsprechende Standardformat gebracht werden. Denn nur, wenn alle Dokumente in der gleichen Form vorliegen, können die weiteren Prozesse zuverlässig durchgeführt werden. Dabei muss zunächst der Informationsmüll entfernt werden. Bezogen auf Webseiten ist das zum Beispiel der HTML-Code, wobei die Textauszeichnungen des Dokuments wie Dokumenttitel und Überschriften allerdings erhalten bleiben. So erkennt der Parser zum Beispiel den Dokumenttitel einer Webseite, indem er die Position des -Tags ermittelt und die darin enthaltenen Informationen extrahiert. Hat sich der Autor des Dokuments allerdings bei der Definition des -Tags vertippt und zum Beispiel geschrieben, kann der Parser den Dokumenttitel nicht extrahieren. Wichtige Informationen gehen somit verloren.5 Dieser Aspekt macht deutlich, wie wichtig korrektes HTML für Webseiten sein kann. Auf die gleiche Weise analysiert der Parser anschließend den Dokumentkörper und extrahiert die relevanten Informationen aus den entsprechenden Tags. Als Ergebnis der Datennormalisierung gewinnt der Parser ein Dokument, in dem nicht mehr eine einzige große Aneinanderreihung von Zeichen steht. Stattdessen existieren nun mehrere kleine Zeichen-Aneinanderreihungen.
Wortidentifikation Im nächsten Schritt werden aus den vorhandenen Zeichen-Aneinanderreihungen »richtige« Wörter extrahiert. Dieses Problem lässt sich auf den ersten Blick relativ einfach lösen. Denn schließlich braucht man innerhalb des Dokuments nur nach Leerzeichen Ausschau zu halten, und schon kann man die einzelnen Wörter extrahieren. Bei genauerer Betrachtung ist diese Methode allerdings zu ungenau. Denn oft gibt es Wörter, die nur dann einen Sinn ergeben, wenn sie in Wortgruppen auftauchen. Dieses Phänomen taucht vor allem in der englischen Sprache auf. In der deutschen Sprache wiederum werden Wörter oft durch Bindestriche verbunden, um die Lesbarkeit zu erhöhen. Die Unterschiede in den jeweiligen Sprachen stellen für Parser eine enorme Schwierigkeit dar. Denn wie soll er erkennen, auf welche Weise er den Text in einzelne Tokens zerlegen soll? Der Parser bedient sich hier verschiedener Separatoren. In westlichen 5
Die Parser sind in gewisser Hinsicht fehlertolerant und ignorieren kleine Vertipper.
31
Kapitel 2
Suchmaschinen kommen vor allem Leer- und Satzzeichen zum Einsatz. Bestimmte Sonderzeichen werden hingegen gleich ganz herausgefiltert. So bringt die Suche nach Plus- oder Fragezeichen in Google keine Ergebnisse, da diese Zeichen herausgefiltert und als Wortseparatoren verwendet werden.
Abbildung 2.4: Google filtert ganz offensichtlich das Pluszeichen.
Welche Zeichen innerhalb eines Wortes zulässig sind, definiert die Suchmaschine in einer Liste. In einer weiteren Liste sind die Zeichen enthalten, die als Wortseparatoren dienen. Der Parser überprüft das Dokument und testet jedes Zeichen dahingehend, in welcher der Listen es vorkommt. Solange der Parser auf zulässige Zeichen stößt, wird es an einen bestimmten Speicherplatz gelegt. Stößt er allerdings auf ein Zeichen aus der Liste der Wortseparatoren, werden die bis dahin gesammelten Zeichen als Wort zusammengefasst. Dieses Wort wiederum wird in die Liste der zu extrahierenden Wörter aufgenommen.
Sprachzuordnung Bei der Benutzung von Suchmaschinen will man normalerweise ausschließlich Ergebnisse, die in seiner Muttersprache verfasst sind. Wer die deutschsprachige GoogleSuche verwendet, möchte deutschsprachige Suchergebnisse.6 Französische oder chinesische Seiten möchte man hingegen eher selten lesen. Damit eine Trennung der Seiten nach Sprache möglich ist, muss der Parser die Sprache der jeweiligen Dokumente richtig einschätzen. Zur Ermittlung der Dokumentsprache wird eine Kombination aus 6
32
Wobei das natürlich vom Thema abhängt.
Funktionsweise von Suchmaschinen
Wörterbuch-Erkennung und statistischen Verfahren herangezogen. Auf die entsprechenden Metatag-Angaben von Seitenbetreibern verlassen sich die Suchmaschinen hingegen nicht. Ausführliche Informationen zu dem statistischen Verfahren nach den HiddenMarkov-Modellen finden Sie unter http://www.fh-wedel.de/~si/seminare/ss01/ Ausarbeitung/a.sprache/gdlgsprerk34.htm.
Word Stemming Hat der Parser die Dokumentsprache ermittelt, werden die Wörter auf ihren Stamm reduziert. Das Prinzip des Word Stemmings ist Ihnen sicherlich bereits bei Ihren Suchanfragen aufgefallen. Denn was passiert zum Beispiel, wenn Sie bei Google nach Zitrone suchen?
Abbildung 2.5: Google beherrscht das Word Stemming.
Google liefert brav Seiten, auf denen Zitrone steht. Ebenso werden aber auch Treffer angezeigt, in denen der Begriff Zitronen vorkommt. Die Suchmaschine muss dazu den Wortstamm ermitteln und sinngleiche Wörter auf den Stamm zurückführen. Für die Indexierung hat das Stemming enorme Vorteile, bewirkt es doch eine Verkleinerung der Indexdateien.
33
Kapitel 2
Bei Google können Sie das Word Stemming übrigens deaktivieren. Dazu brauchen Sie vor den jeweiligen Begriff nur das Pluszeichen zu setzen.
Abbildung 2.6: Plötzlich taucht nur noch die Zitrone auf.
Eine andere Stemming-Möglichkeit ist die Trunkierung. Die setzt allerdings entsprechendes Wissen seitens des Anwenders voraus. Denn für die Trunkierung müssen spezielle Operatoren gesetzt werden. Der bekannteste Trunkierungsoperator ist sicherlich *. Gibt man zum Beispiel Zitrone* ein, findet die Suchmaschine7 auch Zitroneneis, Zitronensäure usw. Allerdings wird von den Suchmaschinen anstelle der Trunkierung das Verfahren des Word Stemmings verwendet. Derzeit steckt das Word Stemming noch in den Kinderschuhen und wird von den Suchmaschinen nicht konsequent eingesetzt.
7
34
Die großen Suchmaschinen wie Google, Yahoo! und MSN/Live beherrschen die Trunkierung nicht.
Funktionsweise von Suchmaschinen
Stoppwörter Dokumente mit Fließtext enthalten wichtige und weniger wichtige Wörter. Um nur die für den Inhalt relevanten Wörter in den Index aufzunehmen, werden automatisch alle Wörter entfernt, die in der sogenannten Stoppwortliste enthalten sind. In dieser Liste sind alle Wörter enthalten, die nichts zur Semantik von Dokumenten beitragen. Hier eine Auswahl typischer deutscher Stoppwörter: ein, eine, und, oder, der, die, das Alle im Dokument vorhandenen Wörter werden mit dieser Liste abgeglichen. Stößt der Parser auf ein Stoppwort, wird es aus dem Text entfernt und nicht indexiert. Welche Stoppwörter von den Suchmaschinen verwendet werden, kann man durch einfache Tests herausfinden. Gibt man zum Beispiel bei Google den Suchterm eine tolle suche ein, ergibt sich folgendes Bild:
Abbildung 2.7: So überprüft man, welche Stoppwörter von Google verwendet werden.
> >
>
HINWEIS
Offensichtlich steht das Wort eine auf der Stoppwortliste. Allerdings hat das Stoppwort-Filterverfahren einen entscheidenden Nachteil: Denn möglicherweise erwünschte Suchergebnisse erscheinen gar nicht erst in den Trefferlisten. Deswegen gehen immer mehr Suchmaschinen zu einer Vollindexierung über.
35
Kapitel 2
Keyword-Extrahierung Der letzte Schritt der Dokumentanalyse besteht im Ermitteln der für einen Text relevanten Schlüsselwörter. Unter Schlüsselwörtern sind dabei die Begriffe zu verstehen, die den Inhalt des Dokuments am besten beschreiben. Ausführliche Informationen, wie Suchmaschinen Schlüsselwörter erkennen und welche Auswirkungen das auf die Suchmaschinen-Optimierung hat, erhalten Sie im weiteren Verlauf dieses Buches. An dieser Stelle ist zunächst lediglich der Aspekt entscheidend, dass aus dem gesamten Dokument mithilfe verschiedener Verfahren (zipfsches Gesetz) die wichtigsten Schlüsselwörter des Dokuments in den Index aufgenommen werden.
2.4 Vor diesen Problemen stehen Suchmaschinen Normalerweise wird davon ausgegangen, dass man als Webentwickler Schwierigkeiten mit der Optimierung seiner Seiten für Suchmaschinen hat. Was viele Vergessen: Auch Suchmaschinen haben ihre Probleme und Sorgen und sehen sich Widrigkeiten ausgesetzt. Die wichtigsten »Störfaktoren« in der Übersicht: Große Datenmengen – Das Internet wächst so rasant, dass Suchmaschinen mit dem Indexieren schlichtweg überfordert sind. So hat zwar allein Google ca. 20 Milliarden Seiten indexiert, aber auch diese enorme Zahl entspricht nur einem Bruchteil der tatsächlich vorhandenen Seiten. Erschwerend kommt hinzu, dass Seiten aus dem sogenannten Deep Web von Suchmaschinen überhaupt nicht indexiert werden können. Zu diesem Deep Web gehören unter anderem passwortgeschützte Seiten und solche, die man erst nach Anerkennung der Nutzungsbedingungen betreten kann. Wie groß das Deep Web tatsächlich ist, lässt sich nur schätzen. Man geht allerdings davon aus, dass es ein Vielfaches des direkt zugänglichen Webs umfasst. Einer Studie aus dem Jahr 2001 (http://www.brightplanet.com/resources/details/ deepweb.html) schätzt, dass das Deep Web 500 Mal größer als das sichtbare Web sein soll. Aktualität – Es gibt Seiten, die werden einmal im Monat aktualisiert, während sich der Datenbestand anderer Seiten im Stunden- oder sogar Minutentakt verändert. Suchmaschinen werden dadurch gezwungen, Seiten sehr oft zu indexieren, um so immer auf einem vergleichsweise aktuellen Stand zu sein. Das verursacht für die Suchmaschinen-Betreiber enormen Datenverkehr und somit auch Kosten. Verständnis – Aus der Sicht von Suchmaschinen wissen die Suchenden nicht, wonach sie eigentlich suchen beziehungsweise wie sie es einer Suchmaschine verständlich machen. So ist der Begriff Rechner in der echten Welt weit verbreitet. Suchmaschinen bevorzugen möglicherweise aber das Wort Computer. Ebenso bereiten auch grammatikalische »Stilblüten« Probleme. So sind für den Menschen Zeitung und Zeitungen zwei Wörter, die das gleiche beschreiben. Die Suchmaschine
36
Funktionsweise von Suchmaschinen
hingegen listet möglicherweise zwar alle Seiten auf, die den Begriff Zeitung enthalten, die Zeitungen-Seiten tauchen in der Trefferliste aber nicht auf. Viele Suchmaschinen umgehen diese Probleme durch die Möglichkeit sogenannte Wildcards einsetzen zu können. So berücksichtigt die Suche nach Zeitung* dann auch Zeitungen oder Zeitungsständer. Allerdings setzen Wildcards voraus, dass der Anwender sie kennt und einzusetzen weiß. (Beides ist oft leider nicht gegeben.) Spam – Die meisten kommerziell erfolgreichen Webseiten verdanken ihren Erfolg ausschließlich einer guten Platzierung in den Suchmaschinen. Kein Wunder also, dass Webseitenbetreiber immer wieder durch zweifelhafte Methoden versuchen, ihr Ranking zu verbessern. Dieses sogenannte Suchmaschinen-Spamming bereitet gleich in mehreren Bereichen Probleme. Zunächst einmal werden die Suchmaschinen-Betreiber gezwungen, immer wieder neue Algorithmen zu entwickeln, um den Spammern auf die Schliche zu kommen. Aber auch aus Sicht der Suchenden ist das Suchmaschinen-Spamming ein äußerst ärgerliches Phänomen. Denn man bekommt oft nicht mehr die für sich besten Seiten zuerst angezeigt, sondern die, die von den Spammern am besten optimiert wurden.8 Rechtsfragen – Die meisten Suchmaschinen agieren international. Als Benutzer, der aus Deutschland eine Suchanfrage stellt, bekommt man so zum Beispiel oft Ergebnisse von einem Server geliefert, der in den USA steht. Das Problem hierbei: Die Gesetzgebung ist in den einzelnen Ländern verschieden. So ist in einigen Ländern legal, was in anderen auf dem Index steht. Prominentestes Beispiel für die Zensur in einzelnen Ländern dürften sicherlich die Seiten von Yahoo! in China sein.9 So werden dort zum Beispiel Suchergebnisse zu Themen wie Demokratie und Tibet beschnitten. Yahoo! ist damit aber nicht allein. Die chinesische Regierung hat zahllose Portale aufgefordert, sich dieser Zensur anzuschließen. Und man kann davon ausgehen, dass die meisten Suchdienste und Portale diesem Ruf gefolgt sind.
8 9
In aktuellen Studien wird davon ausgegangen, dass jeder vierte Suchtreffer eine Spam-Seite ist. Wobei natürlich nicht nur in China eine Zensur stattfindet. Auch deutsche Suchmaschinen-Betreiber zensieren Suchergebnisse ganz gezielt. Dabei geht es übrigens nicht nur um Seiten mit pornografischen Inhalten, auch „normale“ Seiten werden oftmals aus dem Index entfernt. Ein interessantes Beispiel dazu finden Sie unter http://www.internetmarketing-news.de/2006/10/23/ zensiert-google-deutschland-ubereifrig/.
37
3
So werden Suchergebnisse gewichtet Es ist schon lange einer meiner Grundsätze, dass die kleinsten Dinge bei Weitem die wichtigsten sind.
Sir Arthur Conan Doyle, britischer Arzt und Kriminalautor
Bevor Sie Ihre Seiten optimieren können, müssen Sie wissen, nach welchen Kriterien Suchmaschinen die Relevanz von Suchergebnissen bestimmen. Wie kommt es, dass eine Seite auf Platz 100 geführt wird, während die andere auf Platz 1 steht? Diese Aspekte sind nicht nur wichtig, sondern dazu auch noch interessant. Denn wer versteht, wie Suchmaschinen »ticken«, kann sie auch für seine eigenen Recherchen besser nutzen und so möglicherweise noch bessere Suchergebnisse erzielen. Im ersten Teil dieses Kapitels geht es um die Relevanzermittlung. Das sind die Kriterien nach denen Suchmaschinen festlegen, wie gut eine Seite einer Suchanfrage entspricht. Anschließend wird der Fokus auf den PageRank der Suchmaschine Google gerichtet und gezeigt, wie man mit einfacher Mathematik den Google-Algorithmus entschlüsseln10 und das gewonnene Wissen für die Optimierung seiner eigenen Seite nutzen kann.
10 Zugegeben, völlig entschlüsselt wird er auch in diesem Buch nicht. Denn den genauen Algorithmus hält die Firma Google geheim.
Kapitel 3
3.1 Statische Modelle Auf den folgenden Seiten erhalten Sie einen Überblick über die wichtigsten Information-Retrieval-Modelle. Wobei unter dem etwas »schwer« anmutenden Begriff Information-Retrieval nichts anderes als die Informationsbeschaffung beziehungsweise Informationswiedergewinnung verstanden wird.
3.1.1 Das boolesche Modell: Suchen mit Operatoren Im booleschen Modell wird streng nach dem Prinzip der exakten Übereinstimmung gearbeitet. Ein Dokument erscheint nur dann in der Ergebnisliste, wenn es den Suchbegriff exakt in der Form enthält, in der er eingegeben wurde. Das binäre Prinzip erlaubt nur die beiden Zustände 1 und 0. Wobei unter 1 (true) wahr und unter 0 (false) falsch zu verstehen ist. Mittelwerte wie ein möglicherweise gibt es nicht. Um Suchanfragen zu formulieren, stehen klassischerweise die drei Operatoren AND, NOT und OR zur Verfügung. In manchen Systemen kann zusätzlich der Operator XOR (ausschließendes Oder) verwendet werden. Was die einzelnen Operatoren bewirken, zeigt die folgende Tabelle: Beispiel
Beschreibung
Wort1 AND Wort2
Es werden nur Dokumente angezeigt, in denen Wort1 und Wort2 stehen.
Wort1 NOT Wort2
Das System zeigt ausschließlich Dokumente, die zwar Wort1 enthalten, in denen aber nicht Wort2 steht.
Wort1 OR Wort2
In der Trefferliste erscheinen auch solche Dokumente, die entweder nur Wort1 oder nur Wort2 enthalten.
Wort1 XOR Wort2
Im Dokument muss entweder Wort1 oder Wort2 stehen.
Tabelle 3.1: Die booleschen Operatoren am Beispiel erklärt
Neben den Operatoren besteht die zusätzliche Möglichkeit der Klammersetzung, um so komplexere Suchanfragen abzugeben. In der Erweiterung des booleschen Modells stehen sogenannte Abstandsoperatoren zur Verfügung, über die sich die Treffermenge weiter einschränken lässt. Die meisten Suchmaschinen ermöglichen heute die Suche anhand boolescher Operatoren. Diese Suchvariante hat allerdings mehrere Nachteile: Viele, eigentlich relevante Dokumente, werden nicht gefunden, da sie die Anfrage nur teilweise erfüllen. Ein Ranking der Ergebnisse findet nicht statt. Die Relevanz der Begriffe innerhalb der Anfrage wird im Text nicht berücksichtigt. Für den »Normalbürger« ist allein der Begriff boolescher Operator abschreckend und er kann mit NOT und AND nichts anfangen.
40
So werden Suchergebnisse gewichtet
Für große Datenmengen, wie sie im Internet verfügbar sind, eignet sich das boolesche Modell somit weniger. Schließlich ist gerade dort die unterschiedliche Relevanzbeurteilung der Dokumente von enormer Bedeutung. Denn Dokumente werden in booleschen Systemen bereits dann als relevant eingestuft, wenn sie die Anfrage erfüllen. Der Grad der Relevanz spielt dabei keine Rolle. Hier setzen Suchmaschinen auf zusätzliche Methoden, wie relative Worthäufigkeit und Keyword-Nähe. Dazu aber später mehr. Das boolesche Modell bildet in den Suchmaschinen dennoch die Basis des Matchings. Dabei werden zunächst die relevanten Dokumente mithilfe des booleschen Modells ermittelt, bevor sie anschließend über verschiedene Rankingverfahren in die richtige Reihenfolge gebracht werden.
Abbildung 3.1: Google ermöglicht die Suche mit booleschen Operatoren.
3.1.2 Unscharfe Suche mit der Fuzzy-Logik Das boolesche Modell liefert sehr oft äußerst umfangreiche Ergebnislisten und auch die Trennung der gefundenen Dokumente ist sehr streng. Entweder ist die Suchanfrage für ein Dokument wahr oder sie ist falsch. Ein möglicherweise oder vielleicht gibt es nicht. Hier setzt die Fuzzy-Logik an. Diese Methode lässt neben wahr und falsch auch abgestufte Werte zu. Für konventionelle Datenbanken und wissenschaftliche Systeme ist die Fuzzy-Logik durchaus interessant. Eine typische Abfrage einer Datenbank auf Fuzzy-Logik-Basis könnte zum Beispiel folgendermaßen aussehen: Stichwort 'seopard' UND 'heimat' Datum 'moeglichst nach 2005' Das System soll in diesem Beispiel auch solche Dokumente liefern, die kurz nach dem Jahr 2005 entstanden sind und in denen möglicherweise nur eines der beiden Stichwörter enthalten ist.
41
Kapitel 3
Für WWW-Suchmaschinen hat sich die Fuzzy-Logik allerdings nicht bewährt, da hier eine solche Ungenauigkeit nicht gewollt ist. Denn zwar kann man durch eine detaillierte Abstufung auf das Ranking der Dokumente in der Trefferliste Einfluss nehmen, andere Modelle sind dafür aber besser geeignet. Weiterführende Informationen Da das Fuzzy-Logik-Modell in den WWW-Suchmaschinen keine Rolle spielt, wurde es hier nur kurz angerissen. Interessant ist das Thema aber allemal. Ingo R. Homann hat eine Dissertation mit dem Titel »Fuzzy-Suchmethoden im Information-Retrieval« geschrieben, die allen interessierten Lesern unter http://bieson.ub.uni-bielefeld.de/volltexte/2004/516/pdf/diss.pdf zur Verfügung steht.
3.1.3 Ähnlichkeitensuche mit dem Vektorraummodell Es ist durchaus ein Problem, wenn Modelle ausschließlich auf der Basis der exakten Übereinstimmung zwischen Suchbegriff und Dokument arbeiten. Auf diese Nachteile – die natürlich auch und vor allem für WWW-Suchmaschinen äußerst relevant sind – wurde bereits hingewiesen. Das größte Problem für WWW-Suchmaschinen ist aber zweifellos, dass durch rein boolesche Verfahren viele irrelevante Dokumente gefunden werden, in denen der Suchbegriff zwar enthalten ist, dort aber in einem völlig anderen Kontext steht, als vom Suchenden erwartet. Andererseits werden relevante Dokumente unterschlagen, nur weil in ihnen der Suchbegriff nicht in exakt der gleichen Form steht, wie er in die Suchanfrage eingegeben wurde. Das Vektorraummodell versucht diese Problematik zu umgehen, indem nicht mehr nach exakten Übereinstimmungen zwischen Suchbegriff und Dokument, sondern nach Ähnlichkeiten zwischen Dokument und Suchanfrage oder zwischen mehreren Dokumenten gesucht wird. Dazu werden die Suchanfrage und die Stichwörter der Dokumente in Vektoren umgewandelt. Anschließend wird berechnet, in welcher Nähe sich die Vektoren zueinander befinden. Realisiert wird dies anhand eines durch die Terme aufgespannten vieldimensionalen Vektorraums, in dem jeder Term eine Dimension darstellt. Bei zwei Termen besitzt der Vektor zwei Dimensionen, bei drei Termen drei Dimensionen und so weiter. Jedes Dokument wird durch einen Vektor repräsentiert, in dem alle für die Indexierung verwendeten Deskriptoren enthalten sind. Berechnet man den Kosinus des Winkels zwischen zwei Dokumenten beziehungsweise zwischen einer Suchanfrage und einem Dokument, lässt sich so deren Ähnlichkeit berechnen. Dabei gilt: Je kleiner der Winkel, umso ähnlicher sind sich Suchanfrage und Dokument. Das folgende Beispiel soll diesen Aspekt verdeutlichen. In einem Dokument steht unter anderem folgender Text: Es gibt im Zoo nur einen Seopard. Der andere Seopard ist weg.
42
So werden Suchergebnisse gewichtet
Aus diesem Text werden bei der Stoppwort-Erkennung11 bereits zahlreiche Terme entfernt. Übrig bleiben Zoo und Seopard. In diesem Beispiel erhält man also einen zweidimensionalen Vektor. DV = (1,2) Dabei kommt der Term Zoo einmal, der Term Seopard zweimal vor. Der so ermittelte Vektor wird für jedes indexierte Dokument berechnet. Allerdings sollen die Dokumente nicht untereinander, sondern mit einem von einem Benutzer eingegebenen Suchbegriff verglichen werden. Eine typische Suchanfrage könnte folgendermaßen aussehen: Wo ist der Seopard? Auch hier würden wieder die Stoppwörter entfernt werden, wodurch am Ende der Term Seopard in einen zweidimensionalen Vektor umgewandelt wird. SV = (0,1) Für die Dimensionen, die keine Entsprechung in der Suchanfrage haben, wird eine Null eingetragen. Bei der Berechnung der Ähnlichkeit werden anstelle der tatsächlichen Begriffsanzahl die beiden Zustände vorhanden und nicht vorhanden verwendet. Normalisiert man den Dokumentvektor (1,2) binär, ergibt sich für ihn der Vektor (1,1). DV = (1,1) SV = (0,1) Je näher sich diese beiden Kosinus-Werte sind, umso exakter passt das Dokument zur Suchanfrage. Das Vektorraummodell hat den Vorteil, dass der Benutzer nicht mit Operatoren hantieren muss und somit problemlos damit zurechtkommt. Allerdings hat das Modell auch einige Nachteile. So wird zum Beispiel davon ausgegangen, dass die eingegebenen Suchbegriffe voneinander völlig unabhängig sind. Und auch was für Anfänger möglicherweise ein Vorteil ist, ist für erfahrene Anwender eher schlecht, nämlich das Fehlen von Operatoren. Will man eine wirklich sinnvolle Anfrage stellen, muss man vergleichsweise viele Suchbegriffe angeben.
> >
>
HINWEIS
Aus Sicht der Suchmaschinen ist das Vektorraummodell dahingehend interessant, dass mit ihm das Ranking nach Relevanz der Treffer eingeführt wurde. Das führt dazu, dass man in Suchmaschinen die relevantesten Treffer auf den vorderen Ranking-Plätzen angezeigt bekommt.
11 Stoppwörter sind Wörter, die nur eine geringe oder gar keine inhaltliche Bedeutung für den Text haben.
43
Kapitel 3
3.1.4 Probabilistisches Modell: Das relativ beste Suchergebnis Bei diesem Modell wird davon ausgegangen, dass aufgrund der natürlichen Sprache nicht garantiert werden kann, dass ein Dokument für eine Suchanfrage tatsächlich relevant ist. Vielmehr wird immer nur die relativ beste Lösung präsentiert und im Allgemeinen existiert keine eindeutig beste Lösung. Die Grundfrage beim probabilistischen Modell lautet somit: Wie groß ist die Wahrscheinlichkeit, dass ein Dokument für eine Anfrage als relevant eingeschätzt wird? Würde man für alle Dokumente diese Wahrscheinlichkeit kennen, könnte man die Dokumente anhand dieser Wahrscheinlichkeit sortieren und die mit der größten Wahrscheinlichkeit ausgeben. Allerdings ist die Wahrscheinlichkeit nicht unmittelbar zugänglich, sodass sie nur geschätzt werden kann. Damit das gelingt, müssen die Dokumente und die Anfragen genauer untersucht sowie Vereinfachungen und Unabhängigkeitsannahmen gemacht werden. Im probabilistischen Modell wird die Relevanz eines Dokuments an der Ähnlichkeit zwischen Suchanfrage und Dokument gemessen. Wobei der Ähnlichkeitswert daran gemessen wird, wie oft der Suchbegriff im Dokument existiert. Kommt in einem Text das Wort Seopard zehnmal und in einem anderen Dokument zwanzigmal vor, ist das zweite Dokument der Suchanfrage ähnlicher. Und je ähnlicher ein Dokument, umso relevanter ist es für die Suchanfrage. Die Ausgabe der Trefferliste erfolgt in diesem Modell sortiert. Dabei wird ein Schwellenwert verwendet, der festlegt, wie hoch die Wahrscheinlichkeit der Relevanz sein muss, damit das Dokument überhaupt in der Trefferliste erscheint. Die Sortierung der Trefferliste erfolgt letztendlich absteigend nach abnehmender Relevanz.
3.1.5 Relative Worthäufigkeit Bei dem Verfahren der relativen Worthäufigkeit oder Term Frequency (TF) wird davon ausgegangen, dass ein Wort beziehungsweise Term für ein Dokument umso wichtiger wird, je öfter es darin vorkommt. Im einfachsten Fall könnte man also die Häufigkeit TF berechnen, indem man überprüft, wie oft ein Wort innerhalb eines Textes existiert. Ein Beispiel soll diesen Aspekt verdeutlichen: Ein Dokument enthält 200 Wörter. In diesem Dokument taucht das Wort Bücher zehnmal auf. In diesem Fall müsste man davon ausgehen, dass der absolute TF-Wert 10 beträgt, schließlich steht das Wort Bücher zehnmal im Text. Allerdings offenbart dieses Verfahren seine Schwächen, wenn man die gleiche Berechnung auf ein längeres Dokument ansetzt.
44
So werden Suchergebnisse gewichtet
Das Dokument enthält 4.000 Wörter. Im Dokument steht zwanzigmal das Wort Bücher. In diesem Fall würde ein TF-Wert von 20 ermittelt werden. Dieses Dokument erhielte demnach ein höheres Gewicht. Nun kann man bei dieser Form der Berechnung davon ausgehen, dass längere Dokumente fast immer höher gewichtet werden. Denn die Wahrscheinlichkeit ist groß, dass in einem langen Text ein Suchterm häufiger als in einem kurzen Text vorkommt. Eine solche Betrachtung ist natürlich nicht praktikabel. Denn selbstverständlich könnten kürzere Dokumente durchaus relevanter als lange sein. Hier kommt das erweiterte Verfahren der relativen Worthäufigkeit zum Einsatz. Dabei setzt man die Häufigkeit des Wortvorkommens mit der Gesamtwortzahl des Dokuments ins Verhältnis. TF= Häufigkeit eines Worts im Dokument / Anzahl aller Wörter im Dokument Wendet man diese Formel auf das 10/200-Beispiel an, ergibt sich ein TF-Wert von 0,05. Für das zweite Dokument mit 20 vorkommenden Wörtern bei einer Gesamtlänge von 4.000 Wörtern ergibt sich ein TF-Wert von 0,005. Die Bedeutung des ersten kürzeren Dokuments ist mit 0,05 demnach höher. Da man bei dieser Art der Berechnung sehr schnell mit sehr vielen Nullen arbeiten muss, wird in der Praxis meistens eine verfeinerte Formel angewendet, bei der mit logarithmischen Werten gearbeitet wird. Die entsprechende Formel sieht dann folgendermaßen aus: TF= log2 (Häufigkeit von t in d + 1) / log2 Gesamtanzahl der Wörter im Dokument Sie müssen die relative Worthäufigkeit übrigens nicht selbst ausrechnen. Im Internet gibt es zahlreiche Online-Tools, die das ermöglichen. Eines davon finden Sie unter http://www.keyworddensity.com/.
3.1.6 Inverse Dokumenthäufigkeit Bislang ging es um die Relevanzbewertung einzelner Dokumente. Allerdings sind einzelne Dokumente normalerweise Teil einer größeren Dokumentensammlung. Bei der inversen Dokumenthäufigkeit (ITF-Algorithmus) geht man daher davon aus, dass ein Keyword umso höher bewertet wird, je seltener es in einem Dokument vorkommt, beziehungsweise umso niedriger, je häufiger es in anderen Dokumenten zu finden ist. Kommt beispielsweise der Begriff Bücher im gesamten Datenbestand sehr oft vor, dann eignet er sich nicht dazu, die einzelnen Dokumente voneinander zu unterscheiden. Die Formel des ITF-Algorithmus sieht folgendermaßen aus: IDF= log2 Gesamtzahl der Dokumente / Anzahl der Dokumente, in denen der Term vorkommt
45
Kapitel 3
Abbildung 3.2: Die Worthäufigkeit können Sie auch mit Online-Tools ermitteln.
Bei der Ermittlung von Deskriptoren (Schlagwörtern) für Dokumente geht man heutzutage von folgenden Aspekten aus: Deskriptor-Gewicht bezogen auf das Dokument – Besonders gute Deskriptoren kommen, auf die Gesamtlänge eines Dokuments bezogen, vergleichsweise häufig vor. Deskriptor-Gewicht bezogen auf die Dokumentsammlung – Gute Deskriptoren sind innerhalb der Dokumentensammlung nur relativ selten enthalten. Die Formel zur Berechnung des Termgewichts sieht folgendermaßen aus: TG= TF x IDF
3.1.7 Lage eines Terms Auch die Frage, wo sich ein Term innerhalb eines Dokuments befindet, fließt in die Relevanzbewertung mit ein. Bei diesem Gewichtungsverfahren wird davon ausgegangen, dass der Verfasser des Inhalts besonders relevante Schlüsselwörter eher an den Anfang des Dokuments stellt. Prinzipiell wird hier zwischen zwei Methoden unterschieden: Gewichtungsverfahren, die sich auf die absolute Position des Keywords im Dokument beziehen. Das sogenannte Proximity-Verfahren berücksichtigt den Abstand der Keywords untereinander.
46
So werden Suchergebnisse gewichtet
Die exakte Position des Terms wird durch einen entsprechenden Parser ermittelt. Ein typisches Beispiel für die Bedeutung der Position eines Terms innerhalb eines Dokuments stellen HTML-Dateien dar. Die lassen sich – zumindest grob gesagt – in zwei Bereiche einteilen. [...] [...]
Im Dokumentkopf sind unter anderem der Dokumenttitel in Form des -Tags und diverse Meta-Angaben enthalten. Der Inhalt des -Tags wird nicht gemeinsam mit dem Dokumentkörper ausgewertet. Denn schließlich kann man davon ausgehen, dass der Autor des Dokuments den Titel gerade deswegen so gewählt hat, weil er den Dokumentinhalt am besten beschreibt. Aus diesem Grund gewichten viele Suchmaschinen die Worte innerhalb des -Tags vergleichsweise hoch. Der Dokumenttext wird im -Bereich definiert. Bei der Gewichtung der Inhalte nimmt man an, dass inhaltsrelevante Terme vor allem zu Beginn von Dokumenten verwendet werden. Denn schließlich will der Autor seinen Lesern gleich am Anfang mitteilen, was auf ihn in den folgenden Abschnitten zukommt. Allerdings greift die allgemeine Formel, dass alles was am Dokumentanfang steht, besonders wichtig ist, nicht immer. Denn letztendlich hängt das natürlich auch vom Stil des Autors ab. Will der Verfasser zum Beispiel einen Spannungsbogen aufbauen, tauchen die relevanten Terme höchstwahrscheinlich nicht am Dokumentanfang auf. Aus diesem Grund schwächt man dieses restriktive Verfahren ab. Bei der Abschwächung werden die einzelnen Terme nicht mehr in eine Reihenfolge gebracht, sondern man teilt den Text in verschiedene Klassen auf. So werden beispielsweise Keywords, die sich innerhalb der ersten 50 Wörter befinden, höher bewertet, als solche Schlüsselwörter, die innerhalb der Wörter 51 bis 100 stehen. Viele Nutzer von Suchmaschinen suchen längst nicht mehr nach nur einem Wort, sondern geben zwei oder mehr Schlüsselwörter ein. Vor diesem Hintergrund spielt das Proximity-Verfahren eine immer wichtigere Rolle. Dabei geht man davon aus, dass zwei sehr nah beieinander stehende Wörter, den Text eher abbilden, als Wörter, die weiter auseinander stehen.
3.1.8 Der URL Zusätzlich zu dem Text des Dokumentkopfes und -körpers werden weitere Daten ausgewertet. Dazu gehört unter anderem auch der URL. So wird untersucht, ob ein URL Schlüsselwörter enthält und damit für das Dokument eine höhere Relevanz ermittelt werden kann. Man kann zum Beispiel davon ausgehen, dass der URL http://www.pommeranzer-seopard.de/futter/futter_fleisch.html
47
Kapitel 3
für das Wort Futter eine höhere Relevanz als der URL http://www.pommeranzer-seopard.de/content/seite1.html aufweist. Dieses Verfahren hat allerdings den Nachteil, dass natürlich vom URL allein noch längst nicht auf den tatsächlichen Inhalt des Dokuments geschlossen werden kann. Deswegen gilt auch hier, dass dies nur eines von mehreren Verfahren zur Relevanzbewertung ist.
3.2 Das Ranking und deren Faktoren Nachdem Sie einige wichtige Verfahren des Information-Retrieval kennengelernt haben, geht es nun darum, wie die Bewertung von Treffern vonstatten geht. Bildlich gesprochen behandelt dieser Abschnitt die Frage, woher die Suchmaschine weiß, welche Seite sie in der Trefferliste an Position 1 und welche an Position 112 setzen soll. Rankingverfahren sollen sicherstellen, dass in der Trefferliste die relevantesten Dokumente oben stehen. Kernpunkt hierfür sind die Rankingfaktoren. Dabei kann man davon ausgehen, dass alle Suchmaschinen prinzipiell auf die gleichen Faktoren setzen. Unterschiede ergeben sich lediglich aus der verschiedenartigen Gewichtung der einzelnen Faktoren. Es wird zwischen zwei Arten von Rankingfaktoren unterschieden: die anfrageabhängigen und die anfrageunabhängigen Faktoren. In Suchmaschinen werden beide Varianten eingesetzt. Zunächst ein Überblick der anfrageabhängigen Faktoren: Metatags Groß-/Kleinschreibung Hervorhebung von Begriffen durch HTML-Tags Sprache Ankertexte Position des Keywords innerhalb des Dokuments Reihenfolge der Suchbegriffe innerhalb der Suchanfrage Wortabstand Dokumentspezifische Wortgewichtung Inverse Dokumenthäufigkeit
48
So werden Suchergebnisse gewichtet
Und hier die anfrageunabhängigen Faktoren: Kriterium Linkpopularität Aktualität Klickpopularität Anzahl der eingehenden Links Seitengröße Dokumentlänge Dateiformat Verzeichnisebene Auf die meisten der genannten Faktoren wird im weiteren Verlauf dieses Buchs noch ausführlich eingegangen. Allerdings kann bereits jetzt festgestellt werden, dass im Verlauf der letzten Jahre die Bedeutung der Linkstruktur enorm zugenommen hat. Damit ist die Zahl der auf das Dokument zeigenden Links ebenso wichtig, wie die Qualität der Seiten, von denen die Links stammen.
3.3 Der PageRank Ein entscheidendes Kriterium für die Relevanzbewertung von Dokumenten ist deren Verlinkung untereinander. Dabei wird davon ausgegangen, dass häufig verlinkte Seiten für die Benutzer besseren Inhalt bieten. Einen interessanten Einblick in die Verlinkung von Webseiten können Sie sich übrigens auf der Seite http://www. touchgraph.com/ TGGoogleBrowser.html verschaffen. Dort trägt man den URL der entsprechenden Webseite ein. Die grafische Aufbereitung zeigt anschließend, wie die Seiten jeweils untereinander verlinkt sind. Und genauso arbeitet Google. Denn der Erfolg von Google – natürlich neben der Schnelligkeit – ist vor allem auf den Einsatz des PageRank-Verfahrens zurückzuführen. Entwickelt wurde dieses Verfahren von Lawrence Page und Sergey Brin, die im Rahmen ihres Studiums so ganz nebenbei die Suchmaschine Google programmiert haben. Namenswirrwar Gemeinhin wird angenommen, dass der Name PageRank vom Wort Page, also Seite abgeleitet ist. Das ist so allerdings nicht korrekt. Vielmehr hat Lawrence Page den PageRank bescheidenerweise nach sich benannt.
49
Kapitel 3
Abbildung 3.3: So kommen Sie den Wirrungen des Webs auf den Grund.
Es ist anzunehmen, dass das ursprüngliche PageRank-Verfahren im Laufe der Zeit mehrmals angepasst wurde. Das Grundprinzip ist allerdings gleich geblieben: Je mehr Seiten auf eine Webseite verweisen, umso höher ist das Gewicht der Seite. Und je größer das Gewicht der verweisenden Seiten, umso größer ist dieser Effekt. Auf diese Weise wird verhindert, dass automatisch generierte Webseiten, ohne in die Strukturen des WWW eingebunden zu sein, ganz oben in den Trefferlisten landen.12
Die Linkpopularität Während der Entwicklung des WWW gab es viele Versuche, automatische Verfahren zur Bewertung von Dokumenten zu entwickeln. Eines der bekanntesten und auch heute noch von fast allen Suchmaschinen angelegten Kriterien für die Relevanz einer Seite ist das Vorkommen eines Suchbegriffs. Dabei spielen zusätzliche Aspekte wie Worthäufigkeit und Position des Schlüsselworts eine entscheidende Rolle. Informationen dazu haben Sie bereits eingangs dieses Kapitels erhalten. Dieses Verfahren allein genügt für eine Relevanzbeurteilung allerdings nicht, da es zu anfällig für Betrügereien (Doorway-Pages) ist.
12 Zumindest ist das die Grundidee. Denn längst haben Suchmaschinen-Spammer diesen Aspekt erkannt und verlinken ihre automatisch generierten Seiten untereinander.
50
So werden Suchergebnisse gewichtet
Um sich gegen solche Manipulationsversuche zu wehren, setzten viele Suchmaschinen das Prinzip der Linkpopularität ein. Hier wird in die Relevanzbeurteilung einer Webseite auch die Anzahl der eingehenden Links als Kriterium aufgenommen. Dabei wird davon ausgegangen, dass ein Dokument umso wichtiger ist, je mehr eingehende Links es aufzuweisen hat. So gut das Prinzip anfangs auch gewesen sein mag, schnell reagierten Seitenbetreiber darauf und generierten automatisch Seiten die Links für Doorway-Pages enthielten. Das Konzept war somit gescheitert.
Vorteile des PageRank-Verfahrens Während bei der Linkpopularität einfach die Anzahl der eingehenden Links genommen wird, geht das PageRank-Verfahren bei der Relevanzbewertung deutlich subtiler vor. Denn bei dem von Google entwickelten PageRank geht man davon aus, dass ein Dokument dann eine hohe Bedeutung hat, wenn andere wichtige Dokumente/Seiten auf dieses verweisen. Die Inhalte selbst spielen dabei zunächst keine Rolle. Erst wird ausschließlich die Vernetzung der Links untersucht. Wie wichtig eine Webseite ist, ergibt sich also aus der Bedeutsamkeit der auf sie verweisenden Seiten. Deren PageRank ergibt sich wiederum aus der Bedeutung von den Seiten, die auf sie verweisen. Die Wichtigkeit eines Dokuments ergibt sich demnach rekursiv aus der Bedeutsamkeit anderer Dokumente. Um den PageRank vor der Öffentlichkeit zu rechtfertigen bzw. ihn anschaulicher zu beschreiben, erfanden Page und Brin den sogenannten Random Surfer. Dieser typische Benutzer bewegt sich von einer Seite zur nächsten und nutzt dabei Hyperlinks, ohne auf deren Inhalt zu achten. Wie groß die Wahrscheinlichkeit ist, dass der Random Surfer einem bestimmten Link folgt, hängt damit ausschließlich von der Anzahl der auf der Seite vorhandenen Links ab. Demzufolge fließt die Anzahl der ausgehenden Links einer Seite ebenfalls mit in die Ermittlung des PageRanks ein.
3.3.1 Der PageRank-Algorithmus Wie sich der PageRank prinzipiell ermitteln lässt, haben Sie im vorherigen Abschnitt erfahren. Tatsächlich steckt dahinter ein vergleichsweise simpler Algorithmus. Details zum Algorithmus Wer sich für die originalen Texte von Page und Brin über den PageRank interessiert, der wird unter http://dbpubs.stanford.edu:8090/pub/1999-66 und unter http://www-db.stanford.edu/~backrub/google. html fündig.
Der PageRank lässt sich mit einer rekursiven Formel berechnen. PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))
51
Kapitel 3
Dabei ist: PR(A) – der PageRank der Seite. PR(Ti) – der PageRank der Seiten, von denen der Link auf die Seite zeigt. C(Ti) – die Gesamtzahl der Links auf der Seite Ti. d – ein Dämpfungsfaktor. Nun mag diese Formel auf den ersten Blick etwas abstrakt erscheinen. Sie lässt sich aber auch wunderbar verbal wiedergeben. 1. Jede Seite des WWW wird mit einem Startwert initialisiert. Der tatsächliche Startwert spielt dabei keine Rolle, da der Algorithmus immer konvergiert. Die Wahl des Startwerts hat allerdings Einfluss darauf, wie schnell eine gute Konvergenz erzielt wird. 2. Berechnet wird der PageRank, in dem der PageRank der Seiten der ausgehenden Links ermittelt und dieser durch die Anzahl der ausgehenden Links geteilt wird. 3. Aus dem PageRank der eingehenden Links wird der PageRank neu berechnet. 4. Diese Punkte werden ab Schritt 2 so oft wiederholt, bis der PageRank aller Seiten konvergiert beziehungsweise sich ausreichend angenähert hat.
Die iterative Berechnung des PageRanks Aufgrund der Größe des Webs sieht sich die Firma Google zur Anwendung eines iterativen Verfahrens für die Berechnung des PageRanks gezwungen. Dabei wird zunächst jeder Seite ein PageRank von 1 zugewiesen. Wobei die Höhe des Anfangswertes keinen Einfluss auf das Ergebnis hat, da dieses irgendwann konvergiert. Wie schnell, nach wie vielen Iterationen, es konvergiert, kann aber durchaus über einen gut gewählten Startwert beeinflusst werden. Anschließend wird der PageRank aller Seiten in mehreren Berechnungsrunden ermittelt. Wie eine solche näherungsweise Berechnung vonstatten geht, zeigt folgendes Beispiel, bei dem als Ausgangspunkt für den PageRank jeder Seite 1 angenommen wird. Iteration
PR(A)
PR(B)
0
1
1
1
1
1
0.75
1.125
2
1.0625
0.765625
1.1484375
3
1.07421875
0.76855469
1.15283203
4
1.07641602
0.76910400
1.15365601
Tabelle 3.2: Eine beispielhafte iterative Berechnung
52
PR(C)
So werden Suchergebnisse gewichtet
Iteration
PR(A)
PR(B)
PR(C)
5
1.07682800
0.76920700
1.15381050
6
1.07690525
0.76922631
1.15383947
7
1.07691973
0.76922993
1.15384490
8
1.07692245
0.76923061
1.15384592
9
1.07692296
0.76923074
1.15384611
10
1.07692305
0.76923076
1.15384615
11
1.07692307
0.76923077
1.15384615
12
1.07692308
0.76923077
1.15384615
Tabelle 3.2: Eine beispielhafte iterative Berechnung (Fortsetzung)
Dieses Beispiel zeigt, dass sich bereits nach sehr wenigen Iterationen eine sehr gute Näherung an die tatsächlichen Werte ergibt. Brin und Page geben für die PageRankBerechnung des gesamten Webs etwa 100 Iterationen als ausreichend an.
3.3.2 Faktoren, die auf den PageRank Einfluss haben Der PageRank wird durch die verschiedensten Faktoren beeinflusst. Lawrence Page hat in der Patentschrift für den PageRank die folgenden potenziellen Einflussfaktoren angegeben: Die Position des Links innerhalb eines Dokuments. Die Distanz zwischen den Webseiten. Die Stärke der Hervorhebung eines Links. Die Aktualität der verweisenden Seite. Die Bedeutung der verweisenden Seite. Ob all diese Faktoren in die aktuellen PageRank-Berechnungen von Google einfließen, lässt sich nicht kontrollieren. Denn verständlicherweise hütet Google dieses Geheimnis bestens. Neben diesen Aspekten fließen allerdings drei weitere wichtige Faktoren in den PageRank mit ein, die auf den folgenden Seiten genauer untersucht werden sollen.
Der Dämpfungsfaktor Den Random Surfer haben Sie bereits kennengelernt. Der folgt natürlich nicht jedem Link eines Dokuments, sondern ist nach einer gewissen Zeit gelangweilt und ruft daher eine beliebige andere Seite auf. Aus diesem Grund wird die Wahrscheinlichkeit, mit der ein Surfer ein neues Dokument aufruft, um einen bestimmten Faktor gedämpft. Dieser sogenannte Dämpfungsfaktor ist dann auch der Grund, warum der
53
Kapitel 3
PageRank nicht vollständig an ein Dokument weitergegeben wird, sondern sich auf die ausgehenden Links verteilt. In der Praxis wird oft von dem Dämpfungsfaktor 0,85 ausgegangen. Je höher der Wert, umso größer ist die Wahrscheinlichkeit, dass der Random Surfer die Links des Dokuments verfolgt und sich nicht gelangweilt abwendet.
Der Effekt eingehender Links Jeder eingehende Link erhöht den PageRank der Seite. In gewisser Weise repräsentieren diese Links die Meinung anderer Seitenbetreiber zur eigenen Seite. Denn normalerweise wird nur ein Link auf eine Seite gesetzt, wenn diese auf irgendeine Weise für den verweisenden Seitenbetreiber interessant oder relevant ist. Betrachtet man den ursprünglichen Algorithmus PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) ..., könnte man davon ausgehen, dass jeder eingehende Link den PageRank der aktuellen Seite um d × PR(X) / C(X) erhöht. Dabei ist PR(X) der PageRank der verlinkenden Seite und C(X) die Anzahl der ausgehenden Links. Allerdings kann eine Webseite, die einen zusätzlichen eingehenden Link erhält, selbst auch auf eine andere Seite verlinken. Diese Seite erhält dann ebenfalls einen höheren PageRank, den sie möglicherweise über Links an die Seite mit dem zusätzlichen eingehenden Link zurückgibt. Ein einfaches Beispiel soll den Effekt eingehender Links veranschaulichen:
Abbildung 3.4: Einige aneinandergereihte Dokumente
54
So werden Suchergebnisse gewichtet
Hier wird davon ausgegangen, dass es sich um eine Aneinanderreihung von Dokumenten handelt, die jeweils einen ausgehenden und, bis auf A, einen eingehenden Link besitzen. Ferner wird angenommen, dass der Dämpfungsfaktor 0,85 und der Startwert 1 beträgt. Der PageRank der jeweiligen Seiten lässt sich nun folgendermaßen berechnen: PR(A) = 0,15 PR(B) = 0,15 + 0,85 * PR(A) PR(C) = 0,15 + 0,85 * PR(B) PR(D) = 0,15 + 0,85 * PR(C) Als Ergebnis bekommt man die folgenden Werte: PR(A) 0,15 PR(B) 0,28 PR(C) 0,39 PR(D) 0,48 Eingehende Links erhöhen also den PageRank einer Seite. Demzufolge sollten Sie in Ihrem Webprojekt – wenn es hierarchisch aufgebaut ist – von den untergeordneten Seiten auf jeden Fall einen Link zur Startseite setzen. Neben einer hierarchischen Struktur gibt es auch Webseiten, die in Kreisform aufgebaut sind. Dabei besitzt jede Seite einen Link auf die nächste Seite. In diesem Fall wird der PageRank gleichmäßig auf alle Seiten verteilt.
Ausgehende Links Da eingehende Links Einfluss auf den PageRank einer Seite haben, kann angenommen werden, dass dasselbe auch für ausgehende Links gilt. Dieser Aspekt soll ebenfalls anhand eines Beispiels veranschaulicht werden. Beide Webseiten bestehen aus jeweils zwei Seiten, die untereinander verlinkt sind. Jedes der Dokumente startet mit einem PageRank von 1. Dokument C wird ein ausgehender Link hinzugefügt. Legt man einen Dämpfungsfaktor von 0,85 zugrunde, kann der PageRank für die einzelnen Seiten folgendermaßen berechnet werden: PR(A) = 0,15 + 0,85 * (PR(C) / 2 + PR(B)) PR(B) = 0,15 + 0,85 * PR(A) PR(C) = 0,15 + 0,85 * PR(D) PR(D) = 0,15 + 0,85 * (PR(C) / 2)
55
Kapitel 3
Abbildung 3.5: Zwei Webseiten, die untereinander verlinkt sind
Löst man diese Gleichungen auf, ergeben sich für die einzelnen Dokumente die folgenden Werte: PR(A) 1,66 PR(B) 1,56 PR(C) 0,43 PR(D) 0,33 Für beide Webseiten (Web 1 und Web 2) ergeben sich die folgenden PageRanks durch das Aufsummieren der Webseiten: PR(Webseite 1) 3,22 PR(Webseite 2) 0,76 Wie Sie sehen, ergibt die Summe aller Dokumente den aufsummierten PageRank aller Dokumente. In diesem Fall also 4. Das Hinzufügen von Links hat somit keinen Einfluss auf den aufsummierten PageRank des Webs. Zusätzlich ist zu erkennen, dass der gewonnene PageRank des verlinkten Dokuments exakt so groß sein muss, wie der PageRank-Verlust des verlinkenden Dokuments. Das Beispiel macht deutlich, dass das verlinkende Dokument deutlich an PageRank verliert. Auch dieser Effekt lässt sich wieder recht plausibel mit dem Verhalten des Random Surfers erklären. Denn mit jedem vorhandenen ausgehenden Link steigt die Wahrscheinlichkeit, dass der Besucher einem ausgehenden eher als einem internen Link folgt. Jeder ausgehende Link sorgt damit für ein Absinken des PageRanks der Seite. Um den PageRank der Seite hoch zu halten, könnte man nun natürlich davon ausgehen, dass man überhaupt keine ausgehenden Links definiert. Dieses Verhalten würde dann allerdings dem Hypertext-Prinzip des WWW entgegenstehen. Zudem
56
So werden Suchergebnisse gewichtet
besteht durchaus die Möglichkeit, dass ausgehende Links die Bewertung der Webseite durch Google an anderer Stelle positiv beeinflussen. Denn ohne Zweifel werten qualitativ gute ausgehende Links die eigene Webseite auf. Immer wieder kommt es zu dem Problem der sogenannten Dangling Links. Das sind Links, die auf Dokumente verweisen, die selbst keine ausgehenden Links besitzen. In diesen Fällen versickert der PageRank gewissermaßen an diesen Stellen. Meistens verweisen Dangling Links auf solche Dokumente, die noch nicht von Suchmaschinen indexiert wurden. Das kann natürlich ganz unterschiedliche Gründe haben. So könnte der Seitenbetreiber selbst über eine Datei robots.txt bestimmt haben, dass die Seite von Suchmaschinen nicht erfasst werden soll. Ebenso könnte es sich aber auch um ein Dokument handeln, das in einem nur schwer zu indexierenden Format vorliegt. Ein Grund kann aber auch darin liegen, dass Google Dokumenttypen wie PDF- und WordDateien indexiert, die oft keine ausgehenden Links enthalten. Diese Aspekte weisen darauf hin, dass es nicht negativ bewertet wird, wenn eine Seite keine ausgehenden Links besitzt. Dangling Links beeinflussen den PageRank demnach nicht direkt. Vielmehr werden sie aus dem Modell entfernt, bis der PageRank berechnet ist. Bei der Entfernung von Dangling Links handelt es sich um einen iterativen Vorgang, da dabei wieder neue Dangling Links entstehen können. Nach Ende der PageRank-Berechnung wird auch den Dangling Links ein PageRank zugewiesen. Dabei werden ebenso viele Iterationen wie beim Entfernen der Dangling Links benötigt. Beim Entfernen der Dangling Links kann es passieren, dass sich der PageRank auf andere ausgehende Links verteilt. Allerdings kann dieser Effekt getrost vernachlässigt werden, da er lediglich marginale Auswirkungen hat.
Die Auswirkungen der Anzahl der Seiten Der aufaddierte PageRank aller Seiten des Webs ist gleich der Anzahl der Webseiten. Daraus lässt sich direkt folgern, dass eine zusätzliche Seite den aufaddierten PageRank des Webs um 1 erhöht. Das ist logisch und wenig spektakulär. Viel interessanter ist es, welche Auswirkungen zusätzliche Seiten auf den PageRank einer ganz bestimmten Seite haben. Ein typisches Beispiel beantwortet diese Frage. Hier bilden die Seiten A, B und C ein Mini-Web, bei dem B und C die Unterseiten von A sind. Bei Dokument X handelt es sich um eine externe Webseite, bei der von einem PageRank von 10 ausgegangen wird und die auf A verweist. Legt man einen Dämpfungsfaktor von 0,85 zugrunde, ergeben sich die folgenden PageRank-Gleichungen: PR(A) = 0,15 + 0,85 * (10 + PR(B) + PR(C)) PR(B) = 0,15 + 0,85 * (PR(A) / 2) PR(C) = 0,15 + 0,85 * (PR(A) / 2)
57
Kapitel 3
Abbildung 3.6: Ein einfaches Mini-Web
Löst man diese Gleichungen auf, ergibt das für die einzelnen Dokumente die folgenden Werte: PR(A) 32,23 PR(B) 13,85 PR(C) 13,85 Im nächsten Schritt wird dem Mini-Web das Dokument D hinzugefügt. Auch hier zunächst die Gleichungen zum Berechnen des PageRanks: PR(A) = 0,15 + 0,85 * (10 + PR(B) + PR(C) + PR(D)) PR(B) = 0,15 + 0,85 * (PR(A) / 3) PR(C) = 0,15 + 0,85 * (PR(A) / 3) PR(D) = 0,15 + 0,85 * (PR(A) / 3) Aufgelöst ergeben die Gleichungen die folgenden Werte: PR(A) 32,43 PR(B) 9,35 PR(C) 9,35 PR(D) 9,35 Der aufaddierte PageRank aller Dokumente steigt durch das Hinzufügen von D um den Faktor 1. Ebenso steigt der PageRank von Dokument A, wenn auch nur äußerst gering. Der PageRank der beiden Dokumente B und C sinkt hingegen erheblich. Grund hierfür: Der PageRank von A verteilt sich jetzt auf drei Dokumente.
58
So werden Suchergebnisse gewichtet
Abbildung 3.7: Eine zusätzliche Seite ist hinzugekommen.
3.3.3 Den PageRank mit der Google-Toolbar ermitteln Die wohl einfachste und komfortabelste Möglichkeit, sich den PageRank seiner (oder einer konkurrierenden) Seite anzeigen zu lassen, ist die Verwendung der Google-Toolbar. Diese Browser-Erweiterung kann kostenlos über die Seite http://toolbar. google.de/ installiert werden. Derzeit lässt sich die Toolbar in Verbindung mit Mozilla Firefox und dem Internet Explorer verwenden.
Abbildung 3.8: So kann man sich ganz bequem den PageRank anzeigen lassen.
59
Kapitel 3
Nach der Installation stehen allerlei nützliche und weniger nützliche Optionen zur Verfügung. So kann man zum Beispiel die aktuelle Seite einer Rechtschreibprüfung unterziehen oder nach Nachrichtenartikeln suchen. All diese Funktionen sind selbsterklärend. Viel interessanter – zumindest aus Sicht dieses Buches – ist jedoch die Möglichkeit, sich den PageRank der gerade aufgerufenen Seite anzeigen zu lassen. Visualisiert wird der PageRank über eine Skala von 1 bis 10. Anders als gemeinhin angenommen, wird damit allerdings nicht der tatsächliche PageRank widergespiegelt. Ein in der Toolbar angezeigter Wert von 9 bedeutet demnach keinesfalls, dass die Seite einen PageRank von 9 hat. Google hält sich äußerst bedeckt damit, welche tatsächlichen Werte hinter der Anzeige der Toolbar stecken. Die folgende Tabelle enthält somit lediglich Schätzwerte, auf die man sich aber in diversen Foren und Diskussionen weitestgehend geeinigt hat. Und auch wenn die Zahlen nicht exakt stimmen (mögen): Ein guter Anhaltspunkt sind sie allemal. PageRank
Angezeigter PageRank
0,00000001 bis 5
1
6 bis 25
2
26 bis 125
3
126 bis 625
4
626 bis 3.125
5
3.126 bis 15.625
6
15.626 bis 78.125
7
78.126 bis 390.625
8
390.626 bis 1.953.125
9
ab 1.953.126
10
Tabelle 3.3: Angezeigte und tatsächliche PageRanks
Mittlerweile ist es ein offenes Geheimnis, dass der von der Toolbar angezeigte PageRank-Wert veraltet ist und nur sehr unregelmäßig aktualisiert wird. Hauptgrund dafür dürfte sicherlich sein, dass Google die zahllosen PageRank-Tools missfallen.
3.3.4 PageRank einkaufen Es dauert ziemlich lange, bis man auf legalem Weg einen annehmbaren PageRank erhält. Das gilt vor allem für solche Seiten, die nicht mit entsprechendem Content aufwarten können. Wer nicht so lange warten will, bis sich der PageRank auf natürliche Weise erhöht, der kann ihn einkaufen. Dabei kauft man natürlich nicht den PageRank direkt, sondern Links. Seitenbetreiber, von denen Sie diese sogenannten Backlinks erwerben, setzen einen Link auf Ihre Seiten, was dann den PageRank erhöht.
60
So werden Suchergebnisse gewichtet
!
!
!
ACHTUNG
Bevor Sie sich allerdings dieser Methode bedienen, sollten Sie sich über einen Punkt im Klaren sein: Google weiß in aller Regel sehr gut darüber Bescheid, welche Seiten PageRanks im großen Stil einkaufen, und straft diese möglicherweise ab.
Das Prinzip hinter dem PageRank-Kauf ist simpel. Denn der PageRank ist abhängig von Links. Und eben diese Links kann man kaufen oder mieten. Oft wird beim Einkaufen von diesen sogenannten Backlinks ausschließlich auf den PageRank der betreffenden Seite geachtet. Darüber hinaus gibt es aber noch andere wichtige Faktoren zu beachten: Platzierung – Viele Anbieter verkaufen Links, die auf jeder Unterseite an der gleichen Stelle (oft im Footer) erscheinen. Solche Links werden von Suchmaschinen meistens recht schnell erkannt und fließen in die Berechnung des PageRanks nicht mit ein. Sprache – Wer eine deutschsprachige Webseite betreibt, sollte normalerweise nur deutschsprachige Backlinks einkaufen. Denn natürlich wissen die SuchmaschinenBetreiber, dass die Wahrscheinlichkeit, dass eine englische auf eine deutsche Seite verweist, relativ gering ist. PageRank-Vererbung – Bemerkt Google, dass eine Webseite massenhaft Links verkauft, vererbt diese Seite keinen PageRank mehr. Ob eine Seite bereits auf diese Weise abgestraft wurde, kann man überprüfen. Dazu kontrolliert man, ob Seiten, die seit längerer Zeit einen Link von der entsprechenden Seite haben, bereits einen PageRank besitzen. Ist dieser lediglich um 1 oder 2 Punkte niedriger als der der linkgebundenen Seite, ist die Seite aus PageRank-Sicht wertlos. Ist das nicht der Fall, sollten Sie den Link von dort nicht kaufen. Es gibt verschiedene Anbieter, bei denen Sie Links kaufen und verkaufen13 können. Eine der auf dem deutschen Markt bekanntesten Plattformen ist LinkLift (http:// www.linklift.de/). Die bei LinkLift angebotenen Links sind thematisch geordnet und können wie in einem Online-Shop eingekauft werden. Die Preise für Backlinks variieren natürlich sehr stark. So bekommen Sie Backlinks zum Beispiel schon für 5 Euro. Je nach Thema und Qualität der Seite kann man aber durchaus schon einmal mehrere Hundert Euro investieren.
13 Der Verkauf von Links kann natürlich auch eine Option sein, schließlich ist auch das eine mögliche neue Einnahmequelle.
61
Kapitel 3
Abbildung 3.9: Hier können Sie Backlinks kaufen und verkaufen.
Nun ist LinkLift natürlich längst nicht der einzige Anbieter. http://www.text-link-ads.com/ – Wer Links von englischsprachigen Seiten einkaufen möchte, wird hier fündig. (Bitte beachten Sie die vorherigen Hinweise, dass Sie mit englischen Backlinks vorsichtig umgehen sollten.) http://www.teliad.de/ – Auf dieser Webseite werden Textlinks angeboten. Aufgenommen werden nur Seiten mit einem PageRank ab 3. Auch hier sind die Angebote thematisch geordnet und die Links lassen sich ganz einfach buchen.
!
!
!
ACHTUNG
Bleibt das Einkaufen von Links in einem annehmbaren Rahmen, ist dagegen sicherlich nichts einzuwenden. Unbedingt ist aber darauf zu achten, dass man sich damit trotzdem noch in solchen Gefilden bewegt, dass die Suchmaschinen nicht misstrauisch werden. Wer ausschließlich auf gekaufte Backlinks setzt, wird schnell auffliegen und möglicherweise abgestraft.
3.4 Klickpopularität – oft angeklickt = gute Seite? Die bisher gezeigten Rankingverfahren werden automatisch auf Seiten der Suchmaschinen-Software ausgeführt. Über die Klickpopularität wird hingegen der Benutzer aktiv in das Rankingverfahren mit einbezogen. Nicht mehr der Algorithmus der Such-
62
So werden Suchergebnisse gewichtet
maschine hat Vorrang, sondern es wird hauptsächlich das Verhalten des Benutzers ausgewertet. Bei der Klickpopularität wertet die Suchmaschine zunächst einmal aus, wie lange ein Benutzer auf der Zielwebseite verweilt, bis er zur Trefferliste zurückkehrt. Sieht er sich die Seite nur kurz an, geht die Suchmaschine davon aus, dass die Seite für das Suchwort nicht relevant ist, und setzt deren Relevanz herunter.
> >
>
HINWEIS
Das Prinzip klingt gut, hat aber bei genauerer Betrachtung deutliche Schwächen. Denn der menschliche Benutzer verhält sich eben nicht immer so logisch, wie es Suchmaschinen gerne hätten. So ist es Ihnen sicherlich auch schon passiert, dass Sie auf eine Seite gekommen sind, die zwar nicht Ihre Erwartungen hinsichtlich des eingegebenen Suchbegriffs erfüllt hat, auf der Sie aber trotzdem lange gelesen haben, weil Sie sie aus anderen Gründen interessant fanden. Die Suchmaschine würde dieser Seite, auch wenn sie nicht zu dem eigentlichen Thema passt, gut bewerten. Das Problem der Klickpopularität liegt damit auf der Hand: Das Verhalten jedes Benutzers wird nach dem gleichen Prinzip bewertet.
Viele Suchmaschinen wie Yahoo! und Lycos haben das Click-Popularity-Verfahren in den letzten Jahren eingesetzt, sind aber weitestgehend wieder davon abgerückt. Google hielt von Anfang an nichts von diesem Verfahren und ließ es überhaupt nicht mit in die Bewertung der Suchtreffer einfließen.
3.5 Clustering (Googles »Ähnliche Seiten«-Funktion) Die letzte der hier vorgestellten Rankingmethoden steht nicht umsonst an letzter Stelle. Der Grund dafür ist, dass sich das Clustering-Verfahren von den übrigen Rankingmethoden grundsätzlich unterscheidet. Am besten lässt sich Clustering anhand eines Beispiels erklären. Gibt man bei Google den Suchbegriff Addison-Wesley ein, wird zunächst die ganz normale Trefferliste angezeigt. Die Ergebnisse weisen keine Besonderheiten auf. So weit, so unspektakulär. Interessant ist allerdings der zu jedem Treffer angezeigte Link Ähnliche Seiten. Klickt man diesen an, kann man sich den Cluster zu dem betreffenden Eintrag anzeigen lassen. Im Fall des Suchbegriffs Addison-Wesley sind das andere Verlage. Wie aber kommt Google darauf, dass Seiten von Hanser, Markt und Technik und O’Reilly Ähnlichkeit mit den Addison-Wesley-Seiten haben? Google ordnet alle auf die Suchanfrage Addison-Wesley gefundenen Seiten in Dokumentgruppen, die einander ähnlich sind. Welche Seite in welche Gruppe kommt, wird anhand einer Ähnlichkeitsberechnung ermittelt. Bei der werden die Eigenschaften und Inhalte der Dokumente miteinander verglichen. Alle Dokumente, die in hohem Maße ähnlich sind, befinden sich nach der Analyse in einem Cluster. Bei Google basiert die Clusterbildung auf der Linkstruktur. Dabei wird die ausgewählte Seite zusammen mit den auf sie verweisenden Seiten in einem Cluster gesammelt. Dokumente können dabei in unterschiedlichen Clustern liegen.
63
Kapitel 3
Abbildung 3.10: Bei dieser Suchanfrage war nichts anderes zu erwarten.
Abbildung 3.11: Diese Seiten, findet Google, sind denen von Addison Wesley ähnlich.
Nun ist Google längst nicht die einzige Suchmaschine, die das Cluster-Verfahren einsetzt. Und während bei Google das Clustering eine eher untergeordnete Rolle spielt, ist es bei der Suchmaschine Clusty (http://www.clusty.com/) das zentrale Werkzeug.
64
So werden Suchergebnisse gewichtet
Abbildung 3.12: Eine spezielle Cluster-Suchmaschine
Clusty bietet drei Typen von Clustern: Topics (Themen), Sources (Quellen) und URLs. Die interessanteste und mit Abstand am schwierigsten zu implementierende Variante ist dabei die thematische Clusterbildung. Andere Suchmaschinen wie Google geben zwar vor, diese Technik zu beherrschen, dem ist aber meistens nicht so. So heißt bei Google der Cluster-Link zwar Ähnliche Seiten, allerdings werden darüber keine thematisch ähnlichen Seiten angezeigt. Bei Clusty werden allerdings auch die Nachteile einer thematischen Clusterung deutlich. Tauchen in den Zieldokumenten sehr oft Akronyme anstelle der ausgeschriebenen Begriffe auf, verwendet Clusty das Akronym auch für die Cluster-Bezeichnung. Das ist vor allem für diejenigen Benutzer ein Problem, die sich im thematischen Umfeld des eingegebenen Suchbegriffs nicht auskennen. Oft werden auch zu allgemeine Begriffe verwendet. So taucht bei der Eingabe des Suchbegriffs Addison-Wesley beispielsweise der Cluster ISBN, Smalltalk auf. Der ist im Allgemeinen nur wenig hilfreich. Um das zu verhindern, müssten umfangreiche Stoppwortlisten in den unterschiedlichsten Sprachen angelegt werden. Für die Suchmaschinen-Betreiber bedeutet das natürlich einen enormen Aufwand.
65
4
Schlüsselwörter finden und einsetzen Alle großen Dinge sind einfach und viele können mit einem einzigen Wort ausgedrückt werden: Freiheit, Gerechtigkeit, Ehre, Pflicht, Gnade, Hoffnung.
Winston Churchill
In den vorherigen Kapiteln haben Sie die Funktionsweise von Suchmaschinen kennengelernt. In diesem Kapitel geht es nun darum, wie Sie geeignete Schlüsselwörter finden, die Ihre Seiten bestmöglich beschreiben. Denn eine Webseite kann noch so gut auf Suchmaschinen ausgerichtet sein, ohne die passenden Schlüsselwörter wird man mit ihr keinen Erfolg haben. Und die richtigen Schlüsselwörter sind die, nach denen die potenziellen Besucher suchen. Dieser Aspekt wird bei der Suchmaschinen-Optimierung leider allzu oft vernachlässigt. Und so passiert es, dass handwerklich gut gemachte Seiten in der Bedeutungslosigkeit verharren und der erhoffte Besucheransturm ausbleibt.
4.1 Schlüsselwörter finden Im Zusammenhang mit der Arbeitsweise von Suchmaschinen ist immer wieder der Begriff Relevanz gefallen. Dabei wurde deutlich, dass Suchmaschinen die Suchtreffer nach der größten Relevanz ordnen. Relevanz ist aber auch bei der Wahl der richtigen Schlüsselwörter von entscheidender Bedeutung. Das folgende Beispiel soll Ihnen zeigen, wie wichtig der Einsatz relevanter Schlüsselwörter ist. Stellen
Kapitel 4
Sie sich vor, eine Malerfirma hätte ihre neuen Seiten auf den Begriff Farbe hin optimiert. Das wirkt auf den ersten Blick plausibel. Denn schließlich arbeitet ein Maler mit Farbe. Die Seite ist so gut optimiert, dass sie in den wichtigsten Suchmaschinen auf den vorderen Plätzen für diesen Suchbegriff auftaucht. Das freut die Malerfirma. Nach anfänglicher Freude stellt sich aber schnell heraus, dass trotz dieser Top-Platzierungen keine Kunden über die Webseite akquiriert werden können. Das liegt an der Missachtung der avisierten Zielgruppe. Denn wer einen Maler engagieren will, der sucht eben nicht nach Farbe, sondern zum Beispiel nach Tapezieren oder Malermeister Müller.
> >
>
HINWEIS
Bei der Wahl der Schlüsselwörter müssen Sie sich in das Suchverhalten der Zielgruppe hineinversetzen. Denn eine Seite, die auf falsche Schlüsselwörter hin optimiert wird, bringt überhaupt nichts. Richtige Schlüsselwörter beziehungsweise Keywords zu finden, wird von vielen Seitenbetreibern als nebensächlich oder einfach erachtet. Dabei ist das einer der Kernpunkte für den Erfolg oder Nichterfolg einer Webseite. Problematisch ist vor allem das allseits bekannte Phänomen der Betriebsblindheit. Wer sich in dem Gebiet, für das die Webseite entwickelt wurde, besonders gut auskennt, der verheddert sich leicht in Fachbegriffen und verliert die Zielgruppe aus den Augen. Wie Sie trotz aller Schwierigkeiten an die richtigen Schlüsselwörter kommen, zeigen die folgenden Seiten.
4.1.1 Konkurrenzanalyse Interessant ist die Frage, welche Schlüsselwörter die direkten Mitkonkurrenten auf ihren Seiten verwenden. Diebstahl ist keine Inspiration Auf keinen Fall sollten Sie die Keyword- oder Description-Metatags von Konkurrenten in Ihre Seiten einbauen. Denn zumindest laut dem Urteil eines US-Gerichts ist das strafbar. Und auch wenn US-amerikanische Richtersprüche keine direkten Auswirkungen auf die deutsche Justiz haben, ist davon auszugehen, dass auch hierzulande bei einem Keyword-Diebstahl ähnlich geurteilt wird. Deswegen gilt die Maxime: Lassen Sie sich von den Keywords Ihrer Mitbewerber inspirieren, kopieren Sie aber auf keinen Fall deren Schlüsselwörter.
In einem ersten Schritt lassen Sie sich die Seiten Ihrer Konkurrenten über die relevanten Suchmaschinen anzeigen. Interessant sind dabei nur solche Seiten, die vor der Ihren platziert sind. Lesen Sie sich die Texte dieser Seiten durch, überprüfen Sie die Schreibweise und die Keyword-Dichte. Nachdem Sie einen ersten Eindruck gewonnen haben, geht es an die echte Keyword-Analyse. Dazu stehen zahlreiche kostenlose Online-Tools zur Verfügung. Eines der besseren davon ist unter http://www.abakusinternet-marketing.de/tools/topword.html zu finden. Nachdem Sie dort die Adresse der zu analysierenden Seite eingegeben und auf Analyse geklickt haben, wird die Seite ausgewertet und das Ergebnis übersichtlich angezeigt.
68
Schlüsselwörter finden und einsetzen
Abbildung 4.1: So können Sie die eingesetzten Schlüsselwörter ermitteln.
Kontrollieren Sie anhand dieses Ergebnisses, welche Keywords auf den Konkurrenzseiten verwendet werden und passen Sie Ihre eigene Keyword-Liste entsprechend an.
4.1.2 Mit Keyword-Datenbanken effektiv arbeiten Eines der effektivsten Mittel zur Gewinnung von Schlüsselwörtern sind Keyword-Datenbanken. Diese im Internet oft kostenlos zu findenden Datenbanken helfen Ihnen dabei, das monatliche Suchvolumen für bestimmte Suchbegriffe realistisch einzuschätzen. Auf Basis dieser Ergebnisse kann in einem sehr frühen Stadium geprüft werden, ob sich eine Optimierung der Seite auf die geplanten Suchbegriffe hin überhaupt lohnt. Und noch einen netten Nebeneffekt gibt es: Sie werden schnell merken, dass solche Datenbanken Suchbegriffe hervorzaubern, an die man selbst überhaupt nicht gedacht hätte. Bei der Keyword-Datenbank von MIVA (https://account.de.miva.com/advertiser/ Account/Popups/KeywordGenBox.asp) trägt man zunächst den Suchbegriff ein. Die Datenbank liefert daraufhin eine Liste von Suchanfragen, die diesen Begriff enthielten. Interessant ist vor allem, dass auch solche Suchanfragen angezeigt werden, in denen der Begriff nur als Wortbestandteil vorkommt. Gibt man zum Beispiel reise ein, erscheinen auch reisefieber und pauschalreisen. Die reale Suchhäufigkeit ist übrigens deutlich höher, als es auf den ersten Blick scheinen mag. Denn berücksichtigt werden nur die Suchmaschinen, die MIVA beobachtet. Bei der Keyword-Analyse sollte man auch auf den Marktführer unter den Suchmaschinen zurückgreifen. Google bietet unter https://adwords.google.de/select/ Keyword-
69
Kapitel 4
ToolExternal ebenfalls ein kostenloses Online-Tool an. Bei AdWords werden nach der Eingabe des Keywords nicht nur alternative Suchbegriffe angezeigt, zusätzlich erhält man einen Überblick des tatsächlichen Suchvolumens und der Mitbewerberdichte. Die Suchhäufigkeit der einzelnen Begriffe wird leider nicht angezeigt. Lediglich kleine Balken signalisieren, ob ein Begriff oft oder selten verwendet wurde.
Abbildung 4.2: Es werden nicht nur alternative Keywords angezeigt. Zusätzlich kann man das allgemeine Suchvolumen ablesen.
Trotz dieser Einschränkung ist die Datenbank äußerst hilfreich, schließlich kann man mit ihr Suchanfragen finden, die den eingegebenen Begriff nicht enthalten, möglicherweise aber dennoch interessant sind. Zusätzlich hat man die Möglichkeit, die generierte Keyword-Liste als TXT- oder CSV-Datei herunterzuladen. Das spart Tipparbeit. Auch der andere große Placement-Anbieter Yahoo! Search Marketing (ehemals Overture) bietet ein kostenloses Online-Keyword-Tool. Aufrufen kann man es über den Link Suchbegriffe finden auf der Seite http://searchmarketing.yahoo.com/de_DE/rc/ srch/prod.php.
70
Schlüsselwörter finden und einsetzen
Abbildung 4.3: Keyword-Alternativen direkt aus der Google-Datenbank
Abbildung 4.4: Das Tool von Yahoo! Search Marketing ist ebenfalls äußerst hilfreich.
71
Kapitel 4
Die Bedienung des Tools ist simpel. Nachdem man den entsprechenden Begriff eingetragen und die Suche ausgelöst hat, wird eine Liste möglicher Schlüsselwörter generiert. Durch Anklicken der einzelnen Keywords in der Trefferliste kann man eine erneute Suche auslösen und sich auf diese Weise weitere alternative Schlüsselbegriffe anzeigen lassen. Interessant sind vor allem die Werte in der Spalte Anzahl. Hierüber lässt sich die Suchhäufigkeit der Keywords pro Monat ablesen, was vor allem für eine Analyse der möglichen Kosten, die auf Sie aufgrund bezahlter Sucheinträge zukommen, hilfreich ist. Selbstverständlich sollte man sich nicht ausschließlich auf diese oder ähnliche OnlineTools verlassen. Die Erfahrung zeigt aber, dass auf diese Weise immer wieder Suchbegriffe auftauchen, die einem vorher beim besten Willen nicht einfallen wollten. Englische Suchbegriffe finden Wer seine Webseite für den englischsprachigen Markt optimieren will und daher auf der Suche nach englischen Keywords ist, der wird unter http://www.wordtracker.com/ fündig. Billig ist dieser Service mit 140 bzw. 274 US-Dollar allerdings nicht.
4.1.3 Schlüsselwörter im richtigen Leben finden Bei der Wahl der richtigen Schlüsselwörter, sollten Sie sich nicht allein auf technische Helferlein verlassen. Auch im »echten Leben« gibt es ausreichend Hilfestellungen, die bei der Keyword-Suche helfen können. Zunächst sollten Prospekte beziehungsweise Werbe-Flyer studiert werden. Das können die aus dem eigenen Unternehmen ebenso wie die konkurrierender Firmen sein. Schreiben Sie alle Wörter heraus, die nicht zum Grundwortschatz gehören und die als Schlüsselwörter infrage kommen. Wichtig ist die Verwertung öffentlich zugänglicher Quellen vor allem deswegen, weil Suchende vorgegebene Suchbegriffe nur selten variieren. Wer hundertmal in Prospekten einen bestimmten Begriff gelesen hat, der wird diesen auch bei seiner Online-Recherche verwenden. Prospekte sind natürlich nur eine Möglichkeit. Hier eine Liste weiterer alternativer Keyword-Quellen: Werbung und Anzeigen in Zeitschriften Mitarbeiterbefragungen Pressemitteilungen Messekataloge Gelbe Seiten Fachbücher
72
Schlüsselwörter finden und einsetzen
Diese Liste ließe sich beliebig fortsetzen, macht aber auch in ihrer Kürze eines deutlich: Auf gute Schlüsselwörter kann man überall stoßen. Selbst ein zwangloses Gespräch in der Familie oder im Freundeskreis kann die zündende Idee liefern.
4.2 Suchbegriffe ordnen und bewerten Nachdem Sie eine Liste möglicher Suchbegriffe zusammengetragen haben, gilt es nun, diese Liste zu bereinigen. Am besten funktioniert das anhand einer Tabelle, die man im Idealfall in einer Tabellenkalkulation wie Calc oder Excel anlegt. Diese Tabelle sollte die folgenden Spalten enthalten: Eigendefinition – Tragen Sie hier die Schlüsselwörter und Phrasen ein, mit denen das Webprojekt am treffendsten beschrieben werden kann. Sortieren Sie diese Liste nach Ihren eigenen Prioritäten. Fremddefinition – Überlegen Sie, wie die anvisierte Zielgruppe das Webprojekt beschreiben und vermutlich danach suchen würde. Popularität – Überprüfen Sie, wie populär die einzelnen Suchbegriffe und Phrasen sind. Das gelingt am besten über die Keyword-Tools der Suchmaschinen. Bei denen wird zu jedem Keyword das entsprechende Suchaufkommen angezeigt. Konkurrenzanalyse – Geben Sie den Suchbegriff in die betreffende Suchmaschine ein und überprüfen Sie, wie viele Seiten in den Ergebnislisten erscheinen. KEI – Aus der Suchhäufigkeit (Popularität) und der Treffermenge (Konkurrenzanalyse) wird der Keyword Efficiency Index (KEI) ermittelt. Hier muss man nicht streng mathematisch vorgehen. Eine einfache Sicht-Analyse tut es auch. Am Ende sollten Sie eine Tabelle vor sich haben, in der etwas 20 bis 30 Keywords stehen, die nach ihrer Relevanz sortiert sind. Die ermittelten Schlüsselwörter dienen als Ausgangspunkt für die weitere Optimierung der Seiten.
4.3 Eigenschaften der Schlüsselwörter Nachdem Sie die passenden Schlüsselwörter für Ihre Seite gefunden haben, müssen diese natürlich korrekt integriert werden. Denn bekanntermaßen wird im richtigen Leben zwischen Groß- und Kleinschreibung, Ein- und Mehrzahl sowie zwischen Getrennt- und Zusammenschreibung unterschieden. Die folgenden Abschnitte zeigen, was bei den Schlüsselwörtern zu beachten ist.
73
Kapitel 4
Unterschied zwischen Groß- und Kleinschreibung Mittlerweile gibt es kaum noch Suchmaschinen, die zwischen Groß- und Kleinschreibung unterscheiden. Aus Sicht einer Suchmaschine ist das Notebook auch ein notebook. Die meisten Suchmaschinen verarbeiten die Suchbegriffe konstant in Kleinschreibung. Es spielt also keine Rolle, ob die Schlüsselwörter groß- oder kleingeschrieben werden.
Einzahl oder Mehrzahl Suchmaschinen unterscheiden im Allgemeinen zwischen Wörtern im Singular und Wörtern im Plural. Demnach ist es durchaus ein Unterschied, ob ein potenzieller Kunde nach T-Shirt oder T-Shirts sucht. Beide Wörter sind für Suchmaschinen normalerweise zwei unterschiedliche Begriffe. Demzufolge müssen Sie dafür sorgen, dass beide Varianten auf der Webseite vorkommen. Eine Aussage, ob Benutzer von Suchmaschinen vermehrt nach Plural oder Singular suchen, lässt sich pauschal leider nicht treffen. Hier muss im Einzelfall entschieden werden. Allerdings gibt es durchaus Begriffe, die häufiger im Plural verwendet werden. Solarzellen Bücher Uhren Ebenso existierten zahlreiche Wörter, nach denen oft in der Einzahl gesucht wird. Laptop Hotel Telefon Natürlich handelt es sich hier nur um Erfahrungswerte und vielleicht suchen gerade Sie nicht nach dem Hotel, sondern immer nach den Hotels. Das sogenannte Stemming wird derzeit von Suchmaschinen kaum genutzt. Dabei wird versucht, die Pluralform eines Begriffs auf seinen Stamm zurückzuführen. Auf diese Weise sollen Substantivformen im Singular gefunden werden. Dass Stemming aber durchaus funktioniert, zeigen die Suchergebnisse bei den bezahlten Links von Yahoo!. Für die Suchmaschinen-Betreiber hat das Stemming den Vorteil, dass die Zahl relevanter Treffer maximiert, die Suche beschleunigt und der benötigte Speicherplatz reduziert wird. Derzeit wird Stemming vor allem im englischen Sprachraum genutzt. In deutschen Suchmaschinen findet es hingegen kaum statt.
74
Schlüsselwörter finden und einsetzen
Abbildung 4.5: Yahoo! setzt das Stemming bei den Sponsoren-Links ein.
> >
>
HINWEIS
Ohnehin gehen die Suchmaschinen mit größter Vorsicht an das Thema Stemming heran. Enthält ein Wort seinen Stamm, wird es tatsächlich dem Stamm zugerechnet, umgekehrt gilt das allerdings nicht. Eine Seite auf der T-Shirts steht, wird normalerweise auch bei dem Suchbegriff T-Shirt angezeigt, umgekehrt aber nicht.
Getrennt oder zusammen Auch hier unterscheiden Suchmaschinen. Der Pommeranzer Seopard ist etwas anderes als der Pommeranzerseopard. Die Erfahrung hat gezeigt, dass man normalerweise immer auf getrennt geschriebene Wörter zurückgreifen sollte. Denn die meisten Nutzer von Suchmaschinen geben die Suchbegriffe im Zweifelsfall getrennt ein.
Wortkombinationen und Wortnähe Die meisten Benutzer von Suchmaschinen geben nicht nur ein Schlüsselwort ein, sondern suchen nach Wortkombinationen. Die folgende Tabelle zeigt, auf wie viele Suchbegriffe sich die Anfragen aufteilen: Anzahl der Suchbegriffe
Anteil (gerundet)
1
40 %
2
34 %
3
16 %
Tabelle 4.1: Die Mehrheit sucht nach mehr als einem Begriff.
75
Kapitel 4
Anzahl der Suchbegriffe
Anteil (gerundet)
4
6%
5
2%
>5
1%
Tabelle 4.1: Die Mehrheit sucht nach mehr als einem Begriff. (Fortsetzung)
Wortkombinationen bieten enorme Möglichkeiten. Denn während die Chance, durch einzelne Begriffe eine Top-Platzierung zu erreichen, vergleichsweise gering ist, kann man mit einer Kombination aus zwei oder drei Begriffen erstaunliche Erfolge erzielen. Bei der Definition von Wortkombinationen ist unbedingt auf die richtige Reihenfolge zu achten. (Ausführliche Informationen dazu erhalten Sie auch im nächsten Abschnitt.) TIPP
Welche Wörter für die Wortkombination am besten geeignet sind, können Sie anhand Ihrer eigenen Suchtechnik herausfinden. Vielleicht gehören Sie auch zu denjenigen, die zunächst nur einen Suchbegriff eingeben. Sind die Suchergebnisse dann zu umfangreich und nicht befriedigend, tragen viele Anwender hinter dem ersten einen zweiten Suchbegriff ein. Versuchen Sie, die Wortkombinationen in dieser Reihenfolge zu gestalten. Als erstes Schlüsselwort sollte immer das für die Seite wichtigste auftauchen.
Nun ist es nicht immer möglich, Schlüsselwörter direkt aufeinanderfolgen zu lassen. Das muss aber auch nicht sein. Aus hotel berlin kann man auf der Webseite unser hotel in berlin machen. Es können durchaus andere Wörter zwischen den Schlüsselbegriffen stehen. Allerdings ist darauf zu achten, dass der Abstand nicht zu groß ist und nicht zu viele andere Wörter zwischen den Schlüsselwörtern stehen. Die folgende Abbildung zeigt, dass Yahoo! tatsächlich mit dem Prinzip der Wortnähe umgehen kann und entsprechende Ergebnisse liefert:
Links- oder rechtsrum Suchmaschinen liefern durchaus unterschiedliche Suchergebnisse, wenn man einmal hotel berlin und einmal berlin hotel eingibt. In welcher Reihenfolge Sie die Schlüsselwörter notieren, muss im Einzelfall entschieden werden. Am besten verwenden Sie beide Varianten.
76
Schlüsselwörter finden und einsetzen
Abbildung 4.6: Yahoo! versteht das Prinzip der Wortnähe.
Sonderzeichen Beim Einsatz von Sonderzeichen gibt es immer wieder Schwierigkeiten. Zunächst einmal stellt sich die Frage, was im Web überhaupt ein Sonderzeichen ist. Hierzu zählen unter anderem Klammern, Bindestriche, Unterstriche und Punkte. Andere Sonderzeichen, die hauptsächlich im Programmierumfeld eingesetzt werden, kommen bei einer normalen Keyword-Definition kaum vor. Trifft eine Suchmaschine auf ein Wort, das Sonderzeichen enthält, werden diese herausgefiltert. Was dabei genau gefiltert wird, hängt letztendlich von der jeweiligen Suchmaschine ab. Bedenken Sie das bei der Suche nach Schlüsselwörtern. Ein typisches Beispiel für Sonderzeichen ist das Wort E-Mail. Korrekt wird es mit einem Bindestrich geschrieben. Gibt man nun aber zum Beispiel dieses Wort bei Yahoo! ein, werden interessante Treffer angeboten. Hier eine kleine Auswahl: E Mail E – Mail e- mail [e]mail E-Mail e.Mail Der Suchmaschine Yahoo! sind die Sonderzeichen in den Schlüsselwörtern weitestgehend egal. Die Suche nach dem korrekt geschriebenen Begriff E-Mail fördert solche Stilblüten wie [e]mail zutage. Für Sie bedeutet das, dass Sie keinesfalls auf Sonderzeichen verzichten müssen.
77
Kapitel 4
Ebenfalls in die Kategorie Sonderzeichen fallen Umlaute. Machen Sie doch einmal die Probe aufs Exempel und geben Sie in Yahoo! als Suchbegriff das ä ein.
Abbildung 4.7: Mit Umlauten hat Yahoo! keine Probleme.
Die Abbildung zeigt, dass Yahoo! das ä wie ein ae behandelt. Und genauso verfahren auch viele andere Suchmaschinen-Betreiber. Aus ü wird ue, aus ö wird oe und so weiter. Sie können also durchaus Umlaute verwenden. Aus Sicht der Suchmaschine ist das völlig in Ordnung und hat keinen negativen Einfluss auf das Ranking der Seite. Einige Suchmaschinen wie Yahoo! reagieren übrigens allergisch auf das &-Zeichen. Dort wo es möglich ist, sollte es durch das Wort und ersetzt werden. HTML-Entities Immer wieder wird darauf hingewiesen, dass man Umlaute mit ihren entsprechenden HTML-Entities ersetzen sollte. Anstelle von ä solle man also ä notieren. Das ist sicherlich korrektes HTML, nötig ist dieser Aufwand allerdings nicht. Es genügt, wenn Sie im -Bereich der Seite das Metatag zur Angabe der Zeichencodierung <meta http-equiv=»content-type« content=»text/html; charset=ISO-8859-1« /> notieren. Auf so ausgezeichneten Webseiten können Umlaute ganz normal eingetragen werden. Moderne und die meisten älteren Browser können die Datei dann korrekt verarbeiten.
Stoppwörter Es gibt Wörter im Text, die zwar oft vorkommen, die von Suchmaschinen allerdings anders als normale Schlüsselwörter gewertet werden. Bei diesen sogenannten Stoppwörtern handelt es sich unter anderem um Artikel (der, die, das, ein, eine, eines), Präposi-
78
Schlüsselwörter finden und einsetzen
tionen (in, unter, auf), Pronomen (ich, du, er, sie, es) und Adverben (hier, dort, da). Normalerweise wird nach Formulierungen ohne Stoppwort gesucht. Noch vor gar nicht allzu langer Zeit ignorierten die meisten Suchmaschinen solche Stoppwörter. Mittlerweile hat sich das allerdings geändert. So liefert die Suche nach hotel in berlin andere Suchergebnisse als hotel berlin. Es kann also durchaus sinnvoll sein, Stoppwörter zu verwenden.
Alte oder neue Rechtschreibung Schwierig ist auch die Frage, ob die alte oder neue Rechtschreibung berücksichtigt werden soll. Sucht der potenzielle Besucher nach Delfin oder Delphin? Auch hier lässt sich nicht vorhersagen, was für Suchbegriffe eingegeben werden. Zudem verwenden viele Suchmaschinen kein Wörterbuch, sodass Begriffe nach neuer Rechtschreibung andere Suchergebnisse liefern als solche, die sich noch an der alten Rechtschreibregel orientieren. Einer dieser Vertreter ist zum Beispiel Yahoo!. Anders sieht es bei Google aus. Gibt man dort Delfin ein, werden auch Seiten mit Delphin gefunden.
Abbildung 4.8: Die Schreibweise der Suchbegriffe kann variieren.
Allerdings macht Google leichte Unterschiede in den Rangpositionen, je nachdem, ob nach Delfin oder Delphin gesucht wurde.
79
Kapitel 4
Welche Schreibweise Sie verwenden, hängt sicherlich vom Einzelfall ab. Normalerweise sollten Sie sich aber an die neue deutsche Rechtschreibung halten. Und vor allem, wenn Sie sich für eine Schreibweise entschieden haben, diese dann auch konsequent beibehalten.
Regionale Sprachunterschiede Ist es das Brötchen oder die Semmel? Suchen Leute eher nach dem Knüstchen, Kanten, Knörzel oder Scherzl?14 Auch hier fällt die Wahl nicht leicht. Stellen Sie sich die Frage, ob Ihre Seite einen regionalen Bezug hat. Wer zum Beispiel eine Seite für eine Bäckerei in Berlin betreibt, der sollte den Begriff Brötchen verwenden. Anders würde es bei einer bayerischen Bäckerei aussehen. Dort notiert man als Schlüsselwort besser Semmel. Hat die Seite keinen regionalen Bezug, sollte man auf Begriffe aus dem Hochdeutschen zurückgreifen.
Fach- oder Laienbegriff Beschäftigt man sich mit einem Thema sehr lange, wird man schnell »betriebsblind«. Oft wirft man dann mit Fachbegriffen nur so um sich und denkt, dass sie jeder versteht. Dem ist allerdings nicht so. Verwenden Sie weitestgehend Begriffe, nach denen potenzielle Besucher auch tatsächlich suchen würden, beziehungsweise die diese auch wirklich kennen. TIPP
Wer zum Beispiel eine Webseite für eine kleine Werbeagentur entwickelt, der sollte auch an Malermeister Müller denken, der eben nicht unbedingt nach virales Marketing, Public Relations oder Guerilla-Marketing sucht, sondern Begriffe wie Werbung, Broschüren und Visitenkarten eingibt. Überall dort, wo Laien angesprochen werden, sollte man auch Laienbegriffe verwenden. Andererseits gilt es natürlich im professionellen Umfeld, auch professionelle Keywords zu verwenden.
4.3.1 Rechtschreibfehler einbauen Gibt man bei Google das Wort Östereich ein, bekommt man immerhin 1.170.000 Treffer angezeigt. Nun ist das für Google-Verhältnisse ein normaler Wert. Führt man sich allerdings vor Augen, dass es nicht Östereich, sondern Österreich heißen muss, ist die Zahl enorm. Auf 1.170.000 Dokumenten wussten die Leute nicht, wie Österreich geschrieben wird oder haben sich vertippt. Dieser Aspekt macht deutlich, welch enormes Potenzial in falsch geschriebenen Schlüsselwörtern steckt.
14 Wem die Begriffe nichts sagen: Das alles sind Umschreibungen für das mitunter harte Endstück des Brotes.
80
Schlüsselwörter finden und einsetzen
Man kann eine falsche Rechtschreibung für seine eigenen Seiten dazu nutzen, Benutzer bei entsprechender Fehleingabe auf seine Seiten zu lotsen. Besonders interessant ist dies bei typischen Tippfehlern. Durchsuchen Sie dazu Ihre Keyword-Liste nach Wörtern, bei denen es erfahrungsgemäß zu Buchstabendrehern kommt oder von denen Sie wissen, dass sie oft falsch geschrieben werden. Einige Beispiele für typische Tippfehler sind zum Beispiel auf der Seite http://de.wikipedia.org/wiki/Wikipedia_Diskussion: Liste_von_Tippfehlern aufgeführt. vieleicht ereigniss maschiene orginal Anschaung Enstehung ensteht enstanden verständis Menscheit Aktzeptanz bedeutenste östereich östereichisch Enwicklung enwickelt hobbies Viele Suchmaschinen besitzen mittlerweile eine Korrekturfunktion, über die man auf falsch eingegebene Suchbegriffe aufmerksam gemacht wird. Gibt man bei Google zum Beispiel Brytney Spears ein, erkennt Google, dass da etwas nicht stimmt und zeigt den Text Meinten Sie: britney spears an.
Abbildung 4.9: Auch falsch geschriebene Wörter liefern zahlreiche Treffer.
So interessant die Möglichkeiten der fehlerhaften Rechtschreibung auch klingen mögen, einen entscheidenden Nachteil haben sie: Falsch geschriebene Wörter zeugen von wenig Kompetenz und wirken unseriös. Daher sollten Sie auf jeden Fall für die falsch geschriebenen Wörter eine eigene Seite einbinden, die eine Kopie der eigentlichen Seite darstellt, in der die korrekten Schlüsselbegriffe stehen. So wird die Seite bei korrekten und falsch geschriebenen Suchbegriffen gefunden.
81
Kapitel 4
4.3.2 Schlechte Suchbegriffe vermeiden Sie haben gesehen, wie man gute Schlüsselwörter findet. Im Umkehrschluss gilt es dann natürlich, schlechte Keywords zu vermeiden. Den Abschluss dieser KeywordFindungs-Abschnitte bildet daher eine Anleitung, die Ihnen dabei helfen soll, den Einsatz ungeeigneter Schlüsselwörter auszuschließen. Vermeiden Sie, Wörter durch Zahlen zu ersetzen. Anstelle von er wurde 3. schreiben Sie er wurde dritter. Würden Sie auf einen Link in der Trefferliste klicken, der mit wir sind ohnehin die Besten beschrieben ist? Genau aus diesem Grund, sollten Sie auf Superlative wie bester, größter, ultimative usw. verzichten. Vermeiden Sie die Nennung von Konkurrenzprodukten oder Konkurrenzfirmen. Das kann schnell zu Abmahnungen führen. Verwenden Sie nur solche Schlüsselwörter, die auch tatsächlich in Bezug zu Ihrer Seite stehen. Es bringt überhaupt nichts, wenn auf einer Bäckerei-Webseite mit Schlüsselwörtern für Pornoseiten oder Ähnliches geworben wird. Selbst wenn solche Methoden nicht direkt von den Suchmaschinen erkannt werden, der Besucher erkennt den Betrug sofort. Dass er daraufhin Ihre Seite meiden wird, steht außer Frage.
4.4 Keyword-Fallbeispiele In der Theorie klingt die Keyword-Findung immer sehr leicht. Ein bisschen Überlegen hier, ein bisschen Recherchieren da und schon hat man die perfekten Schlüsselwörter. Allerdings zeigt die Erfahrung, dass man oft vor einem leeren Blatt Papier (bzw. einer leeren Excel-Tabelle) sitzt und keinerlei Ideen für gute Keywords hat. Das liegt vor allem daran, dass man eigentlich noch nie in der Praxis gesehen hat, wie die »Profis« Keyword-Listen erstellen. Auf den folgenden Seiten wird genau das anhand dreier Beispiele gezeigt.
4.4.1 Ein Berliner Hotel In Berlin gibt es bekanntermaßen sehr viele Hotels, sodass hier optimale Keywords »überlebenswichtig« sind. Zunächst natürlich die Klassiker: Hotel Berlin Hotel in Berlin
82
Schlüsselwörter finden und einsetzen
Für viele Besucher ist eine weitere regionale Eingrenzung interessant. In Berlin bietet sich daher die Nennung des Stadtteils an. Hotel in Berlin Mitte Hotel in Berlin Friedrichshain Hotel in Berlin Prenzlauer Berg Ebenso könnte man natürlich auch die Tatsache ausnutzen, dass viele Geschäftsreisende (möglicherweise auch aus dem Ausland) in Berlin übernachten wollen. Messe Hotel Berlin Trade fair Hotel Berlin Kongress-Hotel Berlin Business-Hotel Berlin Natürlich kann man auch die Reiselust der Leute ausnutzen und diese in die Suchbegriffe mit einfließen lassen. Übernachten in Berlin Kurztripp Berlin Vergessen sollte man natürlich auch nicht, den Namen des Hotels zu integrieren. Dabei ist darauf zu achten, dass es sich dabei tatsächlich um den Namen des eigenen Hotels handelt. Etap Hotel Berlin Hotel Adlon Berlin
4.4.2 Ein Möbelhaus Möbelhäuser haben es nicht leicht. Denn die Konkurrenz besteht in vielen Städten nicht nur aus kleinen Konkurrenzgeschäften, sondern auch der »gelbe Riese« schnappt viele potenzielle Kunden weg. Im einfachsten Fall würde man seine Seiten auf die folgenden Suchbegriffe hin optimieren: Möbelhaus Berlin Einrichtungshaus Berlin Möbelmarkt Berlin Das ist natürlich eine Möglichkeit. Die Konkurrenz bei so allgemein gehaltenen Suchbegriffen ist allerdings sehr groß. Besser ist es, wenn man sich auf die Bedürfnisse der potenziellen Kunden konzentriert. Dazu überlegt man sich, warum Kunden nach einem Möbelhaus suchen, beziehungsweise was sie dort kaufen wollen.
83
Kapitel 4
Lampen kaufen Berlin Sitzbank Möbelhaus Berlin Designermöbel Berlin Man kann auch noch einen Schritt weiter gehen, indem man direkt die Namen der Produkte eingibt, die man verkauft und von denen man annimmt, dass nach ihnen gesucht wird. Rolf Benz Möbel Berlin Stressless Möbel Berlin Auf diese Weise lotst man dann auch Leute auf seine Seiten, die genau wissen, was sie wollen, und deswegen ganz spezielle Suchbegriffe eingeben.
4.4.3 Anbieter von Städtereisen Auch hier zunächst wieder der »übliche Verdächtige«: Städtereisen Damit allein wird die Konkurrenz allerdings sehr groß sein und die Wahrscheinlichkeit für eine Top-Platzierung ist sehr gering. Der Suchbegriff kann und sollte also durchaus noch aufgepeppt werden. Städtereisen günstig Städtereisen Berlin Städtereisen Europa Stadt reise Berlin Möglich sind auch Schlüsselwörter, die sich an den Bedürfnissen beziehungsweise Kundenwünschen der Suchenden orientieren. So spielt vor allem auf dem Markt der Kurzreisen bei vielen Benutzern der Preis eine wichtige Rolle. Ist Ihre Webseite nicht gerade auf exklusive Reisen spezialisiert, können Sie ganz gezielt mit dem günstigen Preis werben. Kurztripp Berlin Wochenendausflug Berlin Billigflug London Busfahrt London
84
Schlüsselwörter finden und einsetzen
Billig London fliegen Günstige Londoner Hotels Urlaub in London Eine weitere Möglichkeit besteht darin, Suchbegriffe zu verwenden, die den Reisezweck widerspiegeln. Gerade bei Kurztripps stehen bekanntermaßen Shopping und Spaß im Vordergrund. Shoppen London Single Reisen London Urlaub im August Reisen nach London Stadt reise programm
4.5 Inhalte anpassen Nachdem die passenden Schlüsselwörter gefunden sind, müssen sie auf der Seite platziert werden. Dabei ist es nicht egal, wo die Wörter im Text stehen und wie oft sie auf der Seite vorkommen. Denn wer Aspekte wie Keyword-Dichte und Keyword-Prominenz vernachlässigt, wird trotz gut gewählter Schlüsselwörter nicht den gewünschten Erfolg erzielen.
4.5.1 Die optimale Keyword-Dichte (Keyword Density) Sehr große Bedeutung beim Ranking einer Seite spielt die Keyword-Dichte. Wörter die auf einer Seite oft vorkommen, erzielen eine bessere Position in den Suchergebnissen. Im Idealfall schreibt man einen Text, der das Thema der Webseite widerspiegelt. In diesem Text werden dann die für die Seite relevanten Schlüsselwörter zwangsläufig das ein oder andere Mal auftauchen. Suchmaschinen ermitteln für jedes Wort, wie oft es auf der Webseite vorkommt – und zwar in Relation zu den anderen Wörtern. Dieses Verhältnis wird als Keyword-Dichte bezeichnet. Ein einfaches Rechenbeispiel soll die Ermittlung der Keyword-Dichte demonstrieren. Angenommen, auf einer Seite stehen 100 Wörter. Davon kommt exakt fünf Mal das Wort Notebooks vor. Das bedeutet für Notebooks eine Keyword-Dichte von 5 %. Kommt auf der gleichen Seite das Wort Desktop-PC nur einmal vor, liegt dessen Keyword-Dichte bei 1 %. Die Suchmaschinen gehen nun davon aus, dass die Seite mehr mit Notebooks als mit Desktop-PCs zu tun hat.
85
Kapitel 4
!
!
!
ACHTUNG
Nun könnte man auf die Idee kommen, seine Seite mit Schlüsselwörtern vollzupacken, um so die Keyword-Dichte künstlich zu erhöhen. Suchmaschinen mögen dieses sogenannte Keyword-Stuffing allerdings überhaupt nicht und bannen solche Seiten aus dem Index. Die Suchmaschinenbetreiber gehen mittlerweile davon aus, dass die optimale Stichwortdichte zwischen drei und acht Prozent liegt. Noch bis vor kurzer Zeit galt zwar noch eine Keyword-Dichte von zehn Prozent als Garant für eine gute Platzierung, diese Quote wurde allerdings gesenkt. Und das scheint auch logisch. Oder möchten Sie einen Text lesen, in dem jedes zweite Wort Notebook ist? Allerdings gilt die vorherige 10-%-Aussage nicht uneingeschränkt. So gibt es durchaus gut platzierte Seiten, die eine Keyword-Dichte von 13 und manchmal sogar von 15 Prozent aufweisen. Dieses Phänomen tritt vor allem bei Google auf, und zwar dann, wenn die Suchanfragentreffer einen niedrigen oder gleichen PageRank besitzen. Der Grund dafür ist, dass die von Google verwendete Linkanalyse bei der Relevanzberechnung gleich starker Webseiten nicht greifen kann. Dennoch sollten Sie sich davor hüten, die Keyword-Dichte künstlich höher als die bereits erwähnten acht Prozent zu treiben. Denn was bei Google (derzeit) funktioniert, führt bei anderen Suchmaschinen zur Abstrafung. Im schlimmsten Fall wird die Seite als Spam eingestuft und aus dem Index entfernt.
Jetzt stellt sich noch die Frage, an welcher Stelle im Text man die Schlüsselwörter positionieren soll. Normalerweise sollten sie möglichst früh im Text unter den ersten 200 bis 400 Zeichen stehen. Dahinter steht das bekannte journalistische Prinzip der invertierten Pyramide. Diese Technik besagt, dass die wichtigsten Elemente einer Story an den Anfang gesetzt werden. Mit zunehmendem Textverlauf nimmt die Bedeutung des Textes ab. Angewendet wird die invertierte Pyramide vor allem in Verbindung mit Pressemitteilungen. Erhält ein Redakteur eine Pressemitteilung von einem Unternehmen zugeschickt und diese ist zu lang, braucht er sie normalerweise nur vom Ende aus zu kürzen. Sortieren Sie zunächst Ihre Ideen und arbeiten Sie die einzelnen Themenbereiche aus. Wählen Sie anschließend den Hauptpunkt eines Themas und sortieren Sie unter diesem die anderen Elemente. Eine typische Textstruktur für eine Webseite könnte dann folgendermaßen aussehen: [...] Überschrift
Schlüsselwort Text Schlüsselwort
Überschrift Unterthema
Schlüsselwort Text Schlüsselwort
Überschrift Unterthema
Schlüsselwort Text Schlüsselwort
[...]
Achten Sie darauf, dass in den Überschriften Schlüsselwörter platziert sind. Zusätzlich sollte, wie bereits erwähnt, der erste Abschnitt relevante Schlüsselwörter enthalten. Am Ende der Seite sollten dann erneut Schlüsselwörter auftauchen. Das lässt sich erfahrungsgemäß über ein Fazit des vorangegangenen Textes oder eine kurze Zusam-
86
Schlüsselwörter finden und einsetzen
menfassung des vorgestellten Produkts realisieren. Zusätzlich empfiehlt es sich am Ende der Webseite eine Liste mit den wichtigsten Links der Webseite unterzubringen, wobei die Linktexte auch wieder Schlüsselwörter enthalten sollten. Bei dem zuvor gezeigten Beispiel-Quelltext haben Sie gesehen, dass für die Kennzeichnung von Absätzen das
-Tag verwendet wurde. Das entspricht so nicht nur korrekter HTML-Syntax, sondern ist auch für die Suchmaschinen-Optimierung interessant. Denn die durch
ausgezeichneten Absätze werden von einigen Suchmaschinen einzeln ausgewertet. Und genau hier liegt die Angriffsfläche. Platzieren Sie in jedem Abschnitt Schlüsselwörter zu einem Hauptthema. Denn Suchmaschinen gehen davon aus, dass nur so strukturierte Texte für den Benutzer gut zu lesen sind und bewerten die Seite entsprechend positiv.
Die tatsächliche Wortdichte ermitteln Die Keyword-Dichte kann anhand einer einfachen Formel berechnet werden. Anzahl der Keywords / Gesamtzahl der Wörter im Dokument * 100 = Wortdichte (in %)15 Nun erwartet niemand von Ihnen, dass Sie sich hinsetzen, die Wörter auf der Webseite zählen und dann den Taschenrechner zücken. Es gibt Online-Tools, die Ihnen diese Arbeit abnehmen und die tatsächliche Keyword-Dichte ermitteln. Eines davon ist unter http://www.webjectives.com/keyword.htm zu finden. Nachdem man den URL und das entsprechende Schlüsselwort eingetragen und auf Analyze geklickt hat, beginnt das Tool mit der Analyse. Im folgenden Beispiel wurde die Startseite der Süddeutschen Zeitung auf das Wort sport hin untersucht. Hier das Ergebnis: The results of the analysis for "sport" at www.sueddeutsche.de are as follows: Title: There are no keyword(s)in the title. Frequency in the title = 0 Weighted Keyword Density in the title= 0% Description Meta Tag: There are 29 words in the description. Frequency in the description = 1 Weighted Keyword Density in the description= 3.45%
15 Diese Formel liefert nur einen ungefähren Wert. Denn Sie werden bei einem Vergleich der entsprechenden Online-Tools feststellen, dass diese jeweils leicht unterschiedliche Keyword-Dichten liefern. Allerdings sind die Unterschiede marginal und können außer Acht gelassen werden.
87
Kapitel 4 Keywords Meta Tag: There are 25 words in the keyword meta tag. Frequency in the keyword meta tag = 1 Weighted Keyword Density in the keyword meta tag= 4% If you want to know the best keywords for your keywords meta tag, click here. Body Tag: There are 2059 words in the body. Frequency in the body = 5 Weighted Keyword Density in the body= 0.24% Heading (H1) Tags: There are 314 words in the Heading tags. Frequency in the Heading tags = 4 Weighted Keyword Density in the Heading tag= 1.27% Alt Tag: There are 230 words in the alt tags. There are no keywords in the alt tags. A HREF Tag Link Text: There are 2027 word(s) in the href tags. Frequency in the HREF tags = 5 Weighted Keyword Density in the HREF tag= 0.25% A HREF Tag URL: Frequency in the href tags URL = 35 HTML Comment Tag: There are 1272 word(s) in the comment tags. Frequency in the comment tags = 2 Weighted Keyword Density in the comment tag= 0.16% Total: There are 2123 word(s) in the entire page Frequency for the page = 58 Weighted Keyword Density for the page= 2.73%
Interessant sind vor allem die Angaben im Bereich des -Tags. Dort ist all das zusammengefasst, was der Besucher beim Aufrufen der Seite zu Gesicht bekommt. Es wird deutlich, dass auf der Seite 2.056 Wörter stehen. Davon handelt es sich bei fünf um sport. Das entspricht einer Quote von gerade einmal 0,24 Prozent. Nun handelt es sich bei der Süddeutschen Zeitung um keine Sport-Gazette. Würde dieser geringe Wert allerdings bei einem reinen Sportblatt ermittelt werden, müsste definitiv nachgebessert werden.
88
Schlüsselwörter finden und einsetzen
Abbildung 4.10: Die Schlüsselwortdichte lässt sich ganz bequem online ermitteln.
Anhand einer solchen Analyse können Sie ganz gezielt Ihre eigene oder die Webseite eines Konkurrenten überprüfen. Einen anderen Weg geht das Tool von Die Suchmaschinen Site, das unter http:// www.kso.co.uk/cgi-bin/checkkeys.cgi kostenlos zur Verfügung steht. Nachdem man dort den URL der zu analysierenden Seite eingetragen hat, werden die 25 wichtigsten Suchbegriffe aufgelistet. Dieses Tool eignet sich hervorragend zur Konkurrenzanalyse, schließlich kann man so blitzschnell erkennen, welche Wörter in welcher Häufigkeit auf der angegebenen Seite eingesetzt werden. Die zwei genannten Tools stellen nur eine kleine Auswahl dar. Vielleicht sagen Ihnen beide nicht zu und Sie sind auf der Suche nach einer entsprechenden Alternative. Die folgende Tabelle hilft Ihnen dabei:
89
Kapitel 4
Abbildung 4.11: Auch dieses Tool leistet wertvolle Dienste. Name
URL
Beschreibung
Keyword Density Analyzer http://www.keyworddensity.com/
Nach der Eingabe von bis zu zwei URLs und des Schlüsselworts wird die Keyword-Dichte ermittelt. Als Option ist lediglich eine Unterscheidung zwischen Groß- und Kleinschreibung zuschaltbar.
Dieses Tool bietet sehr viele Optionen. So lässt sich nicht nur einstellen, ob ausschließlich Einzelbegriffe vorkommen dürfen, auch die Gewichtung von Metatags bei der Analyse lässt sich definieren.
Similar Page Checker
http://www.webconfs.com/ similar-page-checker.php
Anhand dieses Tools kann man ermitteln, wie stark sich zwei Seiten ähneln. Interessant ist das vor allem, um sogenannten Duplicated Content zu vermeiden.
Tabelle 4.2: Interessante Tools für die Keyword-Analyse
90
Schlüsselwörter finden und einsetzen
4.5.2 Die Keyword-Prominenz Keywords, die am Anfang eines Textes stehen, werden von Suchmaschinen relevanter als andere angesehen. Für Sie bedeutet das, dass Sie die für Ihre Seite relevanten Keywords an den Anfang der Seite stellen sollten. Das leider immer noch oft verwendete Willkommen auf unseren Seiten! sollte völlig gestrichen und durch einen Text ersetzt werden, der sinnvolle Schlüsselwörter enthält. Eine gute Einleitung könnte zum Beispiel folgendermaßen aussehen: Der Pommeranzer Seopard – Leben, Ernährung, Haltung Die klassische Begrüßung ist völlig inhaltsleer. Ruft man eine solche Seite auf, weiß man zunächst nicht, um was für eine Art von Seite es sich handelt. Und genauso geht es auch der Suchmaschine. Beim zweiten Text hingegen sehen Besucher und Suchmaschinen die wichtigsten Fakten gleich zu Beginn des Textes und können sich so schnell einen Eindruck vom zu erwartenden Seiteninhalt verschaffen.
> >
>
HINWEIS
Es ist sehr wohl von Bedeutung, welche Wörter an welcher Stelle im Text stehen. Das erste Wort eines Absatzes ist wichtiger als das letzte. Und ebenso ist das erste Wort im Satz wichtiger als das letzte. Dieser Aspekt macht deutlich, dass man nicht einfach Texte aus einer Broschüre für die Internetseite übernehmen kann. Suchmaschinengerechtes Texten ist durchaus anspruchsvoll, lässt sich aber erlernen.
91
5
Offpage-Optimierung Der Vorteil der Klugheit besteht darin, dass man sich dumm stellen kann. Das Gegenteil ist schon schwieriger.
Kurt Tucholsky, deutscher Schriftsteller
Jede einzelne Seite eines Webprojekts sollte perfekt optimiert werden. Mehr zu dieser sogenannten Onpage-Optimierung erfahren Sie im nächsten Kapitel. Zunächst geht es um Aspekte, die immer wieder vernachlässigt werden, was dann dazu führt, dass eigentlich gut optimierte Einzelseiten trotzdem nicht den gewünschten Erfolg bringen. Denn bei der Analyse von Dokumenten werden von Suchmaschinen vor allem auch die Linkstrukturen der Seite mit einbezogen. Für Sie als Optimierer gilt es daher, auch solche Überlegungen wie Seiten- und Linkstruktur sowie Datei- und Domain-Namen in die Gestaltung der Seiten einfließen zu lassen. Da viele Seitenbetreiber mit diesen Faktoren nachlässig umgehen, kann man sich hier einen Wettbewerbsvorteil verschaffen.
5.1 Strukturelle Vorüberlegungen Webseiten zu erstellen, ist zeit- und kostenintensiv. Umso wichtiger ist es da, dass bereits im Vorfeld geklärt wird, wie die Webseite strukturiert werden soll. Auf den folgenden Seiten erhalten Sie einen Überblick darüber, welche Überlegungen bereits im Vorhinein angestrengt werden sollten, damit es später nicht zu unangenehmen Überraschungen kommt.
Kapitel 5
5.1.1 Die Seitenstruktur zählt Die Webseite sollte einer möglichst flachen Ordnerstruktur folgen. Denn je weniger Ordner und somit je geringer die Verzeichnistiefe, umso besser können die Seiten später von den Suchmaschinen-Robots indexiert werden. Zusätzlich sollte man »sprechende« Verzeichnisnamen verwenden. Mehr zu diesem Aspekt im weiteren Verlauf dieses Kapitels. Zunächst eine typische Verzeichnisstruktur: Root --Verzeichnis1 ------Unterverzeichnis1 ------Unterverzeichnis2 ------------Weiteres_Unterverzeichnis1 ------------Weiteres_Unterverzeichnis2 ------------Weiteres_Unterverzeichnis3 ------Unterverzeichnis3 ------Unterverzeichnis4 --Verzeichnis2 --Verzeichnis3 Diese Struktur ist sehr übersichtlich und ermöglicht es auf den ersten Blick, thematische Zusammenhänge zwischen Verzeichnis und Inhalt herzustellen.16 So übersichtlich eine solche Verschachtelung auch sein mag, sie hat durchaus Nachteile. So können sich Besucher zum Beispiel die URLs aufgrund ihrer Länge nicht merken. Umgehen lässt sich dieses Problem, indem man eine sehr flache Hierarchie verwendet. Auch hierzu wieder ein Beispiel: Root --Verzeichnis1 --Unterverzeichnis1 --Unterverzeichnis2 --Weiteres_Unterverzeichnis1 16 Dieser Aspekt würde natürlich noch besser sichtbar werden, wenn „sprechende“ Verzeichnisnamen verwendet werden würden. Das Prinzip wird aber auch an diesem allgemein gehaltenen Beispiel deutlich.
94
Offpage-Optimierung
--Weiteres_Unterverzeichnis2 --Weiteres_Unterverzeichnis3 --Unterverzeichnis3 --Unterverzeichnis4 --Verzeichnis2 --Verzeichnis3 Ein schönes Beispiel dafür, wo eine flache Struktur sinnvoll verwendet wird, ist Wikipedia. Dort kann jedes Stichwort direkt über das Hinzufügen des Wortes an den URL erreicht werden. Will man zum Beispiel etwas über das DMOZ erfahren, tippt man in die Adresszeile einfach Folgendes ein: http://de.wikipedia.org/wiki/DMOZ Nun haben allerdings auch solche flachen Strukturen nicht nur Vorteile. Denn bereits bei vergleichsweise wenigen Verzeichnissen, wird es unübersichtlich. Wer seine Webseite allerdings nicht manuell, sondern zum Beispiel über ein CMS verwaltet, für den sind flache Strukturen ideal.
Die ideale Anzahl der Dateien in einem Verzeichnis In den einzelnen Verzeichnissen werden später natürlich Dateien platziert. Das sind meistens HTML- bzw. PHP-Seiten oder Grafiken. Eine feste Regel, wie viele Dateien man am besten in ein Verzeichnis legt, gibt es nicht. Und auch bei der Bewertung der Seite durch Suchmaschinen spielt es, soweit bekannt, keine Rolle, ob in einem Verzeichnis zehn oder eintausend Seiten liegen. Allerdings sollte man immer die Übersichtlichkeit des Projekts im Auge behalten. Denn sucht man später eine bestimmte Datei, klappt dies natürlich besser, wenn sie in einem Verzeichnis liegt, dessen Inhalt man überschauen kann.
5.1.2 Linkstruktur Die Bedeutung von Links für das Ranking der Seite haben Sie bereits kennengelernt. Deswegen sollte der Linkstruktur besondere Aufmerksamkeit zuteil werden. Denn die Suchmaschinen-Robots folgen den Links und indexieren auf diese Weise die Seite. Als Seitenbetreiber hat man dafür zu sorgen, dass die Robots alle Seiten problemlos über Links erreichen können. Dabei muss man nicht nur die Linkstruktur der eigenen Seite, sondern auch alle nach außen gehenden Links betrachten. Bei der Planung der Linkstruktur spielt die Homepage eine entscheidende Rolle. Denn in aller Regel handelt es sich bei ihr um die meistbesuchte Seite des Projekts, die in der Hierarchie ganz oben liegt. Die wichtigsten Inhalte sollten von der Homepage aus über
95
Kapitel 5
Links erreichbar sein. Normalerweise enthält die Homepage Verweise auf die in der Hierarchie untergeordneten Seiten. Auf diesen Seiten befindet sich eine Übersicht der entsprechenden Themen. In den meisten Fällen, und das gilt auch für große Projekte, ist es möglich, mit drei oder vier Klicks jede Unterseite von der Homepage aus zu erreichen. Um sicherzugehen, dass die Robots den Links tatsächlich folgen, sollten auf einer Seite nicht mehr als 50 bis 80 Links untergebracht werden. Im Normalfall sind es allerdings deutlich weniger Links und mehr Inhalt. Denn sonst passiert es schnell, dass Suchmaschinen hinter der Seite eine Linkfarm und somit einen Manipulationsversuch vermuten. Versuchen Sie, die Linkstruktur so zu erstellen, dass sie vom Besucher verstanden wird. Eine gut verständliche Linkstruktur wird normalerweise auch sehr gut von den Robots angenommen. Eine übersichtliche Linkstruktur könnte zum Beispiel folgendermaßen aussehen: Startseite ---Fußball ---Handball ---Golf ---US-Sport Wie unschwer zu erkennen ist, handelt es sich hier um eine Sportseite. In der obersten Navigationsebene unterhalb von der Startseite sind die einzelnen Sportarten aufgelistet. Klickt der Besucher auf eine der Sportarten, werden die dazugehörenden Untermenüpunkte angezeigt. Im folgenden Beispiel wird davon ausgegangen, dass auf Fußball geklickt wurde. Startseite ---Fußball ------Bundesliga ------2.Bundesliga ------Champions League ------UEFA-Cup ---Handball ---Golf ---US-Sport
96
Offpage-Optimierung
Hier werden die Menüpunkte für den Bereich Fußball angezeigt. Klickt der Besucher nun auf Bundesliga, öffnet sich eine weitere Ebene. Startseite ---Fußball ------Bundesliga ---------Statistik ---------Ergebnisse ---------Tabelle ------2.Bundesliga ------Champions League ------UEFA-Cup ---Handball ---Golf ---US-Sport Diese Struktur ist für den Besucher übersichtlich und einfach nachzuvollziehen. Eine alternative Möglichkeit wäre die sogenannte Breadcrumb-Navigation (zu Deutsch Brotkrümelnavigation) wie sie unter anderem von Yahoo! verwendet wird.
Abbildung 5.1: Im Verzeichnis von Yahoo! sieht man immer, an welcher Position man sich befindet.
97
Kapitel 5
So sieht man auf den ersten Blick an welcher Position man sich innerhalb der Seite befindet. Zusätzlich können die Links für die Platzierung von Keywords genutzt werden.
5.1.3 Verzeichnis- und Dateinamen Ein oft vernachlässigtes Thema sind die Verzeichnis- und Dateinamen. So bemühen sich zwar viele Seitenbetreiber aufwendig um ansprechende Domains, kümmern sich dann aber überhaupt nicht darum, wie die einzelnen Seiten heißen. Dabei bilden Verzeichnis- und Dateinamen die ideale Plattform zum Platzieren von Schlüsselwörtern. Und tatsächlich werden Dateinamen von Suchmaschinen indexiert und haben sogar ein höheres Gewicht als Schlüsselwörter in Domain-Namen. Dieses Potenzial sollte auf jeden Fall genutzt werden. Auf vielen Webseiten begegnen einem immer wieder Dateinamen, die für den Besucher und für die Suchmaschinen nichtssagend sind. start.html willkommen.html neues.html 97.html Für die Suchmaschinen sind solche Namen völlig uninteressant. Denn Suchmaschinen überprüfen, ob in den Dateinamen Schlüsselwörter enthalten sind. In den gezeigten Beispielen wären das start, willkommen, neues und 97. Für ein gutes Ranking sind diese Dateinamen nicht zu gebrauchen. Am besten verwendet man Schlüsselwörter, die so auch auf der Seite stehen. Um mehrere Schlüsselwörter miteinander zu kombinieren, verbindet man sie mit einem Bindestrich. Die verwendeten Schlüsselwörter sollten dabei natürlich auch tatsächlich auf der Seite vorkommen. Gute Dateinamen (zumindest, wenn es sich um eine Notebook-Seite handelt) sind zum Beispiel: notebooks-kaufen.html notebooks-berlin-vertrag.html notebooks-leasing.html Auf vielen Webseiten werden Dateinamen mit Unterstrichen ausgestattet. Aus notebooks-kaufen.html wird dort notebooks_kaufen.html. Allerdings führt der Unterstrich dazu, dass alle Keywords zu einem Schlüsselbegriff zusammengefasst werden. Aus notebooks_kaufen.html wird aus Suchmaschinen-Sicht notebookskaufen.html. Die beiden ursprünglichen Einzelwörter notebooks und kaufen werden zu notebookskaufen zusammengefügt. Aus diesem Grund sollte der Unterstrich nur verwendet werden, wenn
98
Offpage-Optimierung
Schlüsselwörter tatsächlich verbunden werden oder die Seite für eine bestimmte Schlüsselwort-Kombination (Phrase) optimiert werden soll. Im Normalfall sollte man demnach auf Bindestriche setzen. Achten Sie bei der Wahl des Dateinamens darauf, dass weder Umlaute noch Sonderzeichen enthalten sind. So wird garantiert, dass die Webseite problemlos nach einem Serverwechsel (zum Beispiel von Windows nach Linux) funktioniert. Neben den reinen Dateinamen spielen auch die Verzeichnisse eine wichtige Rolle. Denn die fließen ebenfalls in die Analyse mit ein. Hier empfiehlt es sich allerdings, ausschließlich das primäre Schlüsselwort zu verwenden. notebooks/notebooks-kaufen.html notebooks/notebooks-berlin-vertrag.html notebooks/notebooks-leasing.html Auf dieser Basis erhält man Adressen, die für Suchmaschinen interessant sind und die zu einem besseren Ranking verhelfen. Das gilt allerdings nur für den Fall, dass die verwendeten Schlüsselwörter auch tatsächlich im Dokument-Titel und im Dokument selbst vorkommen. Grafiken und Flash umbenennen Das zuvor Beschriebene gilt natürlich nicht nur für HTML- oder PHP-Dateien. Ebenso sollten auch Grafiken, Flash-Dateien, PDF-Dokumente und überhaupt alles, was sonst noch so auf der Webseite anfällt, passend benannt werden.
Verzeichnistiefe Im Zusammenhang mit den Verzeichnissen einer Webseite gibt es ein weiteres Phänomen, das nur wenig bekannt ist, dem von Suchmaschinen aber Bedeutung beigemessen wird: die Verzeichnistiefe. Denn Suchmaschinen gehen davon aus, dass die Bedeutung von Dokumenten abnimmt, je tiefer sie in der Verzeichnisstruktur liegen. Werfen Sie zur Veranschaulichung dieses Aspekts einen Blick auf die folgende Tabelle. URL
Tabelle 5.1: Unterschiedliche Verzeichnistiefen einer Webseite
99
Kapitel 5
Es gibt Suchmaschinen, die Webseiten nur bis zu einer gewissen Verzeichnistiefe indexieren. So will man vermeiden, dass besonders umfangreiche Seiten vollständig indexiert werden, da dies ansonsten zu Verschiebungen in der Qualität der Suchergebnisse führen würde. Für das Durchsuchen von Webseiten werden die beiden aus der Graphentheorie bekannten Methoden Breitensuche und Tiefensuche herangezogen. Bei der Breitensuche werden zunächst alle Links einer Seite verfolgt, anschließend alle Links der nächsten Seite und so weiter. Welche Auswirkungen diese Suchform auf die Recall Rate (Vollständigkeit) und Precision Rate (Genauigkeit) haben, hängt hauptsächlich von der Struktur der indexierten Seite ab. So werden zum Beispiel bei Themenkatalogen, bei denen es sehr früh Seiten mit vielen Links gibt, viele Top-LevelSeiten erfasst. Das erhöht zwar die Recall Rate, führt allerdings gleichzeitig zu einer Senkung der Precision Rate. Besteht das Webprojekt aus einer kleinen Ansammlung von Dokumenten mit einer geringen Tiefe, werden die Seiten von der Breitensuche vollständig erfasst. Das führt zu einer Erhöhung der Precision Rate, dieses Mal allerdings auf Kosten der Recall Rate. Angewandt wird die Breitensuche zum Beispiel von den Suchmaschinen Fireball und AltaVista. Anders funktioniert die Tiefensuche, der sich unter anderem Google und Yahoo! bedienen. Hier wird der gesamte Graph, auf den der erste Link der Seite zeigt, bis dessen letzte Seite erreicht ist, verfolgt. Anschließend kehrt der Crawler zur höher liegenden Ebene zurück und bewegt sich von dort auf einem alternativen Weg nach unten. Auf diese Weise wird die gesamte Webseite erfasst. Auch hier hängen die tatsächlichen Auswirkungen auf Recall und Precision Rate von der Seitenstruktur ab. Dokumente großer Tiefe werden meistens erst vollständig indexiert, bevor Links nach außen verfolgt werden. Das erhöht die Precision Rate. Seiten, bei denen sehr viele Links zu anderen Servern gehen, werden erst nur oberflächlich indexiert, da zunächst der gesamte Teilgraph des Links verfolgt wird. Erfahrungen haben gezeigt, dass man nicht mit mehr als drei Verzeichnisebenen arbeiten sollte. Im Hinblick auf die Verzeichnisebenen gilt der Grundsatz: je flacher, je besser. Wie eine Verzeichnisstruktur aussehen kann, wird hier anhand einer Firma gezeigt, die Notebooks verkauft. index.html logs/ cgi-bin/ notebooks/angebote/ notebooks/multimedia/ notebooks/linux/ notebooks/windows/
100
Offpage-Optimierung
Selbstverständlich fehlen hier noch zahlreiche Verzeichnisse. Das Prinzip wird aber deutlich. Innerhalb des notebooks-Ordners befinden sich verschiedene Unterverzeichnisse, in denen die eigentlichen HTML- oder PHP-Seiten liegen. Auf diese Weise erhält man nicht nur eine übersichtliche und flache Verzeichnisstruktur, sondern auch solche URLs, die von Suchmaschinen mit einem höheren Ranking belohnt werden.
5.1.4 Weiterleitungen Webseiten wachsen und verändern im Lauf der Zeit ihre Struktur. Was normalerweise wünschenswert ist17, kann sich negativ auf das Ranking innerhalb der Suchmaschinen auswirken. Denn sobald ein URL von einer Suchmaschine indexiert wurde und die betroffene Seite beim nächsten Besuch des Crawlers nicht mehr vorhanden ist, meldet der Webserver an die Suchmaschine den Fehlercode 404. Sollte dieser Fehlercode bei mehreren Besuchen gemeldet werden, wird die Seite aus dem Index der Suchmaschine entfernt. Für Sie als Seitenbetreiber ist das fatal, schließlich geht so ein eventuell gutes Ranking verloren. Das gilt es, zu vermeiden. Die meisten Seitenbetreiber versuchen das, indem sie die Seite neu bei den Suchmaschinen anmelden. Das funktioniert zwar, allerdings lassen sich die meisten Suchmaschinen für die erneute Indexierung viel Zeit. Erschwerend kommt hinzu, dass in den Trefferlisten immer noch die alten URLs auftauchen. Klickt ein potenzieller Besucher auf einen solchen Link, bekommt er eine Fehlermeldung angezeigt und wird Ihre Seite zukünftig meiden. Immer mehr Seitenbetreiber gehen deswegen dazu über, eigene Fehlerseiten zu entwerfen und so ihren Besuchern im Fehlerfall eine vergleichsweise ansprechende Seite zu präsentieren.
Abbildung 5.2: So sieht eine gute Fehlerseite aus. 17 Denn wer will schon auf Dauer auf einer Webseite immer die gleichen Inhalte sehen.
101
Kapitel 5
Wie Sie Fehler abfangen können, erfahren Sie im nächsten Abschnitt. Allerdings lässt sich ein großer Teil der auftretenden Fehler vermeiden. Dazu muss man den Suchmaschinen und den menschlichen Besuchern lediglich Bescheid geben, wenn sich die Adresse einer Seite geändert hat. Das ist zum Beispiel nach einem Domain-Umzug oder einem Relaunch der Fall. Es gibt verschiedene Varianten, wobei sich zunächst die Frage stellt, ob eine serverseitige oder eine clientseitige Weiterleitung eingesetzt werden sollte. Im Normalfall ist die serverseitige Variante immer die bessere Lösung. Die prominentesten Vertreter dabei sind sicherlich PHP und .htaccess. Welche Variante Sie einsetzen, hängt natürlich auch davon ab, was bei Ihrem Provider technisch machbar ist. Eine entscheidende Bedeutung im Zusammenhang mit serverseitigen Weiterleitungen kommt dem Statuscode der Seite zu. Hinsichtlich der Suchmaschinen-Optimierung spielen vor allem die beiden Codes 301 und 302 eine wichtige Rolle. Standardmäßig wird bei serverseitigen Weiterleitungen der Statuscode 302 verwendet. In der Praxis sollten Weiterleitungen allerdings so aufgebaut werden, dass der Code 301 geliefert wird. Denn beim Statuscode 301 wird der PageRank der Seite übernommen. Ferner signalisiert 301 dem Crawler, dass die Adresse veraltet ist und er entsprechend darauf reagieren kann. Normalerweise wird der alte URL dann im Index der Suchmaschine mit der neuen Adresse überschrieben. So wird erreicht, dass die Seite nicht noch einmal bei der Suchmaschine angemeldet werden muss. Den zurückgelieferten Statuscode der eigenen Seite ermitteln Mit dem kostenlosen Online-Tool unter http://web-sniffer.net/ können Sie ganz bequem ermitteln, welchen Statuscode eine Seite zurückliefert. Dazu müssen Sie lediglich den URL der betreffenden Seite eingeben.
Eine sehr einfache Lösung lässt sich mit PHP umsetzen. #
#
# Code
Über den PHP-Befehl exit wird verhindert, dass eventuell nachfolgend notierter Code ausgeführt wird. Wichtig ist, dass man über header(»Status: 301 Moved Permanently«); eine 301-Weiterleitung erzwingt. (Erinnern Sie sich an die eingangs gemachte Aussage, dass standardmäßig vom Server der Statuscode 302 gesendet wird.)
102
Offpage-Optimierung
Diejenigen, deren Webspace kein PHP unterstützt, können auf die sogenannten .htaccess-Dateien zurückgreifen. Im folgenden Beispiel wird von der Seite /verzeichnis/ beispiel.html auf die neue Adresse http://www.neueseite.de/beispiel.html umgeleitet. Redirect 301 /verzeichnis/beispiel.html http://www.neueseite.de/beispiel.html
Sollte Ihr Provider keine serverseitigen Weiterleitungen zulassen, müssen Sie notgedrungen auf eine clientseitige Variante zurückgreifen. Um es vorwegzunehmen: Es handelt sich dabei immer um eine Notlösung, die sich qualitativ nicht mit serverseitigen Weiterleitungen messen kann. Als clientseitige Ansätze haben sich Weiterleitungen per JavaScript oder Metatag durchgesetzt. Die Metatag-Variante sieht folgendermaßen aus: <meta http-equiv="refresh" content="15; url=http://www.neueseite.de/" />
Durch diese Syntax wird 15 Sekunden nach dem Aufruf der Seite auf die neue Adresse (http://www.neueseite.de/) weitergeleitet. Auch wenn diese Weiterleitung funktioniert, sollten Sie sie normalerweise nicht einsetzen. Suchmaschinen reagieren darauf nämlich äußerst allergisch. Denn leider wird dieses Metatag auch gerne von Spammern verwendet, die eine Seite für ein bestimmtes Schlüsselwort optimieren. Ruft der Besucher eine so optimierte Seite auf, wird er sofort auf die eigentliche Seite geleitet. Die ist dann nicht optimiert und beschäftigt sich meistens mit einem völlig anderen Thema. Erkennt die Suchmaschine eine solche Weiterleitung, wird die Seite im schlimmsten Fall aus dem Index gelöscht. Sie sollten demnach möglichst nicht auf diese Variante zurückgreifen. Eine andere Möglichkeit für Weiterleitungen bietet JavaScript. Im einfachsten Fall verwendet man dabei die folgende Variante: #
#
# Code
<script type=»text/javascript«>
Das führt allerdings dazu, dass die Zurück-Schaltfläche des Browsers nicht mehr richtig funktioniert. Umgehen lässt sich dieses Problem folgendermaßen: #
#
# Code
<script type="text/javascript">
103
Kapitel 5
Dass dieses Skript funktioniert, kann allerdings niemand garantieren. Denn hat der Besucher zum Beispiel in seinem Browser JavaScript deaktiviert, wird er nicht auf die neue Adresse umgeleitet. Deswegen noch einmal: Wenn Sie die Möglichkeit dazu haben, setzen Sie auf eine serverseitige Weiterleitung.
Fehler erkennen und abfangen Wie Sie Weiterleitungen umsetzen können, haben Sie im vorherigen Abschnitt gesehen. Je komplexer ein Webprojekt wird, umso größer ist aber auch die Wahrscheinlichkeit, dass sich Fehler struktureller Art einschleichen. Gelegentlich kommt es dann vor, dass Besucher anstelle der gewünschten Informationen Fehlerseiten zu sehen bekommen. Nun wissen viele erfahrene Besucher, dass das immer mal wieder vorkommen kann. Sollten sich die Fehler allerdings häufen, kann und wird sich das negativ auf die Besucherzahlen auswirken. Und ganz nebenbei reagieren natürlich auch Suchmaschinen entsprechend, wenn sie Seiten indexieren wollen, diese aber permanent Fehlercodes zurückliefern. Anstelle der Standard-Fehlerseite des Browsers sollte eine personalisierte Seite erscheinen, die sich vom Design her in den normalen Internetauftritt integriert und nach Möglichkeit auch einen kurzen Hinweistext enthält. So erfährt der Besucher, dass die angeforderte Seite zwar nicht existiert, ihm werden aber Alternativen vorgeschlagen. Jeder Webserver bietet Möglichkeiten, eigene Fehlerseiten anzulegen. Dazu werden die Statuscodes ausgewertet, die beim Aufruf einer Ressource zurückgeliefert werden. Konnte eine Ressource korrekt ausgeliefert werden, lautet der Statuscode folgendermaßen: HTTP/1.1 200 OK Das ist der wünschenswerte Normalzustand. Da das Leben aber bekanntermaßen kein Ponyhof ist, gibt es oft auch negative Meldungen. Die wichtigsten davon sind in der folgenden Tabelle zusammengefasst: Fehlercode
Statustext
Beschreibung
401
Unauthorized
Ohne entsprechende Autorisierung darf auf die angeforderte Ressource nicht zugegriffen werden.
403
Forbidden
Es handelt sich um einen nicht öffentlichen Bereich der Webseite, auf den der Benutzer nicht zugreifen darf.
404
Not Found
Die Ressource ist unter dem angegebenen URL nicht zu finden.
410
Gone
Die angeforderte Ressource ist unter dem URL nicht mehr vorhanden. Eine Weiterleitungsadresse ist allerdings nicht bekannt.
Tabelle 5.2: Die wichtigsten Fehlercodes
104
Offpage-Optimierung
Wie diese Fehlermeldungen abgefangen werden können, hängt letztendlich vom eingesetzten Server ab. Die Mehrzahl der heute gehosteten Webseiten läuft allerdings auf dem Apache-Webserver. Dort kann man Fehlerseiten über die globale Konfigurationsdatei httpd.conf und über .htaccess-Dateien anlegen. Wenn Sie Zugriff auf die httpd.conf haben, fügen Sie dort die Direktive ErrorDocument ein. Ein solcher Eintrag sieht folgendermaßen aus: #
Das sind typische Varianten zum Abfangen von Fehlermeldungen. Sie sehen, dass es möglich ist, auf eine externe Adresse weiterzuleiten, eine projektinterne Webseite anzugeben und einen eigenen Fehlertext zu definieren. Fehlerbehandlung beim IIS Sollten Ihre Webseiten auf dem Internet Information Server (IIS) laufen, müssen Sie auch nicht auf selbst gestaltete Fehlerseiten verzichten. Wie Sie Fehlerseiten für diesen Server konfigurieren, erfahren Sie zum Beispiel auf der Seite http://www.webmeister.ch/ server/webserver/iis/errorpage.htm.
Wie Sie die Seiten gestalten, bleibt Ihnen überlassen. Erfahrungsgemäß hilft es aber, wenn Sie sich davon inspirieren lassen, wie andere Seitenbetreiber dieses Problem umgehen. Problemfall Internet Explorer Für den Internet Explorer müssen die Fehlerseiten übrigens größer als 512 Bytes sein. Sind sie kleiner, zeigt dieser Browser die wenig attraktive Standardfehlerseite an.
So schön eine solche Fehlerseite auch sein mag, im Idealfall bekommt sie der Besucher erst gar nicht angezeigt. Allerdings ist es gerade bei umfangreichen Projekten schwierig, selbst zu entdecken, wo es zu Fehlern kommt. Zwar helfen umfangreiche Tests oft weiter, völlige Fehlerfreiheit wird man aber auch so nicht erreichen. Es gibt aber durchaus Möglichkeiten, sich automatisch auf Fehler aufmerksam machen zu lassen. Durch das folgende PHP-Skript wird an die angegebene E-Mail-Adresse automatisch eine Nachricht geschickt, wenn der Fehlercode 404 auftritt, die angeforderte Seite also nicht verfügbar ist:
105
Kapitel 5
#
#
# Code
Das Skript ist sofort einsatzbereit und kann in die Fehlerseite eingebunden werden. Lediglich die E-Mail-Adresse innerhalb der Variable $empfaenger muss angepasst werden.
5.1.5 Deep Web Google gilt als Synonym für das Suchen im Internet. Für viele Anwender stellt Google die erste und einzige Adresse für Online-Recherchen dar. Was aber nur die wenigsten Internetnutzer wissen: Google und andere Suchmaschinen finden nur wenige Prozent der im Internet zur Verfügung stehenden Informationen. In diesem Zusammenhang fallen immer wieder die beiden Begriffe Deep bzw. Invisible Web. Diese Grobeinteilung trifft es aber nicht ganz. Denn genau genommen ist das Invisible Web nur eine von fünf Arten des Deep Webs. Die folgenden Varianten existieren: Private Web – Diese Seiten könnten zwar indexiert werden, allerdings sorgen die Seitenbetreiber dafür, dass sie nicht in den Indizes der Suchmaschinen landen. Das geschieht zum Beispiel durch einen Passwortschutz, die Datei robots.txt oder es liegt einfach daran, dass es sich um Seiten in einem Intranet handelt.
106
Offpage-Optimierung
Opaque Web – Auch diese Seiten könnten indexiert werden, werden es aber aus technischen Gründen oder Nutzen-Aufwand-Überlegungen derzeit nicht. Dazu zählen zum Beispiel häufig aktualisierte Webseiten, Orphan-Seiten und Webseiten ohne Hyperlinks. Proprietary Web – Diese Seiten könnten ebenfalls indexiert werden. Allerdings sind sie nur nach Anerkennung entsprechender Nutzungsbedingungen zugänglich. Invisible Web – Dabei handelt es sich zum Beispiel um Datenbanken, die eine Eingabe in eine Suchmaske erfordern. Der Begriff Invisible Web wird zwar oft mit Deep Web gleichgesetzt, korrekt ist das allerdings nicht. Technisch wäre einer Indexierung dieser Seiten aber durchaus möglich. Truly Invisible Web – Die hierunter zusammengefassten Seiten lassen sich tatsächlich nicht indexieren. Es kann sich zum Beispiel um Datenbankformate handeln, die noch vor der Entstehung des WWW entwickelt wurden, oder Dateiformate, die sich nicht erfassen lassen. In diesem unsichtbaren Web sind all die Seiten zusammengefasst, die Suchmaschinen nicht indexieren können. Wo aber liegen die Barrieren und was hält Suchmaschinen von einer Indexierung dieser Inhalte ab?
Technische Barrieren Es gibt Inhalte, die können von Suchmaschinen aus technischen Gründen nicht erfasst werden. Dazu gehören Datenbankinhalte ebenso wie Daten aus passwortgeschützten Bereichen. Warum aber können Suchmaschinen eigentlich keine Datenbankinhalte indexieren? Wenn Sie zum Beispiel den Bestand einer Bibliothek durchsuchen wollen, geben Sie normalerweise einen Suchbegriff in die entsprechende Suchmaske ein. Die Ergebnisse dieser Abfrage werden anschließend auf der generierten Antwortseite angezeigt. Diese Seite wird dynamisch generiert, allerdings nicht gespeichert. Ausschließlich Ihnen wird die Trefferliste in dieser Form angezeigt. Sobald Sie eine andere Seite aufrufen oder eine neue Suche durchführen, existiert die Trefferseite nicht mehr. Da Suchmaschinen ausschließlich Links folgen und nicht etwa selbstständig Suchbegriffe eingeben können, bleiben solche Trefferlisten für sie unsichtbar. Neben diesen offensichtlichen Barrieren gibt es aber auch solche, die von Webautoren versehentlich, beziehungsweise aus Unkenntnis, eingebaut werden. Das geschieht zum Beispiel im Zusammenhang mit dem sogenannten User-Tracking, also dem Verfolgen von Besucheraktivitäten. Dabei muss der Besucher auf jeder Seite, die er aufruft, von neuem identifiziert werden. Realisiert wird das normalerweise anhand von Cookies oder SessionIDs. Ruft eine Suchmaschine eine solche Seite auf, wird ihr ebenfalls ein Cookie oder eine SessionID zugewiesen. Allerdings akzeptieren Suchmaschinen Cookies nicht. Aber auch im Zusammenhang mit SessionIDs kommt es bei
107
Kapitel 5
Suchmaschinen immer wieder zu Problemen, was darauf zurückzuführen ist, dass die Suchmaschinen den URL inklusive der SessionID im Index speichern. Im Suchmaschinen-Index landen dann URLs mit folgendem Schema: http://www.pommeranzer-seopard.de/index.php4?sessionid=42342342 Wird dieser URL im Index abgelegt und später in der Trefferliste angezeigt, ist die SessionID abgelaufen. Ruft der Besucher die Seite über eine veraltete SessionID auf, greifen, je nachdem wie die Seite programmiert wurde, verschiedene Mechanismen. Oft sind die Seiten so gestaltet, dass der Besucher automatisch auf die Startseite umgeleitet wird, wo man ihm automatisch eine neue SessionID zuweist. Für den Besucher ist eine solche Behandlung natürlich ärgerlich, schließlich wollte er nicht die Startseite aufrufen, sondern die Seite betrachten, auf die er in der Trefferliste der Suchmaschine gestoßen ist. Ebenso können SessionIDs aber auch dafür sorgen, dass die Seite erst gar nicht im Index einer Suchmaschine landet. Denn viele Suchmaschinen erfassen eine Seite nicht direkt, sondern analysieren beim ersten Besuch zunächst nur die Links. Erst beim nächsten Aufruf werden die URLs in den Index geschrieben. Und da beim zweiten Besuch aufgrund der abgelaufenen SessionID der URL nicht mehr gültig ist, wird die Seite nicht in den Index aufgenommen.
Zeitliche Barrieren Es gibt Informationen, die bereits nach wenigen Stunden veraltet sind. Beste Beispiele dafür sind aktuelle Wetter- oder Börsendaten. Allerdings benötigen Suchmaschinen in aller Regel einige Tage, bis sie Seiten indexiert haben und diese gefunden werden können. Hochaktuelle Informationen sind in normalen Suchmaschinen demnach nicht zu finden.
Formale Barrieren Nicht alle Dokumente können von Suchmaschinen indexiert werden. So liegen viele Dateien nicht nur im HTML-, sondern im Word-, PDF- oder PowerPoint-Format vor. Während die meisten Suchmaschinen mittlerweile mit diesen Formaten umgehen können, gibt es andere Dateiformate, die immer noch nicht indexiert werden können und somit unsichtbar bleiben. Normalerweise werden von einem Dokument ausschließlich die ersten 100 KB erfasst, was etwa einem Anteil von 100.000 Textzeichen entspricht. Befinden sich in einem Dokument wichtige Informationen jenseits der 100-KB-Grenze, werden diese nicht indexiert. Daneben gibt es aber auch von vielen Suchmaschinen künstlich hergestellte Barrieren. So werden oft illegale Inhalte aus den Indizes der Suchmaschinen entfernt. Was logisch und konsequent klingt, kann fatale Auswirkungen haben. Denn schließlich muss die
108
Offpage-Optimierung
Frage erlaubt sein, wer eigentlich festlegt, was eigentlich illegale Inhalte sind. Neben Feldern wie Kinderpornografie oder rassistischen Inhalten, bei denen sich diese Frage nicht stellt, existieren auch gewisse Grauzonen. Die sind zum Beispiel erreicht, wenn Suchmaschinen-Betreiber Inhalte indexieren, um auf dem chinesischen Markt offiziell Fuß fassen zu dürfen. Sind diese indizierten Inhalte dann illegal und dürfen auf diese Weise zensiert werden? Andererseits existiert natürlich für Suchmaschinen-Betreiber keinerlei rechtliche Verpflichtung, dass sie alle Seiten indexieren müssen. Jeder Suchmaschine bleibt es selbst überlassen, welche Seiten sie in ihren Index aufnehmen will.
Gegenmaßnahmen treffen Sie haben gesehen, welche Dinge dazu führen, dass Seiten im Deep, beziehungsweise Invisible Web, landen. Normalerweise ist man als Seitenbetreiber aber natürlich daran interessiert, dass genau das nicht geschieht. Daher sollten Sie bei der Konzeption der Seite darauf achten, dass die genannten Barrieren vermieden werden. Insbesondere sollten Sie dort, wo es möglich ist, auf passwortgeschützte Bereiche verzichten. Und versuchen Sie dort, wo ein Passwortschutz tatsächlich vonnöten ist, Alternativen anzubieten. Das könnte zum Beispiel ein Demo-Zugang oder Ähnliches sein. Sorgen Sie dafür, dass Seiten, die von Suchmaschinen indexiert werden sollen, auch tatsächlich für eine Indexierung geeignet sind.
Spezialsuchmaschinen für das Invisible Web Normalen Suchmaschinen bleiben weite Teile des Internets verborgen. Allerdings gibt es mittlerweile zahlreiche Spezialdienste, die Teile des Invisible Webs abdecken. Prinzipiell kann man diese Suchmaschinen in zwei Gruppen einteilen, nämlich einmal in die Formalen und einmal in die Inhaltlichen. Inhaltliche sind zum Beispiel: Wörterbücher und andere Nachschlagewerke Mailing-Listen Literaturlisten Unter den Formalen lassen sich die folgenden zusammenfassen: fachspezifische Suchmaschine auf eine Region spezialisierte Suchmaschine Suchmaschine für Echtzeit-Informationen Die meisten dieser Suchmaschinen sind im Internet allerdings nur sehr schwer auszumachen und führen daher eher ein Nischendasein. Um Spezialsuchmaschinen zu finden, helfen Suchmaschinen-Verzeichnisse weiter. Hier eine kleine Auswahl:
109
Kapitel 5
http://directory.google.com/Top/Computers/Internet/Searching/ – Der Bereich Suchdienste aus dem englischsprachigen Google-Index. http://www.suchlexikon.de/ – Eine Sammlung zahlreicher Suchdienste. http://www.klug-suchen.de/ – Vorwiegend deutschsprachige Suchdienste sind hier aufgeführt. Ein besonders interessanter Dienst für das Deep Web ist http://www.completeplanet.com/. Die Betreiber dieser Suchmaschine rühmen sich damit, mehr als 70.000 Datenquellen zur Recherche heranzuziehen. Dazu gehören nicht nur zahlreiche Datenbanken und Spezialsuchmaschinen, auch Zeitungen werden in die Suche mit einbezogen.
Abbildung 5.3: Eine Suchmaschine für das Invisible Web
CompletePlanet zeigt dem interessierten Besucher, welches Potenzial noch in den Suchmaschinen steckt.
110
Offpage-Optimierung
5.2 Domain-Namen Der Domain-Name ist das Aushängeschild der Webseite und sollte daher wohlüberlegt sein. Allerdings wird es immer schwieriger, einen geeigneten Namen zu finden. Denn immerhin ist die Zahl der guten und noch freien Domains stark limitiert. Aus Marketingsicht heraus, sollte der Name für den Kunden gut einprägsam sein. Schließlich wollen Sie, dass Besucher nicht nur über Suchmaschinen, sondern auch durch die direkte Eingabe der Adresse in die Adresszeile des Browsers auf Ihre Seite gelangen. Erster Grundsatz sollte daher sein, kurze Domain-Namen zu verwenden. Bedenken Sie immer, dass der Domain-Name oft auch mündlich weitergegeben werden muss. Ein langer Name wie zum Beispiel http://www.wir-sind-die-beste-firma-der-welt-und-bieten-die-besten-produkte.de/ lässt sich nur schwer am Telefon vermitteln. Was für den Gesprächspartner schlecht ist, mögen auch Suchmaschinen nicht. Denn Suchmaschinen sehen sich Domain-Namen ebenfalls sehr genau an und ziehen sie unter anderem zur Keyword-Analyse heran. Und genau deswegen ist die Wahl des richtigen Domain-Namens auch so wichtig. Selbstverständlich ist es sinnvoll, wenn wichtige Schlüsselwörter im Domain-Namen auftauchen. Dabei sollten Sie den für die Seite wichtigsten Begriff wählen. Die Aneinanderreihung von Schlüsselwörtern im Domain-Namen sollten Sie allerdings unterlassen. Denn Domain-Namen sind nicht nur für Suchmaschinen, sondern auch für menschliche Besucher interessant. Ein guter Name könnte zum Beispiel www.maler-mayer.de sein. Dieser Name enthält das Schlüsselwort Maler und ist für Suchmaschine und Mensch gut zu lesen. Anders sieht es mit folgendem Domain-Namen aus: www.pinseln-maler-farben-lacke-auftrag-mayer.de Hier findet man zwar viele Schlüsselwörter, merken kann sich der »normalsterbliche« Besucher solch eine Domain allerdings nicht.
!
!
!
ACHTUNG
Vorsicht ist geboten, wenn man Domain-Namen verwenden will, die den Stadtnamen enthalten. Die Domain www.maler-mayer-berlin.de ist völlig in Ordnung. Probleme könnte es hingegen bei der Domain www.maler-berlin.de geben. Denn mittlerweile gibt es rechtskräftige Urteile, die den Einsatz solcher Domains wegen Benachteiligung der Mitbewerber untersagen.
111
Kapitel 5
Den passenden Domain-Namen zu finden, ist nicht einfach. Denn sehr oft ist der gewünschte Name bereits vergeben. In diesem Fall kann man mit dem Bindestrich etwas tricksen. Das bietet übrigens noch einen weiteren Vorteil: Bindestriche werden bei der Indexierung entfernt. Die Suchmaschinen indexieren dann tatsächlich nur noch die einzelnen Schlüsselwörter und gewichten die Seite bei entsprechenden Suchanfragen höher. Aber auch der Besucher merkt sich Bindestrich-Domains besser und kann sie auf den ersten Blick lesen. Werfen Sie dazu noch einmal einen Blick auf die bereits mehrfach angesprochene Domain: www.maler-mayer.de Hier weiß jeder, worum es geht: um einen Maler, der mit Nachnamen Mayer heißt. Und das erkennt nicht nur der menschliche Betrachter, sondern auch die Suchmaschine. Wie wichtig Bindestriche sein können, zeigt der Blick auf den fast identischen Domain-Namen. www.malermayer.de Hier wurde zwar lediglich der Bindestrich weggelassen, trotzdem ist die Domain so nur schwer zu lesen. Google ist übrigens dabei behilflich, wenn Sie sich zeigen lassen wollen, wie andere Seitenbetreiber Schlüsselwörter in ihre Domains integrieren. Dazu trägt man in das Google-Suchfeld allinurl: Schlüsselwort ein, wobei Schlüsselwort durch das tatsächliche Schlüsselwort ersetzt werden muss. Google listet daraufhin alle Domains auf, in deren URL das eingegebene Keyword enthalten ist. Lassen Sie sich davon bei der Suche nach einem passenden Domain-Namen inspirieren. 18
So wichtig sind dieDomains
Wo immer es möglich ist, sollten Sie bei deutschen Webseiten immer die Endung de wählen. Den Suchmaschinen ist die Endung zwar egal, den potenziellen Besuchern aber nicht. Denn stammen sie aus Deutschland, gehen sie davon aus, dass Ihre Domain auf de endet. Sollte die gewünschte de-Domain bereits vergeben sein, suchen Sie sich eine neue und weichen Sie auf keinen Fall18 auf andere Endungen wie net oder org aus. Denn die meisten Leute werden sich zwar an den Domain-Namen erinnern, die Endung wissen aber die wenigsten und gehen stattdessen davon aus, dass sie de lautet.
18 Es gibt natürlich Ausnahmen, bei denen solche alternativen Endungen durchaus sinnvoll sind. Denken Sie nur an Wikipedia (http://de.wikipedia.org/).
112
Offpage-Optimierung
Abbildung 5.4: So kreativ können Maler sein.
5.2.1 Das Problem mit neuen Domains Ergattert man eine neue Domain, ist die Freude groß. Getrübt wird diese allerdings, wenn man sich einmal genauer mit dem Zusammenhang zwischen neuen Domains und deren Aufnahme in die Suchmaschinen beschäftigt. Denn mittlerweile gilt es als gesichert, dass es neue Domains zunächst schwerer haben, oft nur auf Probe in den Index aufgenommen und strenger unter die Lupe genommen werden. Zumindest Google hat die Existenz einer solchen Sandbox zugegeben. Ein Google-Ingenieur gab auf einer Suchmaschinen-Konferenz in San Jose (Kalifornien) Folgendes zum Besten: »regardless of their merit, or lack thereof, in a sort of probationary category...to allow time to determine how users react to a new site, who links to it, etc.«
Besonderes Augenmerk scheint Google bei neuen Domains vor allem auf den Linkzuwachs zu legen. Interessant sind dabei besonders solche Seiten, auf die binnen kürzester Zeit sehr viele Seiten mit hohem PageRank verweisen. Aus Google-Sicht ist das ein Indiz für eine Manipulation. Denn speziell professionelle Spammer melden immer wieder neue Domains an, sobald ihre alten Seiten aus dem Index verschwunden sind. Der Grund ist denkbar einfach: Meistens hat der Betreiber der alten Webseite bereits zahlreiche Links auf seine Seite gesammelt. Jeder dieser Links führt, nachdem die Domain gewechselt wurde, zur neuen Seite. Das erhöht nicht nur den PageRank, auch die Besucher werden schlagartig mehr.
113
Kapitel 5
Wohl aus diesem Grund werden alle neuen Domains pauschal in die Sandbox gepackt und bleiben dort zwischen einem halben und einem ganzen Jahr. Wenn Sie nicht umhinkommen, eine neue Domain verwenden zu müssen, dann gehen Sie mit ihr behutsam um. Hinterlegen Sie unter dem neuen Domain-Namen passende Inhalte und sorgen Sie dafür, dass einige Links auf diese Domain zeigen. Und dann nur nicht nachlassen! Verändern Sie die Seite in regelmäßigen Abständen und ergänzen Sie sie mit neuen Inhalten. Auf diese Weise behutsam gewachsene Domains werden von Google wohlwollend betrachtet und entkommen so schneller der Sandbox.
Ran an den (Domain-)Speck Wie kann man sich nun aber das Wissen zunutze machen, dass alte Domains besser »laufen« als nagelneue? Natürlich indem man sich um verfallene oder vom ursprünglichen Besitzer zurückgegebene Domains bemüht und diese übernimmt. Abgelaufene Domains muss man nicht mühsam von Hand suchen und man braucht auch nicht auf einen Glückstreffer zu hoffen. Es gibt zahlreiche Spezial-Tools, die das Internet und Suchmaschinen nach verfallenen Domains durchforsten. Zu finden sind diese unter dem Schlagwort Expired Domain Name Software. Hier einige bekannte Vertreter: Expired Domain Name Watcher (http://www.rebrandsoftware.com/) Domain Grabber (http://www.dnware.com/) Expired Domain Sniffer (http://www.shareit.de/217029-1.html) Die Programme arbeiten alle nach dem gleichen Prinzip: Die gefundenen Domains werden sortiert und können dann ganz bequem registriert werden. Natürlich sind solche Tools kein Garant, um an Topadressen zu kommen. Vielleicht gibt es aber genau in dem Bereich, in dem Sie Ihre Webseite betreiben, freie und gute Domains, von denen Sie bislang noch nichts wussten. Domains verkaufen Möglicherweise kommen Sie auf die Idee, plötzlich frei gewordene Domains einfach weiterzuverkaufen. Und in der Tat wäre das ein äußerst lukratives Geschäft. So wurde die Domain sex.com für 14 Millionen US-Dollar verkauft. Allerdings sind die Chancen marginal, dass Sie auch nur annähernd an eine solche Domain kommen. Allzu viel Energie sollten Sie darauf also nicht verschwenden.
114
Offpage-Optimierung
Abbildung 5.5: Auf der Suche nach abgelaufenen Domains
5.3 Zugriffssteuerung mit der Datei robots.txt Die Datei robots.txt ist eines der zentralen Hilfsmittel zur Steuerung von Robots und Spidern. Die weit verbreitete Annahme, dass es sich bei der Datei robots.txt um einen Zugriffsschutz handelt, ist allerdings falsch. Denn jeder, den es interessiert, kann die Datei robots.txt jeder beliebigen Webseite im Browser anzeigen.19 Die Funktionsweise der robots.txt ist denkbar einfach: Besucht ein Robot die Seite, überprüft er zunächst, ob eine robots.txt vorhanden ist. Anschließend analysiert er die darin enthaltenen Informationen und spidert die Seite entsprechend. Das RobotsExclusion-Standard-Protokoll (http://www.robotstxt.org/wc/robots.html) wird als hinweisendes Protokoll bezeichnet, was nichts anderes bedeutet, als dass sich Crawler an die Anweisungen halten können, aber nicht müssen. Damit die robots.txt funktioniert, müssen einige Voraussetzungen erfüllt sein: Der Dateiname muss kleingeschrieben sein. Die Datei muss also immer robots.txt heißen. ROBOTS.TXT oder Robots.txt funktionieren nicht. Die robots.txt muss im Stammverzeichnis (oberste Ebene) liegen. Je Domain ist nur eine robots.txt zulässig. 19 Vorausgesetzt, auf der Domain wurde eine robots.txt hinterlegt.
115
Kapitel 5
Das war es bereits, was Sie an grundlegenden Dingen zu dieser Datei wissen müssen. Alles andere ist simpelste Syntax, die in einer normalen Textdatei definiert wird. Der Aufbau der robots.txt folgt einem bestimmten Schema. Dabei gibt man zunächst den Crawler an, für den die Anweisungen gelten sollen. Danach werden die einzelnen Anweisungen definiert. Wollen Sie erreichen, dass bestimmte Verzeichnisse für alle Spider gesperrt werden, verwenden Sie folgende Syntax: #
#
# Code
User-agent: * Disallow: /
Will man nur den Zugriff auf bestimmte Verzeichnisse verbieten, passt man die Syntax folgendermaßen an: #
Hierdurch werden alle Spider angewiesen, die beiden Verzeichnisse unwichtig und cgi-local nicht zu indexieren. Man kann auch explizit einzelne Spider ausschließen. Will man zum Beispiel, dass die Seiten von allen Crawlern bis auf den von Abacho indexiert werden, verwendet man folgende Syntax: #
#
# Code
User-agent: AbachoBOT Disallow: /
Dabei muss man hinter User-agent den entsprechenden Robot-Namen angeben. Für jeden Robot muss eine einzelne Zeile definiert werden. #
Auch wenn Sie keinerlei Angaben für die Crawler definieren wollen, sollten Sie eine robots.txt anlegen. Dadurch verhindern Sie die unzähligen Einträge in den Log-Dateien des Webservers, die immer erscheinen, wenn der Crawler die robots.txt nicht findet. Umgehen lassen sich diese Einträge durch folgende minimale Datei:
117
Kapitel 5
#
#
# Code
# robots.txt # Zugriff auf alle Dateien erlauben User-agent: * Disallow:
Zur Sicherheit sollten Sie die Datei robots.txt vor dem Einsatz auf Syntaxfehler untersuchen lassen. Hierfür gibt es zahllose Online-Tools. Eines davon finden Sie unter http:// www.sxw.org.uk/computing/robots/check.html. Ein schönes Beispiel für eine robots.txt Den grundlegenden Aufbau und den Einsatz der Datei robots.txt haben Sie kennengelernt. Vielleicht möchten Sie sich aber von den »Großen« für den Aufbau einer robots.txt inspirieren lassen. Ein schönes Beispiel ist die robots.txt von Wikipedia. Zu finden ist sie unter http://de.wikipedia.org/robots.txt.
5.3.1 Die Bildersuche austricksen Manche Seitenbetreiber machen es sich einfach. Wenn sie ein Bild benötigen, rufen sie einfach die Google-Bildersuche auf, geben den gewünschten Suchbegriff ein, speichern die passende Grafik ab und binden sie in ihre eigenen Seiten ein. Natürlich ist das illegal. Nur werden solche Urheberrechtsverletzungen eben kaum erkannt, weswegen viele Seitenbetreiber diesen Weg der Bildbeschaffung wählen, anstatt einen teuren Grafiker zu engagieren. Durch einen Eingriff in die Datei robots.txt können Sie den Google-Robot anweisen, die Grafiken Ihrer Seiten nicht zu indexieren. #
Geben Sie hinter Disallow jeweils das gewünschte Grafikformat an. Sollten Sie zum Beispiel auch PNG-Grafiken verwenden, tragen Sie zusätzlich Disallow: /*.png$ ein. Von Google selbst wird noch eine andere Syntax vorgeschlagen, die allerdings das Gleiche bewirkt. #
#
# Code
User-Agent: Googlebot-Image Disallow: /
118
Offpage-Optimierung
Sie können den Google-Robot übrigens auch dazu bringen, andere Dateiformate zu ignorieren. Durch die folgende Syntax werden sämtliche PDF- und DOC-Dateien, die sich innerhalb des betreffenden Webprojekts befinden, nicht indexiert: #
Auf diese Weise können Sie selbst bestimmen, was von Google in den Index aufgenommen werden soll und was nicht. Aber Achtung: Die gezeigte Syntax funktioniert nur unter Google. Andere Suchmaschinen bleiben davon unbeeindruckt und werden Grafiken und andere Dateien wie gewohnt indexieren.
5.4 Der perfekte Domain-Umzug Mit seinen Domains in Suchmaschinen gut gelistet zu sein, ist eine reife Leistung. Denn hinter jeder guten Platzierung steckt eine Menge Arbeit. Umso ärgerlicher ist es da, wenn man gezwungen ist, mit einer Domain umzuziehen und dann feststellt, dass man nun nur unter »ferner liefen« aufgeführt ist. Die folgende Checkliste soll Ihnen dabei helfen, die Probleme eines Domain-Umzugs so gering wie möglich zu halten. Bevor Sie sich an die Arbeit machen, noch ein Wort zum Zeitfaktor. Der Umzug selbst ist relativ schnell bewerkstelligt. Bis die neue Domain aber in den Suchmaschinen erscheint, kann es eine Weile dauern. Hier ein paar Erfahrungswerte: Google = 3–6 Monate Yahoo! = 1–3 Monate MSN = 1–3 Monate Dieser Aspekt sollte auf jeden Fall berücksichtigt werden, wenn Sie mit einem DomainUmzug liebäugeln. 1. Erstellen Sie für jede einzelne Seite eine 301-Weiterleitung von der alten zur neuen Seite. 2. Passen Sie alle internen Links so an, dass sie auf die neue Seite zeigen. (Das gilt natürlich hauptsächlich für absolut definierte Hyperlinks.) 3. Schreiben Sie die Webmaster an, die Links auf Ihre alten Seiten gesetzt haben, und teilen Sie denen den neuen URL mit.
119
Kapitel 5
4. Melden Sie die neuen Seiten bei den Suchmaschinen an. Google bietet hierfür zum Beispiel die Sitemaps an. Ausführliche Informationen dazu erhalten Sie auf der Seite http://www.google.de/webmasters/. 5. Versuchen Sie so viele Backlinks wie möglich auf die neue Seite zu setzen. Diese Schritte sind aus längerer Erfahrung heraus entstanden und führen in aller Regel zu einem problemlosen Umzug. Eine Garantie, dass die neuen Seiten dann tatsächlich indexiert werden, sind sie aber natürlich nicht.
120
6
Webseiten optimieren (Onpage) Ich bin so schnell, dass ich, als ich gestern Nacht im Hotelzimmer den Lichtschalter umlegte, im Bett lag, bevor das Licht aus war.
Muhammad Ali , Boxer
Im vorherigen Kapitel haben Sie die Offpage-Maßnahmen kennengelernt. Auf den folgenden Seiten erfahren Sie alles über die möglichen Maßnahmen zur Onpage-Optimierung. Mit Onpage sind all die Optimierungsmaßnahmen gemeint, die auf einzelne Webseiten zielen. Die Technik der kleinen Schritte Sie werden in diesem Abschnitt oft den Hinweis finden, dass bestimmte Optimierungsmaßnahmen kaum Einfluss auf das Ranking haben. Diese Aussagen treffen natürlich zu, überlesen Sie aber nicht das Wörtchen kaum. Denn nur, wenn Sie auch solche »unwichtigen« Maßnahmen ergreifen, können Sie sich gegenüber Ihren Konkurrenten einen kleinen, dafür aber möglicherweise entscheidenden Wettbewerbsvorteil verschaffen.
6.1 Die technische Seite Das Grundgerüst von Webseiten bildet die HTML-Syntax. In diesem Buch wird davon ausgegangen, dass Sie in dieser Sprache zumindest Grundkenntnisse besitzen. Sollte das nicht der Fall sein, finden Sie gute Seiten für HTMLNeulinge und Fortgeschrittene unter http://www.htmlworld.de/ und http://aktuell.de.selfhtml.org/.
Kapitel 6
6.1.1 Die Startseite Auf bemerkenswert vielen Seiten beginnt das Dilemma aus SEO-Sicht bereits mit dem Aufrufen der Startseite. Denn vielen Seitenbetreibern scheinen schlicht und ergreifend die Ideen zu fehlen, was sie auf der Startseite platzieren könnten. Entweder gibt es den netten Satz Herzlich willkommen auf unseren Seiten. oder man bekommt Links angezeigt, über die man zwischen einer HTML- und einer Flash-Version der Seite wählen kann. Beide Varianten sind für eine Seite, die gut platziert in den Suchmaschinen zu finden sein soll, denkbar ungeeignet. Denn gerade die Startseite eines Webprojekts wird von Suchmaschinen im Rankingverfahren besonders hoch bewertet.
!
!
!
ACHTUNG
In die gleiche Richtung gehen übrigens Seiten, auf denen Flash-Designer zeigen, was sie können, und die Besucher mit kleinen Intros erfreuen. Die sehen zwar meistens nett aus, bieten aber vor allem für Suchmaschinen keine verwertbaren Informationen. Aber nicht nur aus diesem Grund sind Flash-Introseiten in der Kritik. Denn anders, als in der Entwicklergemeinde gerne angenommen wird, verstehen viele Besucher den Skip-Intro-Link nicht, der auf vielen Introseiten zum Überspringen des Flash-Films untergebracht ist. Die meisten Besucher betrachten das Intro dann notgedrungen in voller Länge. Als Seitenbetreiber kann man dann davon ausgehen, dass diese Besucher die Seite kein zweites Mal aufrufen werden.
Ebenso wenig geeignet, um eine Top-Platzierung der Seite zu erreichen, sind Startseiten, auf denen sich vermeintliche SEO-Experten ausgetobt haben. Das Ergebnis sind dann oft solche Seiten: Wir bieten Ihnen die folgenden Leistungen: [...] Hier folgt dann eine Liste der Stichwörter, unter denen die Seite gefunden werden soll. Diese Optimierungsvariante bringt allerdings (fast) überhaupt nichts. Denn die integrierten Schlüsselwörter tauchen meistens nur einmal auf der Startseite auf. Für Suchmaschinen ist das natürlich zu wenig. Grund für dieses Vollstopfen der Seite mit Unmengen von Schlüsselwörtern ist der Sparzwang. So wollen viele Seitenbetreiber die Kosten für die Suchmaschinen-Optimierung sparen, indem sie all ihre dahin gehenden Fähigkeiten auf die Startseite konzentrieren. Das funktioniert nicht! SuchmaschinenOptimierung kann nur dann effektiv sein, wenn sie für alle Seiten durchgeführt wird. Stellt sich nun natürlich die Frage, wie die »perfekte« Startseite denn aussehen könnte. Wichtigster Punkt ist, dass die Hauptnavigation integriert wird, in der die wichtigsten Schlüsselwörter als Links enthalten sind. Noch besser ist es, wenn die Navigation nicht
122
Webseiten optimieren (Onpage)
nur aus einzelnen Keywords besteht, sondern die Menüpunkte durch kurze Infotexte beschrieben werden. Das liefert nicht nur den Crawlern zusätzliche Informationen, auch dem menschlichen Besucher wird auf diese Weise das Zurechtfinden auf der Seite erleichtert. Zusätzlich kann man aktuelle Meldungen auf der Startseite unterbringen, um so Besucher und Crawler eine gewisse Aktualität der Seite zu suggerieren. Ein schönes Beispiel für eine solche Startseite ist http://www.mozilla.com/.
Abbildung 6.1: So hat man die neuesten Informationen immer im Blick.
Wichtig bei der Gestaltung der Startseite ist vor allem, dass Besucher und Crawler gleichermaßen befriedigt werden. Denn es bringt nichts, wenn die Suchmaschinen die Seite lieben, sie von menschlichen Besuchern aber ignoriert wird. Es muss ein gesunder Kompromiss gefunden werden.
6.1.2 Navigation Eines der wichtigsten Elemente der gesamten Webseite ist die Navigation. Denn die ist aus zweierlei Aspekten heraus von elementarer Bedeutung. Sie muss einmal den Anforderungen der Suchmaschinen entsprechen, andererseits muss sie gut bedienbar sein und vom Besucher verstanden werden. Auf den folgenden Seiten werden verschiedene Menüarten und deren Vor- und Nachteile vorgestellt. Zunächst geht es aber darum, wie Sie Menüs effektiv entwerfen können.
123
Kapitel 6
Menüs entwerfen Selbst für erfahrene Webentwickler ist die Frage, aus welchen Menüpunkten sich eine gute Navigation zusammensetzt, eine Herausforderung. Dabei sieht es auf den ersten Blick ganz einfach aus. Ausgehend von der Startseite werden die Hauptpunkte notiert, denen man die entsprechenden Untereinträge zuordnet. Was auf den ersten Blick recht flink von der Hand geht, wird gegen Ende der Arbeit von einigen Störfaktoren torpediert. Denn dann tauchen Menüpunkte auf, die sich nicht so einfach einordnen lassen. Wohin dann mit denen? Einige Seitenbetreiber lassen die Punkte dann einfach weg, während andere sie einfach unter Menüeinträge wie Sonstiges oder Allgemeines zusammenfassen. Das ist natürlich »suboptimal«. Vermeiden lassen sich solche Probleme, indem Sie sich von der anderen Seite an das Menü herantasten. Bewährt hat sich dabei Folgendes: Nehmen Sie sich einen Stapel leerer Zettel zur Hand und schreiben Sie auf jeden einen Punkt, der später auf der Webseite erscheinen soll. Folgende Zettel könnten dann auftauchen: Kontakt Impressum Jobs Produktübersicht Versuchen Sie, so gewissenhaft wie möglich zu arbeiten. Nachdem alle potenziellen Seiten auf einem eigenen Zettel stehen, geht es ans Sortieren. Packen Sie dabei alle Seiten beziehungsweise Zettel, die thematisch zueinander passen, auf einen Haufen. Sie werden schnell merken, dass sich auf diese Weise eine Struktur herausbildet. Jetzt müssen Sie »nur« noch jeweils einen Namen für die einzelnen Zettelhaufen finden und schon haben Sie die Navigation. Nachdem die Grundstruktur steht, stellt sich die Frage, was für eine Navigationsart verwendet werden soll. Die wichtigsten Varianten werden auf den folgenden Seiten vorgestellt.
Navigation im Katalogstil Egal ob Yahoo! oder DMOZ, Webseiten im Katalogstil sind weitverbreitet. Für den Anwender ist diese Struktur äußerst angenehm. Er erkennt auf den ersten Blick, worum es sich bei den einzelnen Punkten handelt. Eine solche Navigation bietet sich allerdings nur für spezielle Seiten an. Für normale Firmenwebseiten ist so etwas ungeeignet.
124
Webseiten optimieren (Onpage)
Abbildung 6.2: Das wohl wichtigste Verzeichnis
JavaScript-Menüs Suchmaschinen haben Probleme mit Menüs, die auf einer clientseitigen Skript- oder Programmiersprache wie JavaScript basieren. Dennoch wollen viele Webentwickler nicht auf die Möglichkeiten verzichten, die beispielsweise JavaScript zu bieten hat. Die folgende Abbildung zeigt ein DHTML-Menü, das dynamisch ausfährt und so den Zugriff auf die jeweiligen Menüpunkte ermöglicht:
!
!
!
ACHTUNG
Nun haben solche Menüs gleich mehrere Nachteile. Zunächst einmal ist unklar, ob sie beim Anwender richtig angezeigt werden. Vielleicht hat er in seinem Browser JavaScript deaktiviert, möglicherweise verwendet er aber auch einen nicht JavaScript-fähigen Browser. All das sind Punkte, die gegen den Einsatz von JavaScript sprechen. Erschwerend kommt hinzu, dass Suchmaschinen JavaScript nicht mögen. Sollte sich der Einsatz von JavaScript nicht vermeiden lassen, sollten Sie im unteren Seitenbereich die Navigation als reine Textlinks wiederholen. So können nicht nur Besucher ohne JavaScript-Unterstützung die Seite nutzen, auch Suchmaschinen wird auf diese Weise ermöglicht, den Links zu folgen.
125
Kapitel 6
Abbildung 6.3: Eine Navigation, die nicht ideal ist
Flash- und Java-Menüs Noch fataler als JavaScript-Menüs können sich Flash- und Java-Menüs auswirken. Denn die können von Suchmaschinen normalerweise überhaupt nicht ausgewertet werden. Warum das so ist, macht ein Blick auf den folgenden Quelltext deutlich: #
Trifft eine Suchmaschine auf ein so eingebundenes Applet, kann sie damit kaum etwas anfangen. Denn verwertbare Informationen sind darin nicht enthalten. Sie sollten daher auf den Einsatz von Java-Applets für Menüs verzichten. Ganz ähnlich verhält es sich übrigens mit Flash-Menüs. Zwar gibt es mittlerweile durchaus Techniken, mit denen Suchmaschinen-Betreiber Flash-Inhalte auslesen und auswerten können, wirklich Gebrauch macht davon bislang aber kaum jemand.
126
Webseiten optimieren (Onpage)
Warum auch Flash-basierte Menüs hinsichtlich der Suchmaschinen-Optimierung eher »suboptimal« sind, zeigt ein Blick auf den folgenden HTML-Code, über den ein FlashFilm in eine Webseite integriert wird.20 #
Auch hier wird deutlich, dass Suchmaschinen keinerlei verwertbare Informationen darüber erhalten, was sich hinter dem -Tag versteckt.
Fazit Eine gute suchmaschinenfreundliche Navigation sollte heutzutage ausschließlich aus Textlinks bestehen. Lediglich wer seine Besucher über andere Kanäle als Suchmaschinen auf seine Seiten lockt, kann über Flash-, Java- oder JavaScript-Lösungen nachdenken. Alle anderen Seitenbetreiber tun gut daran, sich auf das Wesentliche zu konzentrieren. Und das sind einfache Textmenüs mit aussagekräftigen Linktexten.
6.1.3 Layout Viele Webentwickler denken bei Suchmaschinen-Optimierung in erster Linie an den PageRank und die Linkpopularität. Allzu gerne wird dabei übersehen, dass auch das Grund-Layout der Seite entscheidenden Einfluss auf das Ranking haben kann. Die wichtigsten Aspekte, die dabei eine Rolle spielen, werden hier kurz vorgestellt. Im weiteren Verlauf dieses Kapitels gibt es dann ausführlichere Informationen zu den einzelnen Teilgebieten. 20 Beachten Sie, dass es sich hier um die von den Flash-Entwicklern empfohlene Variante zur Integration von Flash-Inhalten in HTML-Dateien handelt. Valider HTML-Code ist das allerdings nicht.
127
Kapitel 6
Frames – Auf Frames sollte in aller Regel verzichtet werden, da sie schlicht und ergreifend zu viele Nachteile haben. Im Zusammenhang mit der SuchmaschinenOptimierung wiegt am schwersten, dass das Frameset für Suchmaschinen kaum verwertbare Informationen enthält und das Ranking dementsprechend schlecht ausfällt. So bekommen die Unterseiten mit dem Frameinhalt beispielsweise nur 1/6 des PageRanks frameloser Unterseiten. Das entspricht ca. einem ganzen PR-Punkt. Intro-Seiten – Verzichten Sie auf eine Startseite, die nur ein Logo oder Flash-Intro enthält. Denn solche rein grafischen Einstiegsseiten sind für ein vernünftiges Ranking ungeeignet. Stattdessen sollten Sie bereits auf der Startseite informative Texte unterbringen, in denen wichtige Schlüsselwörter integriert sind. CSS – Setzen Sie konsequent auf den Einsatz von CSS und verabschieden Sie sich davon, die Quelltexte Ihrer Seiten mit HTML-Formatierungen ( und so weiter) zu überfrachten. Neben den bekannten Vorteilen, die CSS zu bieten hat (sauberer Quellcode, bessere Anpassbarkeit, höhere Flexibilität), erhöht sich durch den CSS-Einsatz auch das sogenannte Signal-Rausch-Verhältnis, also das Verhältnis von Inhalt zu Code. Und je höher dieses Verhältnis zugunsten des Inhalts ausfällt, umso besser wird das Ranking der Seite. Layout-Tabellen – Auch das ist ein Überbleibsel aus Zeiten, in denen HTML nicht nur für die Strukturierung der Seite, sondern auch für deren Layout herangezogen wurde. Immer noch gibt es zahllose Webseiten, bei denen das gesamte Layout auf einer riesigen verschachtelten Layout-Tabelle basiert. Suchmaschinen mögen solche Tabellen nicht. Sie sollten daher Tabellen nur dort einsetzen, wo sie auch tatsächlich berechtigt sind. Und das ist in erster Linie in Zusammenhang mit der übersichtlichen Präsentation von Daten der Fall. Für die Positionierung von Elementen der Webseite sollte hingegen konsequent auf CSS gesetzt werden.
> >
>
HINWEIS
Sie haben gesehen, mit welchen grundlegenden Mitteln sich das Ranking der Webseite verbessern lässt. Relativ einfach lassen sich die genannten Punkte natürlich dann umsetzen, wenn eine neue Webseite gestaltet werden soll. Die kann dann von Anfang an mit CSS ausgestattet und zum Beispiel ohne Frames gestaltet werden. Schwieriger sieht es freilich aus, wenn eine bestehende Webseite angepasst werden soll. Aber auch hier lohnt sich die Mühe. Denn Sie können zum Beispiel eine framebasierte Webseite so noch für Suchmaschinen optimieren. Ein besseres Ranking werden Sie erreichen, wenn Sie auf Frames verzichten.
6.2 Perfektes HTML HTML ist die Sprache des WWW. In SEO-Foren wird bereits lange diskutiert, ob valides HTML Einfluss auf die Platzierung in Suchmaschinen hat. Diese Frage lässt sich nur mit Jein beantworten. Denn zwar gewichten Suchmaschinen nicht nach gültigem
128
Webseiten optimieren (Onpage)
und ungültigem HTML-Code, es kann bei nicht validen Seiten aber durchaus vorkommen, dass Dokumente beim Indexieren vom Parser des Crawlers falsch interpretiert werden. So kann schon ein nicht geschlossenes Tag dazu führen, dass der gesamte Seiteninhalt vom Crawler nicht berücksichtigt wird. Auch wenn ein Browser eine Webseite richtig darstellt, bedeutet dies noch lange nicht, dass der Quellcode der Seite tatsächlich fehlerfrei ist. Und eben nicht alle Webcrawler interpretieren HTML-Code so fehlertolerant wie Browser. Gültigen HTML-Code zu erstellen, ist gar nicht so schwer. Lediglich an ein paar Grundregeln müssen Sie sich beim »Coden« halten. Die größten Fallstricke finden Sie auf den folgenden Seiten.
6.2.1 Der Grundaufbau einer Webseite Viele Webentwickler verwenden auch heute noch Elemente aus längst vergangenen HTML-Zeiten oder bauen ihre Dokumente schlichtweg falsch auf. Dabei ist es dank der Cascading Stylesheets einfach, optimierte Webseiten zu erstellen. Durch CSS kann man Inhalt und Design von Webseiten vollständig trennen. So lässt sich ein und dieselbe Seite mit der gleichen HTML-Struktur versehen, mit CSS aber gänzlich anders formatieren. Interessante CSS-Beispiele liefert die Seite http://www.csszengarden. com/.
Abbildung 6.4: So flexibel sind Webseiten mit CSS.
129
Kapitel 6
Die Möglichkeiten, die CSS bietet, verleiten viele Webentwickler allerdings dazu, die logische Struktur von Dokumenten gänzlich außer Acht zu lassen. Kein Wunder, schließlich kann ein normaler Textabsatz durch den Einsatz von CSS genauso wie eine Überschrift gestaltet werden. Das führt oft dazu, dass viele Webentwickler nicht mehr die wichtigsten Strukturen und Konventionen für Webseiten einhalten und somit fundamentale Rankingfaktoren außen vor lassen. Trotz aller Fähigkeiten von CSS, sollten HTML-Seiten im Normalfall die folgenden Elemente in dieser Reihenfolge enthalten: Titel Metadaten Überschrift erster Ordnung () Textabsatz (
oder ) Überschrift zweiter Ordnung () Textabsatz (
oder ) Weitere Überschriften zweiter oder dritter Ordnung Das ist ein Dokumentaufbau, wie er auch in wissenschaftlichen Arbeiten verwendet wird. Suchmaschinen lieben auf diese Weise strukturierte Seiten und gewichten sie demzufolge höher. Voraussetzung dafür ist allerdings, dass die Strukturen auch tatsächlich mit sinnvollen Inhalten gefüllt sind. Für die Gestaltung kann CSS verwendet werden. Dabei spielt es dann auch keine Rolle, in welcher Reihenfolge die Elemente auf der Webseite dem menschlichen Betrachter präsentiert werden. Wichtig ist lediglich die Reihenfolge, in der die Elemente im Quelltext stehen.
6.2.2 Tags schließen »Gerne« wird vergessen, Tags zu schließen. Im schlimmsten Fall führt das dazu, dass große Teile des Dokuments weder vom Besucher gelesen noch bei der Indexierung berücksichtigt werden. Das folgende Beispiel zeigt einen typischen Fehler: #
#
# Code
Content
Navigation
165
Kapitel 6
Auf diese Weise stößt der Crawler tatsächlich zuerst auf den Inhaltsbereich und wird die Seite entsprechend besser bewerten. Die leere Zelle können Sie übrigens mit verschiedenen Mitteln (zum Beispiel Ein-Pixel-Grafiken) so kaschieren, dass der Besucher sich an ihr nicht stören kann. Nun sind Layoutaufgaben nur ein Aspekt. Denn tatsächlich existieren zahlreiche Webseiten, die Tabellen dafür einsetzen, wofür sie eigentlich gedacht sind: der übersichtlichen Präsentation von Daten. In diesem Zusammenhang taucht in verschiedenen SEO-Foren immer wieder das summary-Attribut auf. Dieses Attribut dient der Zusammenfassung der Tabelle. #
#
# Code
[...]
Normalerweise ist das summary-Attribut für Sprachausgabesysteme gedacht, die den dort definierten Inhalt vorlesen. Mittlerweile unterstützt aber zumindest auch Mozilla Firefox dieses Attribut. Anstelle einer Sprachausgabe wird die Zusammenfassung angezeigt, wenn man den Tabellenkopf mit der rechten Maustaste anklickt und Eigenschaften wählt. Sie ahnen es schon: Natürlich kann man dieses Attribut dazu verwenden, einige Schlüsselwörter zu platzieren. Schaden tut das nicht – natürlich immer vorausgesetzt, dass kein Keyword-Stuffing stattfindet. Messbare Erfolge werden Sie dadurch allerdings kaum erzielen. Ganz ähnlich gelagert ist das -Attribut. Auch das soll normalerweise bei Sprachausgabesystemen dazu dienen, eine Zusammenfassung der Zellinhalte auszugeben. #
#
# Code
Zelle
Wie beim summary-Attribut gilt auch hier, dass es für das Platzieren von Schlüsselwörtern im normalen Rahmen verwendet werden kann. Durchschlagenden Erfolg wird man mit dieser Methode allerdings nicht erzielen.
6.2.13 Grafiken Auch wenn es Internet-Puristen gerne anders hätten: Die meisten Webseiten nutzen heute zur Visualisierung von Sachverhalten oder einfach aus ästhetischen Gesichtspunkten Grafiken. Dagegen ist natürlich zunächst einmal nichts einzuwenden. Das gilt allerdings nur aus menschlicher Sicht. Denn Suchmaschinen mögen Grafiken überhaupt nicht.
166
Webseiten optimieren (Onpage)
Sonderfall Image Maps Neben den normalen Grafiken, gibt es auch die sogenannten Image Maps, also verweissensitive Grafiken. Ausführliche Informationen dazu und wie sich diese für Suchmaschinen optimieren lassen, erhalten Sie im nächsten Kapitel.
Diesen Effekt können Sie lediglich durch einen vernünftigen Dateinamen und die beiden Attribute alt und title aufheben. Eine für Suchmaschinen optimierte Grafikeinbindung sieht folgendermaßen aus: #
#
# Code
Über das alt-Attribut weist man der Grafik einen Alternativtext zu. Angezeigt wird er, wenn der Browser die Grafik nicht darstellen kann.28 Der Internet Explorer zeigt den Inhalt des alt-Attributs in einem Tooltip-Fenster an, wenn man mit dem Mauszeiger länger über der Grafik verweilt. Das ist eine Fehlinterpretation. Denn, um Informationen in einem Tooltip-Fenster anzuzeigen, steht laut HTML-Spezifikation das titleAttribut zur Verfügung. Dieses Universalattribut dient dazu, einem HTML-Element zusätzliche Hinweise hinzuzufügen. Anders als beim alt-Attribut gibt man hier aber nicht nur zwei, drei Wörter an, sondern liefert eine etwas ausführlichere Bildbeschreibung oder Zusatzinformationen. Das alt-Attribut hat übrigens nicht nur für die Suchmaschinen-Optimierung eine gewisse Bedeutung. Auch wer seine Seiten mit validem HTML-Code ausstatten will, muss dieses Attribut verwenden. Weitverbreitet ist die Annahme, dass man möglichst viele Schlüsselwörter in die beiden Attribute alt und title packen sollte. Das ist ein Trugschluss. Notieren Sie höchstens drei Schlüsselwörter pro Attribut. Alles andere wird von Suchmaschinen entweder ignoriert oder im schlimmsten Fall als Spam bewertet. Auch in diesem Fall gilt also wie so oft: Klasse vor Masse. Wunderdinge sollten Sie sich vom Einsatz der genannten Attribute allerdings nicht erwarten. Denn auch diese Attribute ändern nichts an der Tatsache, dass Suchmaschinen Grafiken nicht mögen und textbasierte Informationen immer bevorzugt behandeln werden.
28 Als die Bandbreiten der Onlineverbindungen noch gering, die Telefonkosten aber umso höher waren, haben viele Anwender in ihrem Browser die Anzeige von Grafiken deaktiviert. In Zeiten fallender Preise und DSL-Flatrates macht von dieser Möglichkeit allerdings kaum noch jemand Gebrauch.
167
Kapitel 6
alt- und title-Attribute auch für andere HTML-Elemente Prinzipiell kann jedem HTML-Element ein alt- und title-Attribut zugewiesen werden. Ganz »Clevere« haben diese Attribute sogar schon im <script>- und <style>-Tag untergebracht. Ob diese Maßnahmen tatsächlich etwas bringen, sei dahingestellt. Eklatanten Einfluss auf das Ranking haben sie nicht. Sie sollten sich daher besser erst um andere SEO-Maßnahmen kümmern und sich dann – wenn Sie noch Zeit haben – dieser »Geheimwaffe« bedienen.
Eine dritte Möglichkeit zur Bildbeschreibung bietet das longdesc-Attribut. Diese Variante wurde mit HTML 4.0 eingeführt und erlaubt, auf externe Stellen oder Dateien zu verweisen, in denen zusätzliche Informationen zur Grafik zu finden sind. #
#
# Code
Als Wert wird dem longdesc-Attribut im aktuellen Beispiel die Datei beschreibung.html zugewiesen. Bei dieser Datei handelt es sich um eine normale HTML-Datei, in der ausführliche Informationen zur gezeigten Abbildung hinterlegt sind. Derzeit unterstützen allerdings lediglich Netscape ab Version 6.0 und Firefox dieses Attribut, und das auch nur »mittelprächtig«. So muss man bei diesen Browsern die Grafik mit der rechten Maustaste anklicken und Eigenschaften wählen.
Abbildung 6.12: Der Firefox unterstützt das longdesc-Attribut.
Im Bereich Beschreibung findet der gewiefte Besucher die Adresse zur Langbeschreibung der Grafik. Um sich diese Beschreibung anzeigen zu lassen, muss er diesen URL nun in die Adresszeile des Browsers kopieren. Von dieser Möglichkeit wissen natürlich nur die wenigsten Besucher. Umgehen kann man dieses Problem, indem man einen zusätzlichen Link neben dem Bild platziert. Der entsprechende Quelltext könnte folgendermaßen aussehen:
168
Webseiten optimieren (Onpage)
#
#
# Code
[Beschreibung]
Hier wird neben der Grafik ein Hyperlink angezeigt, über den der Besucher die Beschreibungsseite des Bildes aufrufen kann. Beachten Sie, dass im aktuellen Beispiel der Dateiname beschreibung.html lediglich zu Demonstrationszwecken verwendet wird. Im Praxiseinsatz sollte man einen Namen verwenden, in dem Keywords enthalten sind. Bevor Sie sich die Mühe machen, eine ausführliche Beschreibungsseite für ein Bild aufzubauen, müssen Sie sich darüber im Klaren sein, dass das longdesc-Attribut von den Suchmaschinen derzeit noch nicht unterstützt wird und sie dem longdesc-Verweisziel nicht folgen. Von dieser Warte aus können Sie also durchaus auf dieses Attribut verzichten. Allerdings bietet longdesc die Möglichkeit, menschlichen Besuchern weiterführende Informationen zu präsentieren. Und überall dort, wo das sinnvoll ist, sollten Sie diesen Service in Erwägung ziehen.
Ein-Pixel-Grafiken Was zuvor bezüglich der title- und alt-Attribute bei normalen Grafiken gezeigt wurde, lässt sich auch noch für einen anderen Bereich anwenden. Hierbei werden sogenannte Ein-Pixel-Grafiken an oberster Stelle im Dokument eingebunden. Dabei handelt es sich um Grafiken, die exakt einen Pixel groß und transparent sind. Für den Benutzer sind die unsichtbar. Das richtige Grafikformat Damit eine Grafik überhaupt transparent sein kann, muss sie im GIF- oder PNG-Format abgespeichert werden. Das sonst im Online-Bereich ebenfalls übliche JPEG-Format kennt keine Transparenz.
Eingebunden werden diese Grafiken wie ganz normale Bilder. Und auch die KeywordPlatzierung geschieht wie bei herkömmlichen Grafiken. #
#
# Code
Im Gegensatz zu anderen Bildern bekommt der Webserver vom Laden solcher EinPixel-Grafiken nichts mit. Die Ladezeit der Seite wird nicht spürbar verlangsamt. Normalerweise haben Suchmaschinen gegen diese Form der Optimierung nichts. Aber
169
Kapitel 6
auch hier gilt, dass Sie auf Keyword-Stuffing unbedingt verzichten sollten, da Ihre Seite dann schnell aus dem Index der Suchmaschinen gelöscht werden könnte.
!
!
!
ACHTUNG
Ihnen ist im gezeigten Beispiel sicherlich aufgefallen, dass auf den Einsatz der beiden für Grafiken eigentlich wichtigen Attribute width und height verzichtet wurde. Das sollten Sie auf Ihrer Seite ebenfalls so handhaben. Denn anhand einer Seitenanalyse könnten Suchmaschinen ganz einfach nach Grafiken Ausschau halten, die eine Breite und Höhe von einem Pixel haben. Allerdings streiten sich in diesem Punkt die »Gelehrten«. Denn mittlerweile gibt es immer mehr Werbeanbieter, die ihre Erfolgs- bzw. Reichweitenmessung anhand von Ein-Pixel-Grafiken durchführen. Und würden die Suchmaschinen alle Seiten dieser Anbieter jeweils als Spam bewerten, schnitten sie sich ins eigene Fleisch.
Allerdings gilt bei den Ein-Pixel-Grafiken das Gleiche wie bei normalen Bildern: Der Effekt der Optimierung ist gering. Denn die Suchmaschinen legen eher Gewicht auf tatsächliche Inhalte und stufen die das Bild beschreibenden Informationen daher als weniger wichtig ein. Da Ein-Pixel-Grafiken, im normalen Maß eingesetzt, allerdings keinen negativen Einfluss auf das Ranking haben, können sie ein durchaus probates Mittel zur Optimierung sein.
6.2.14 Formulare Formulare werden im Zusammenhang mit der Optimierung von Webseiten bislang noch recht selten eingesetzt. Dabei können die sogenannten Hidden-Felder durchaus für die Suchmaschinen-Optimierung interessant sein. Bei diesen Hidden-Feldern handelt es sich um versteckte Formularelemente, die dem Benutzer nicht angezeigt werden. Beim Absenden des Formulars werden die in diesen Feldern gespeicherten Daten mit übertragen. So können diese Daten zum Beispiel an ein PHP- oder CGI-Skript übergeben werden. In versteckten Feldern lassen sich auch Schlüsselwörter platzieren. Um ein HiddenFeld zu definieren, wird als Formulartyp hidden angegeben. Dem value-Attribut kann man anschließend beliebige Werte wie beispielsweise Schlüsselwörter zuweisen. #
#
# Code
Dieses Feld ist für den Benutzer unsichtbar, die Schlüsselwörter können aber von Suchmaschinen indexiert werden. Unter SEO-Experten wird diskutiert, inwieweit Suchmaschinen die Formulare überhaupt auswerten. Bislang ist lediglich sicher, dass noch niemand aus dem Index geflogen ist, der in geringem Umfang von Hidden-Feldern Gebrauch gemacht hat. Allerdings werden sich Suchmaschinenbetreiber natür-
170
Webseiten optimieren (Onpage)
lich sehr genau überlegen, ob sie Formulare überhaupt indexieren sollen. Denn normalerweise stehen in Formularfeldern keine für die Webseite relevanten Informationen. Schmutzige Tricks vermeiden Immer wieder taucht der Hinweis auf, dass man ein Hidden-Feld direkt unterhalb des -Tags platzieren soll, um so eine höhere Gewichtung zu erzielen. Dabei ist Vorsicht geboten. Denn wenn das Hidden-Feld nicht in einem Formular-Kontext steht, wird dieser Manipulationsversuch von den Suchmaschinen erkannt.
6.3 Besseres Ranking durch aktuelle Inhalte Ein heiß diskutiertes Thema in vielen SEO-Foren ist, ob häufige Aktualisierungen der Webseite zu einem besseren Ranking führen. Während die einen fest davon ausgehen, dass Suchmaschinen durchaus aktuellere Dokumente besser als ältere bewerten, gehen andere SEO-Experten davon aus, dass die Aktualität für Suchmaschinen keine größere Bedeutung hat. Stellt sich nun natürlich die Frage, welche Fraktion im Recht ist. Zweifellos ist es so, dass sich Suchmaschinen die Aktualisierungsfrequenzen von Webseiten merken und danach ihren Index-Rhythmus richten. So wollen die Suchmaschinen-Betreiber erreichen, dass Webseiten, die sich nur alle zwei Jahre ändern, nicht jeden Tag indexiert werden. Allerdings heißt das nicht, dass weniger aktuelle Dokumente prinzipiell schlechter gelistet werden. Bestes Beispiel dafür ist Wikipedia. Dort aufgeführte Artikel werden oft monatelang nicht aktualisiert, tauchen in den Trefferlisten allerdings immer an prominenter Stelle auf. Nun kann man natürlich zu Recht einwerfen, dass die Indizes der Suchmaschinen niemals wirklich aktuell sind, sondern immer nur ein Abbildung der Vergangenheit liefern. Der Unterschied zwischen aktuellen und alten Seiten besteht also lediglich darin, wie alt dieses Abbild tatsächlich ist.
> >
>
HINWEIS
Viele Suchmaschinen bemessen aktuelleren Webseiten höhere Bedeutung zu als älteren. Das gilt vor allem, wenn die Linkpopularität einen vergleichsweise hohen Gewichtungsfaktor besitzt. Denn die Erfahrung zeigt, dass aktuellere Webseiten weniger eingehende Links besitzen. Was nun aber nicht bedeuten muss, dass der Inhalt der neueren Webseite schlechter sein muss. Diesem Grundsatz folgen möglicherweise auch die Suchmaschinen. Demzufolge kann man davon ausgehen, dass aktuelle Dokumente von Suchmaschinen etwas besser bewertet werden als ältere, um so die Nachteile fehlender Linkpopularität etwas wettzumachen. Es handelt sich also um einen Ausgleichsfaktor zum Wert der Linkpopularität.
171
Kapitel 6
Wer nun glaubt, dass es genügt, identische Dateien einfach täglich auf den Server zu übertragen, um so den Suchmaschinen Aktualität vorzugaukeln, der irrt. Denn Suchmaschinen erkennen anhand des sogenannten Hashwerts, ob eine Seite tatsächlich neuen Inhalt enthält. Mittlerweile kann man davon ausgehen, dass mindestens ein bis zwei Sätze einer Webseite geändert werden müssen, bevor das von Suchmaschinen als Änderung anerkannt wird. Der viel zitierte Hinweis, im unteren Seitenbereich einen Aktualisierungshinweis nach dem Motto Diese Seite wurde am 24.5.2007 das letzte Mal aktualisiert. zu integrieren und das Datum durch einen Cronjob aktualisieren zu lassen, hilft demnach nicht weiter. Dazu bedarf es schon etwas mehr. Eine Möglichkeit wäre es zum Beispiel, täglich wechselnde Zitate auf der Webseite zu veröffentlichen. Realisieren lässt sich das ebenfalls über einen Cronjob, nur werden dabei ganze Sätze ausgetauscht.
Die Suche nach Dokumenten mit Datumsbeschränkung Mittlerweile bieten immer mehr Suchmaschinen in Zusammenhang mit ihren erweiterten Suchen, die Möglichkeit der Datumsbeschränkung. So kann man bei Google beispielsweise festlegen, dass ausschließlich Dokumente in der Trefferliste erscheinen, die in den letzten drei Monaten aktualisiert wurden.
Abbildung 6.13: So kann man die Suche auf einen bestimmten Zeitraum begrenzen.
172
Webseiten optimieren (Onpage)
Allerdings soll an dieser Stelle nicht verschwiegen werden, dass Suchmaschinen massive Probleme mit Datumsbeschränkungen haben. Das liegt daran, dass die Algorithmen nicht ausreichen, um das tatsächliche Erstell- bzw. Änderungsdatum eines Dokuments zu erkennen. Demzufolge ist es derzeit auch noch bei keiner Suchmaschine möglich, eine Sortierung der Dokumente nach dem Datum vornehmen zu lassen. Warum haben Suchmaschinen aber solche Probleme damit? HTML selbst bietet kein eigenes Tag, über das das Datum des Dokuments bekannt gegeben werden kann. Suchmaschinen sind daher auf andere Indizien angewiesen, um das tatsächliche Datum zu bestimmen. Mögliche Faktoren sind: Das Datum, an dem das Dokument das erst Mal indexiert wurde. Angaben des Servers, auf dem das Dokument gespeichert wurde. Die Werte in den Metadaten des Dokuments. Das alles sind Verfahren, die zwar im Einzelfall funktionieren, die aber keineswegs zuverlässig arbeiten. Hauptsächlich verlassen sich Suchmaschinen auf die Angaben des Servers. Ebenfalls fließt das Datum des ersten Auffindens des Dokuments und dessen Veränderungsfrequenz mit in die Analyse ein. Eine Auswertung der Metadaten erfolgt hingegen nicht, da diese von den Webautoren nur selten angegeben werden.
173
7
Flash, PDF, CMS und andere Problembereiche Null Problemo.
Alf, Katzenliebhaber
Wie Sie Ihre Seiten für Suchmaschinen optimieren können, haben Sie auf den vorherigen Seiten gesehen. Allerdings gilt auch hier: Grau ist (fast) alle Theorie. Denn während die Optimierungsmaßnahmen bei normalen HTML-Seiten funktionieren, muss man bei dynamischen Webseiten wie Online-Shops andere Kriterien ansetzen. Und auch, wer auf Flash, PDF oder viele Grafiken setzt, muss die Optimierungsstrategie anpassen. Dieses Kapitel zeigt die typischen Problemfälle und liefert Lösungsvorschläge. Unterstützte Dateitypen Gleich zu Beginn dieses Kapitels soll mit einigen Mythen aufgeräumt werden, welche Dateitypen denn nun von den Suchmaschinen überhaupt indexiert werden können. Bei Google sind es die folgenden:
Microsoft PowerPoint (.ppt) Microsoft Word (.doc) Microsoft Works (.wks, .wps, .wdb) Microsoft Write (.wri) Rich Text Format (.rtf) Shockwave Flash (.swf) Text (.ans, .txt) Aber auch wenn diese Dateitypen prinzipiell unterstützt werden, heißt das natürlich noch lange nicht, dass sie auch uneingeschränkt empfohlen werden können. Mehr dazu im weiteren Verlauf dieses Kapitels.
7.1 Das Problem mit dynamischen Seiten Content Management Systeme (CMS) und andere dynamisch generierte Webseiten (z.B. Online-Shops) sind für Suchmaschinen standardmäßig ein rotes Tuch. Ein Blick in die Trefferlisten der Suchmaschinen zeigt, dass vergleichsweise wenige CMS-Seiten vertreten sind. Die Gründe hierfür sind vielfältig. Um sie zu verstehen, muss man sich zunächst vor Augen führen, wie solche Seiten eigentlich funktionieren. Dynamische Dokumente sind dadurch gekennzeichnet, dass vom Programmierer lediglich ein Grundgerüst der Seite definiert wird. Darin enthalten sind Platzhalter, die jeweils mit den tatsächlich angeforderten Inhalten gefüllt werden. Angefordert werden die Inhalte aus einer Datenbank. Die so generierte Seite wird via HTTP an den Client bzw. den Browser übergeben. Hier eine typische Ablauffolge für die Anforderung dynamischer Seiten. 1. Der Client stellt eine Anfrage via HTTP an den Server, das Dokument index.php herunterzuladen. 2. Der Server wertet den URL inklusive der Parameter aus, lädt die betroffene Datei in den Speicher, übergibt ihr den passenden Parameter und führt den enthaltenen dynamischen Code aus. 3. Dieser Code legt fest, welche Inhalte aus der Datenbank geladen werden sollen. 4. Die so generierte Seite wird an den Client gesendet. Der Vorteil dynamischer Seiten wird besonders deutlich, wenn man sich das Beispiel eines Online-Shops anschaut. Dort muss man normalerweise nur eine einzige Produktseite mit definierten Platzhaltern festlegen. Je nachdem, welches Produkt der Kunde auswählt, werden dessen Daten aus der Produktdatenbank ausgelesen und anstelle der Platzhalter angezeigt. Will man das Design der Produktseite anpassen, muss man die Änderungen lediglich an einer Stelle vornehmen. So schön dynamisch generierte
176
Flash, PDF, CMS und andere Problembereiche
Seiten für den Entwickler bzw. Betreiber sind, so problematisch stellt sich deren Verwendung im Zusammenspiel mit Suchmaschinen dar. Das hat mehrere Gründe: Wiederkehrende Inhalte – In einem CMS werden identische Inhalte oft an verschiedenen Stellen mehrmals verwendet. So taucht ein Artikel beispielsweise im News-Bereich auf, wird aber parallel auch noch in den Bereichen Produkte und Über uns publiziert. Aus »menschlicher« Sicht ist daran natürlich nichts verwerflich. Suchmaschinen sehen das allerdings ganz anders. Denn die wollen in den Trefferlisten möglichst Ergebnisse liefern, die sich tatsächlich (nicht nur in Nuancen) voneinander unterscheiden. Veraltete Inhalte – In einem Online-Shop ändern sich schnell mal die Preise oder Produktbeschreibungen werden durch ein zackiges Das T-Shirt muss raus ergänzt. Indexiert nun eine Suchmaschine solche Seiten, kann man davon ausgehen, dass die Suchergebnisse sehr ungenau sind. Schließlich ist zum Beispiel die Haltbarkeit von Sonderangeboten meist nicht sehr lang. URLs – Die URLs sind für Suchmaschinen denkbar ungeeignet. Grund hierfür ist die Eigenschaft dynamischer Seiten, dass sie nicht als Datei auf dem Server gespeichert, sondern erst durch den Aufruf des Clients generiert werden. Im Gegensatz zu einem normalen URL wie zum Beispiel futter.html sehen Adressen dynamischer Seiten so aus: http://www.pommeranzer-seopard.de/?produktid=234234&TS= 3234234234. Wie sich dynamische URLs für Suchmaschinen aufbereiten lassen, wird auf den folgenden Seiten anhand der beiden populärsten CM-Systeme TYPO3 und Joomla! gezeigt. Die dort beschriebenen Schritte lassen sich so aber durchaus auch auf andere Content Management Systeme anwenden.29 Anfangs weigerten sich Suchmaschinen beharrlich, dynamisch generierte Seiten zu indexieren. Mittlerweile haben CMS- und Shop-Systeme allerdings so an Bedeutung gewonnen, dass einige Suchmaschinen-Betreiber bereits eingelenkt haben. Google, Yahoo! und MSN indexieren beispielsweise mittlerweile solche Seiten, allerdings nur, wenn sie für die Allgemeinheit eine gewisse Bedeutung haben. Regelmäßig Probleme gibt es allerdings, wenn die Anzahl der Parameter zu hoch ist. Als Endbenutzer hat man allerdings standardmäßig keinen Einfluss auf die Anzahl der vom CMS verwendeten Parameter. Hier hilft dann nur der Einsatz »sprechender« URLs. Ausführliche Informationen dazu erhalten Sie auf den folgenden Seiten. Es ist also Fakt, dass Suchmaschinen dynamisch generierte Seiten nicht mögen. Allerdings ist man diesem Verhalten nicht hilflos ausgeliefert, sondern kann durchaus etwas für ein besseres Ranking solcher Seiten tun.
29 Kleine Abwandlungen sind natürlich möglich bzw. nötig.
177
Kapitel 7
Wie bei statischen Seiten – Sämtliche SEO-Aspekte, die für normale HTML-Seiten gelten, haben natürlich auch im Zusammenhang mit dynamischen Seiten Gültigkeit. Sorgen Sie dafür, dass das Template semantisch korrekten Code enthält. Denn nur so gut wie der Template-Code ist, kann letztendlich auch die Ausgabe aller darauf basierenden Seiten sein. Investieren Sie in die Template-Entwicklung also ruhig etwas mehr Zeit. Taxonomie – Sorgen Sie dafür, dass die Inhalte klassifiziert, geordnet und in Beziehung zueinander gestellt werden. Im einfachsten Fall tut man das automatisch, indem man einen Artikel in eine Kategorie einordnet. Taucht der Artikel allerdings in mehreren Kategorien auf, merkt man schnell, dass die vorhandenen Strukturen zu flach sind. Hier hilft dann die sogenannte Verschlagwortung weiter. Über die Schlagworte wird quasi eine zusätzliche Ebene in das CMS integriert. So können Besucher gezielter und schneller auf die gesuchten Inhalte zugreifen. Sprechende URLs – Die Bedeutung des richtigen Namens für Seitenadressen haben sie bereits kennengelernt. Allerdings sind URLs in den meisten CM-Systemen weder für Menschen noch für Suchmaschinen gut lesbar. Im Zusammenhang mit dem von vielen CM-Systemen verwendeten URL-Parameter &id hat der geheimnisvolle GoogleGuy in einem Forum eine interessante Auskunft gegeben. I've been aching for a long time to mention somewhere official that sites shouldn't use »&id=« as a parameter if they want maximal Googlebot crawlage, for example. So many sites use »&id=« with session IDs that Googlebot usually avoids urls with that parameter, ...
Es sollte also nach Möglichkeit verhindert werden, dass innerhalb des URLs die Zeichenfolge &id auftaucht. Zu erreichen ist das zum Beispiel über das Apache-Modul mod_rewrite. Ausführliche Informationen dazu erhalten Sie auf den nächsten Seiten.
7.1.1
Lösungen für das CM-System TYPO3
In TYPO3 lassen sich HTML-Seiten simulieren. Aus der Adresse http://www.pommeranzer-seopard.de/index.php?id=38 wird so z.B. http://www.pommeranzer-seopard.de/futter.f.5.html Das ist natürlich viel suchmaschinenverträglicher. Um Adressen auf diese Weise zu verändern, wird das Apache-Modul mod_rewrite verwendet. Ausführliche Informationen zu diesem Modul finden Sie im Apache-Handbuch unter http://httpd.apache.org/docs/2.0/de/mod/mod_rewrite.html.
178
Flash, PDF, CMS und andere Problembereiche
mod_rewrite für den IIS Auch wenn mod_rewrite ein Apache-Modul ist, gibt es für den Internet Information Server (IIS) eine vergleichbare Lösung. Eine Testversion von IIS Rewrite kann von der Seite http://www.qwerksoft.com/ products/iisrewrite/ heruntergeladen werden. Auf der Herstellerseite erhalten Sie zusätzliche Informationen.
Um mod_rewrite nutzen zu können, muss es vom Provider aktiviert worden sein. Ob das der Fall ist, können Sie mithilfe eines kleinen PHP-Skripts kontrollieren. #
#
# Code
Über die Funktion phpinfo() kann man sich alle erdenklichen Informationen zur aktuellen PHP-Installation bzw. Konfiguration anzeigen lassen. Interessant ist hier (zumindest aus der aktuellen Problemstellung heraus), ob das Modul mod_rewrite aktiviert ist.
Abbildung 7.1: mod_rewrite ist geladen.
179
Kapitel 7
Sollten Sie hier feststellen, dass Ihr Provider dieses Modul deaktiviert hat, bleibt Ihnen normalerweise nur ein Providerwechsel.30 Denn ohne mod_rewrite lassen sich keine suchmaschinenfreundlichen URLs generieren. Sollten Sie selbst Zugang zum Server und dessen Konfigurationsdatei httpd.conf haben, können Sie mod_rewrite selbst aktivieren. Suchen Sie dazu innerhalb der Datei nach folgender Zeile: #LoadModule rewrite_module modules/mod_rewrite.so
Hier entfernen Sie die vorangestellte Raute und starten den Server anschließend neu. LoadModule rewrite_module modules/mod_rewrite.so
Um TYPO3 für die Zusammenarbeit mit mod_rewrite vorzubereiten, notieren Sie innerhalb des Setup-Feldes folgenden Code: #
Über die erste Eigenschaft wird das Simulieren statischer HTML-Dateien aktiviert. Die zweite Eigenschaft definiert den Verschlüsselungsmodus, der hier auf Md5 festgelegt wird. Zu guter Letzt wird mit config.simulateStaticDocuments_addTitle bestimmt, dass in den URLs der jeweilige Seitentitel enthalten sein soll. Dessen Länge wird aber jeweils auf 40 Zeichen festgelegt. Die Vorarbeiten in TYPO3 sind damit abgeschlossen. Im letzten Schritt muss nun im Hauptverzeichnis der TYPO3-Installation eine .htaccess-Datei mit folgendem Inhalt angelegt werden: #
Achten Sie unbedingt darauf, dass der .htaccess-Datei ein Punkt vorangestellt werden muss. Unter Linux ist das bekanntlich kein Problem. Anders sieht es allerdings auf Windows-Systemen aus. Versucht man dort eine Datei mit vorangestellten Punkt anzulegen, meldet sich Windows mit folgendem Fehler:
30 Bei kleineren Providern kann man natürlich auch nachfragen, ob das Modul denn vielleicht doch aktiviert werden kann.
180
Flash, PDF, CMS und andere Problembereiche
Abbildung 7.2: Windows hat mit .htaccess-Dateien Probleme.
Der Grund für diese Meldung ist darin begründet, dass Windows nicht ohne Weiteres Dateien verarbeiten kann, deren Name nach dem Schema Punkt/Name aufgebaut ist. Mit einem kleinen Trick können Sie Windows aber überlisten. Dazu legen Sie im Apache-Verzeichnis htdocs die Datei htaccess.txt an.31 Anschließend öffnen Sie über Start/ Ausführen und die Eingabe von cmd die Windows-Kommandozeile. Wechseln Sie dann über die Kommandozeile in das Verzeichnis, in dem Sie die Datei htaccess.txt gespeichert haben. Liegt die Datei beispielsweise im Verzeichnis c:\apache\htdocs, sieht der Aufruf folgendermaßen aus: #
#
# Code
c: cd \apache\htdocs
Anschließend wird über den folgenden Befehl die Datei htaccess.txt in .htaccess umbenannt. #
#
# Code
ren htaccess.txt .htaccess exit
Als sinnvolle Ergänzung zu mod_rewrite kann der Einsatz von RealURL in Erwägung gezogen werden. Diese Extension erlaubt es, »sprechende URLs« zu generieren. Ausführliche Informationen zu dieser Extension erhalten Sie unter http:// typo3.org/documentation/document-library/extension-manuals/realurl/current/. Damit RealURL aber überhaupt genutzt werden kann, muss am Apache-Server mod_rewrite aktiviert und eine .htaccess-Datei mit folgendem Inhalt angelegt werden:
Sollten Sie unter Windows arbeiten, und haben Sie dort mit den bereits erwähnten Problemen beim Anlegen einer .htaccess-Datei zu kämpfen, können Sie auch eine normale TXT-Datei verwenden. Nachdem die Datei htaccess.txt mit dem gezeigten Inhalt angelegt wurde, öffnen Sie die Apache-Konfigurationsdatei httpd.conf und passen die folgende Direktive an: AccessFilename htaccess.txt
Nach einem Neustart des Servers arbeitet Apache mit der eingestellten TXT-Datei. Damit TYPO3 mit RealURL arbeitet, erweitern Sie das Setup-Feld um die folgenden Einträge: #
Diese Syntax sorgt dafür, dass SimulateStatic deaktiviert, die Extension aktiviert und die Link-Anker korrekt ausgewertet werden32. Im Anschluss muss die Datei typo3conf/ localconf.php angepasst werden. Wie die Datei aussehen kann, zeigt das folgende Beispiel: #
Bei der Konfiguration gibt es zu viele Möglichkeiten, als dass diese hier wiedergegeben werden könnten. Unter http://typo3.org gibt es aber ausführliche Informationen zum Thema. Wer es lieber mit deutschsprachigen Anleitungen hält, der wird unter http://www.webinteger.net/magazin/articles/typo3-cms/realurl-20-extensionverwenden/ und unter http://www.typo3hannover.de/RealURL.62.0.html fündig.
Weitere Extensions Für TYPO3 gibt es noch andere sinnvolle Erweiterungen, die die Suchmaschinen-Optimierung effektiver machen. So beklagen sich zum Beispiel viele Webmaster über die langwierigen Indexierungsphasen ihrer Webseite. Dieser Indexierungsvorgang lässt sich beschleunigen, indem man den Google-Dienst »Google Sitemap« verwendet.
183
Kapitel 7
Informationen dazu finden Sie im weiteren Verlauf dieses Buches. Mit der Extension »Google Sitemap for Pages and Contents« können Sie Ihre Webseite direkt in dem von Google benötigten XML-Format aufbereiten. Anhand dieser XML-Datei kann Google überprüfen, welche Seiten neu sind und wann welche Seite verändert wurde. Mit der TYPO3-Extension »Extended SEO Sitemap« (fl_seo_sitemap) lässt sich nicht nur die Sitemap erstellen, es wird zusätzlicher Content gewrappt. Bei allen SEO-Maßnahmen ist natürlich auch immer die Frage interessant, ob sie denn von Erfolg gekrönt sind. Mit der Extension »AWStats«33 (cc_awstats) kann man zu diesem Zweck die Logfiles analysieren lassen.
7.1.2 Lösungen für Joomla! Bei Joomla! kommt ebenfalls das Apache-Modul mod_rewrite zum Einsatz. Legen Sie eine .htaccess-Datei mit folgendem Inhalt im Wurzelverzeichnis (z.B. htdocs) Ihres Servers an. #
In diesem Beispiel werden alle angeforderten URLs an die Datei index.php weitergeleitet. (Die index.php ist das Herzstück des Joomla!-Frontends.) Loggen Sie sich anschließend in das Joomla!-Backend ein und öffnen Sie dort Site/Configuration. Hier stellen Sie im Bereich SEO Settings den Wert von Search Engine Friendly URL auf Yes. Mit diesen Einstellungen ist mod_rewrite zwar aktiviert, »sprechend« sind die URLs allerdings immer noch nicht. Und nur mit sprechenden URLs kann man wirklich TopPlatzierungen in den Trefferlisten erzielen.34 Ein »sprechender« URL sieht zum Beispiel folgendermaßen aus: futter.html Mit dem normalen mod_rewrite bekommt man solch einen URL nicht hin. Stattdessen muss man auf zusätzliche Erweiterungen zurückgreifen. Mittlerweile haben sich zwei Lösungen etabliert, die in der Praxis am häufigsten eingesetzt werden. Dabei handelt es sich um OpenSEF und um SEF advance.
33 In der Tat handelt es sich hier um die TYPO3-Umsetzung des bekannten Tools AWStats. 34 Wie Sie wissen, spielen dabei natürlich auch zahlreiche andere Faktoren eine Rolle. Aber »sprechende« URLs sind ein Meilenstein auf dem Weg hin zur Top-Platzierung.
184
Flash, PDF, CMS und andere Problembereiche
Abbildung 7.3: Auch Joomla! hat einige SEO-Einstellungen zu bieten.
OpenSEF (http://projects.j-prosolution.com/) ist bei Drucklegung dieses Buches leider noch nicht für Joomla! 1.5 verfügbar gewesen. Mittlerweile kann sich das aber durchaus geändert haben. Eine ausführliche Anleitung zu dieser Erweiterung finden Sie unter http://www.screenbooks.net/e/joomla/s24/slide01.htm. Eine Alternative – wenn auch eine, die mit 40 Euro zu Buche schlägt – ist SEF advance. Eine Testversion kann von der Seite http://www.sakic.net/products/sef_advance/ heruntergeladen werden. Dort finden Sie dann auch weitere Informationen zum Produkt.
7.2 PDF-Dokumente optimieren Die meisten Suchmaschinen können mit PDF-Dateien umgehen und indexieren die Inhalte. Viele Suchdienste bieten mittlerweile sogar bereits Funktionen an, bei denen man gezielt nach PDF-Dateien suchen oder PDF-Dateien im HTML-Format anzeigen lassen kann. Dabei gehen die Suchmaschinen weitestgehend genauso wie bei HTML-Dateien vor. Für Sie gelten daher beim Anlegen von PDF-Dateien die gleichen Regeln wie bei HTML-Seiten.35 Das gilt insbesondere für Struktur und Inhalt. Gestalten Sie das 35 Natürlich gibt es auch HTML-Elemente, die sich so nicht in PDF-Dateien nutzen lassen.
185
Kapitel 7
PDF-Dokument nach Möglichkeit so, dass die relevanten Begriffe mehrfach und an prominenter Position auftauchen. Man mag von PDF-Dateien halten, was man will36, unstrittig ist, dass sie auf vielen Internetseiten eingesetzt werden. Ebenso wie HTML-Dateien können auch PDF-Dokumente Elemente enthalten, die für den normalen Benutzer unsichtbar sind. Die bereitgestellten Felder sind mit den Metatags aus HTML vergleichbar. Diese sogenannten Dokumentinfos enthalten die folgenden Elemente: Titel – Das Titel-Feld ist mit dem HTML-Tag identisch, hat zumindest die gleichen Auswirkungen. Der hier ausgelesene Dokumenttitel wird in den Suchergebnissen oberhalb des Beschreibungstextes angezeigt. Thema – Dieses Feld entspricht dem Metatag description. Tragen Sie hier eine kurze Beschreibung des Dokumentinhalts ein. Stichwörter – Tragen Sie hier zum Dokument passende Schlüsselwörter ein. Funktionsweise und Auswirkung sind die gleichen wie bei der Verwendung von Schlüsselwörtern im Zusammenspiel mit Metatags. Die einzelnen Schlüsselwörter sind jeweils durch Kommata voneinander getrennt zu notieren. Autor – Dieses Feld taucht zwar auf, wird derzeit aber von den Suchmaschinen nicht genutzt. Es entspricht dem Metatag author. Wenn Sie es wollen, tragen Sie hier den Namen des Verfassers (möglicherweise Ihren eigenen) ein. Leserichtung – Diese Option ist für Suchmaschinen ebenfalls uninteressant. Sie legen hierüber lediglich fest, ob der Text rechts- oder linksbündig in der PDFAnsicht Doppelseite angezeigt wird. Alle Elemente im Zusammenspiel sind wichtig. Verwenden Sie aber nicht zu viel Zeit auf diese Optimierungsvarianten. Entscheidend ist vor allem, dass gerade zu Beginn des Dokuments gute Schlüsselwörter stehen und sonstige »SEO-Weisheiten« wie Keyword-Dichte und -Nähe berücksichtigt werden. Sie sollten übrigens nicht den Fehler machen, besonders wichtige Informationen in PDF-Dateien zu verstecken. Denn es gibt immer noch Suchmaschinen, die PDFDateien entweder gar nicht oder nur unvollständig indexieren. In einigen Fällen ist es vielleicht aber gewünscht, dass PDF-Dateien nicht indexiert werden. Auch das ist relativ problemlos möglich. Dazu muss man lediglich die Datei robots.txt um den folgenden Eintrag erweitern: Disallow: /*.pdf$ Auf diese Weise wird verhindert, dass der Inhalt der PDF-Datei in den Index der Suchmaschinen gelangt. 36 In der Tat bietet das PDF-Format viele Vorteile. Es gibt aber auch Nachteile. So muss zum Beispiel ein entsprechender PDF-Reader vorhanden sein und extern gestartet werden.
186
Flash, PDF, CMS und andere Problembereiche
7.3 Grafiklastige Seiten Zugegebenermaßen sind grafisch aufbereitete Seiten oft weitaus attraktiver als ihre rein textbasierten Kollegen. Was dem Menschen gefällt, muss allerdings längst noch nicht auch den Suchmaschinen gefallen. Und genau hier liegt das Problem. Denn damit Suchmaschinen Webseiten vernünftig indexieren können, benötigen sie relevante Texte und Links. Bei stark grafiklastigen Webseiten ist beides oft aber nicht gegeben. Nun wäre natürlich die einfachste Möglichkeit, dass man weitestgehend auf Grafiken verzichtet. Was die Suchmaschinen glücklich machen würde, stieße bei den Kunden aber wohl auf nur wenig Gegenliebe. Denn nicht zu Unrecht heißt es: Ein Bild sagt mehr als tausend Worte. Es gilt also bei der Verwendung von Grafiken dafür zu sorgen, dass Suchmaschinen etwas mit ihnen anfangen können. Am wichtigsten ist der Einsatz der beiden Attribute alt und title. Das alt-Attribut enthält einen alternativen Text für den Fall, dass die Grafik nicht angezeigt werden kann. Angezeigt wird der Inhalt des title-Attributs, wenn der Besucher mit dem Mauszeiger über die Grafik fährt.37 Eine suchmaschinenoptimierte Grafik sieht also folgendermaßen aus: #
#
# Code
Die meisten Suchmaschinen bewerten das title-Attribut höher als das alt-Attribut. Allerdings sollte man nie für beide Attribute den gleichen Wert setzen. Während in das title-Attribut eine Beschreibung des Bildes gehört, enthält das alt-Attribut nur ein Stichwort zum Bild. Besonders wichtig ist die Verwendung beider Attribute übrigens dann, wenn Grafiken als Hyperlinks eingesetzt werden. Auch hierzu wieder ein Beispiel: #
#
# Code
37 Der Internet Explorer zeigt den Inhalt des alt-Tags an, wenn kein title-Attribut vorhanden ist. Das entspricht allerdings nicht den Empfehlungen des W3C.
187
Kapitel 7
Hier weist man der Grafik lediglich das alt-Attribut zu. Das title-Attribut wird hingegen im -Tag verwendet. So kann die Suchmaschine den Link besser einordnen. Eine nochmalige Verwendung des title-Attributs innerhalb der Grafik ist nicht nötig. Der Einsatz der beiden Attribute title und alt ist nur ein erster Schritt. Zusätzlich sollten Sie unter jeder Grafik eine kurze, keywordlastige Beschreibung des Bildes anbringen. Dabei sollten Sie sich auf eine oder zwei Sequenzen beschränken, um so eine gute Schlüsselwort-Sättigung zu erreichen.
7.4 Image Maps Image Maps sind sogenannte verweissensitive Grafiken. Klingt kompliziert, ist es aber gar nicht. Das sind Grafiken, über die der Anwender mit dem Mauszeiger fährt und auf einen einzelnen Bildbereich klickt. Dabei enthalten Image Maps mehrere solcher Verweise. Mit nur einer Grafik kann man so zum Beispiel eine gesamte Navigation aufbauen. Oft werden Image Maps zum Beispiel auch für Landkarten auf Unternehmenswebseiten genutzt. Dabei sind die einzelnen Standardorte dann jeweils ein verweissensitiver anklickbarer Bereich. Während Image Maps bei Firmenstandorten und ähnlichen Anwendungen eine nette »Spielerei« sind, sollte man sie nicht dazu verwenden, die gesamte Navigationsstruktur damit aufzubauen. Hier gelten die gleichen Einschränkungen, wie sie auch bei anderen rein auf Grafiken basierenden Navigationsleisten gelten. Die Suchmaschinen gewichten grafische Navigationsstrukturen niedriger als solche, die aus Texten aufgebaut sind. Bei der Definition einer Image Map sollten auf jeden Fall auch wieder die alt- und titleAttribute verwendet werden. Die Grafik, die verweissensitive Bereiche besitzen soll, wird wie eine ganz normale HTML-Grafik eingebunden. Lediglich das Attribut usemap weist die Grafik als verweissensitives Element aus. #
#
# Code
Die Definition der Zonen kann direkt unter- oder oberhalb der eigentlichen Grafik geschehen. Zur besseren Übersicht können Sie diesen Bereich aber zum Beispiel auch an das Dateiende, direkt oberhalb des schließenden -Tags, stellen. Die Zonen selbst werden jeweils über <area>-Tags definiert. Letztendlich handelt es sich hier um Koordinatendefinitionen, denen ein Verweisziel zugewiesen wird. Sie sollten bei jedem dieser Verweisziele ein alt-Attribut angeben.
Neben der gezeigten Variante gibt es übrigens auch serverseitige Image Maps. Sie funktionieren ähnlich, werden heute allerdings kaum noch verwendet. Grund hierfür ist, dass hier eine Kommunikation zwischen Browser und Server benötigt wird, die zusätzlichen Traffic verursacht. Hinsichtlich der Suchmaschinen-Optimierung ergeben sich beim Einsatz serverseitiger Image Maps allerdings keine zusätzlichen Einschränkungen. Hier ein typisches Beispiel für eine solche Anwendung:
189
Kapitel 7
#
#
# Code
7.5 Problemfall Flash Mit Flash von der Firma Adobe, früher Macromedia, lassen sich multimediale Inhalte erstellen. Flash ist aber ein zweischneidiges Schwert. Auf der einen Seite lassen sich mit dieser Technik Effekte realisieren, die mit normalem HTML/CSS nicht möglich wären. Andererseits ist und bleibt Flash eine proprietäre Lösung, die deswegen von vielen Webentwicklern abgelehnt wird.38 Und ganz ähnlich sehen es auch Suchmaschinen. Denn Flash-Seiten enthalten für Suchmaschinen keine verwertbaren Inhalte. Anders als gemeinhin angenommen, ist das allerdings kein Versäumnis der Suchmaschinen, sondern es liegt daran, dass es sich bei Flash um kein Dokumenten-Format handelt. Vielmehr sind Flash-Dateien reine Animationen, die so normalerweise der Grundidee der freien Verfügbarkeit von Inhalten im WWW entgegenstehen. Denn eines darf nicht vergessen werden: Für die Wiedergabe von Flash wird der FlashPlayer benötigt. Und längst nicht jeder Anwender hat ihn installiert bzw. weiß überhaupt, wie er ihn installieren soll.39 Spezielle Flash-Suchmaschinen Es ist übrigens für Suchmaschinen durchaus möglich, Flash-Seiten zu indexieren. Bewiesen hat das die norwegische Suchmaschinen-Schmiede FAST. In der erweiterten Suche von Alltheweb (http://www.alltheweb.com/advanced) war lange Zeit der Punkt Macromedia Flash (.swf) verfügbar. Hierüber konnte man die Suche auf Flash-Dateien eingrenzen. Derzeit ist dieser Service leider nicht verfügbar. Dennoch zeigt das Beispiel von Alltheweb, dass es für Suchmaschinen-Betreiber durchaus möglich ist, Flash-Inhalte zu indexieren. Ob sich davon allerdings auch andere Suchmaschinen inspirieren lassen und auf diesen Zug aufspringen, bleibt aber abzuwarten. Mittlerweile unterstützt Google übrigens ebenfalls Flash-Dateien. Dabei werden die in Flash-Filmen enthaltenen Links indexiert. Allerdings weist Google ausdrücklich darauf hin, dass der Crawler möglicherweise Probleme mit Flash-Seiten haben könnte.
38 Vielleicht auch nur von mir? Bilde ich mir diese ablehnende Haltung nur ein? Ich freue mich über Ihr Feedback zu diesem Thema. 39 In der Tat soll es sogar Leute geben, die zwar sonst hochintelligent sind, aber noch nie etwas von Flash gehört haben. Das ist übrigens ein Großteil der Menschen, die im Internet unterwegs sind. Denn eines darf nicht vergessen werden: Die meisten Leute sind Anwender, die das WWW zwar nutzen, denen der technische Hintergrund aber völlig egal ist. Und eben auch und besonders an die sollte bei der Frage gedacht werden, ob Flash auf den Seiten eingesetzt werden soll.
190
Flash, PDF, CMS und andere Problembereiche
Um es deutlich zu sagen, es ist (zumindest aus Suchmaschinen-Sicht) überhaupt nichts gegen den Einsatz kleiner Flash-Animationen zu sagen. Problematisch wird es erst, wenn elementare Seiteninhalte ausschließlich als Flash-Filme vorliegen oder gleich die ganze Seite in diesem Format umgesetzt wurde. Werfen Sie zunächst einen Blick darauf, wie sich Flash-Dateien in eine Webseite integrieren lassen. #
Für das Einbinden von Flash-Dateien gibt es verschiedene Ansätze. Der gezeigte Weg wird von Adobe empfohlen. Hierdurch wird der Flash-Film einmal nach Microsoftund einmal nach Netscape-Syntax integriert.40 Das funktioniert zwar, verhindert aber, dass man seine Seiten valide, also nach den Vorgaben des W3C, gestalten kann. Um validen Code anzubieten und trotzdem fast alle Browser einzubeziehen, empfiehlt sich der Einsatz der folgenden Syntax: #
#
# Code
<param name="movie" value="movie.swf">
40 Das <embed>-Element wird nur von Browsern interpretiert, die den Einsatz lokaler ActiveX-/ COM-Klassen erlauben. Derzeit tut das ausschließlich der Internet Explorer.
191
Kapitel 7
Nun kann man über die Vor- und Nachteile von Flash diskutieren wie man will, es gibt genügend Auftraggeber, die Flash-Seiten wünschen. Und auch denen sollte man natürlich die Seiten nach bestem SEO-Gewissen optimieren. Das Hauptproblem vieler Webseiten ist, dass ausschließlich Flash eingesetzt wird. Solche Seiten sind für Suchmaschinen blankes Gift und werden auch so behandelt. Daher sollte auf jeden Fall eine textbasierte Variante der Seite angelegt und über einen Textlink zugänglich gemacht werden. Eine weitere Möglichkeit besteht im Vorschalten einer sogenannten Doorway-Page. Dabei handelt es sich um eine spezielle Seite, die für Suchmaschinen optimiert wurde. Mehr zu diesem Thema erfahren Sie in Kapitel 11. Beachten Sie aber auch, dass DoorwayPages von Suchmaschinen nicht gerne gesehen werden und solche Seiten dann unter Umständen aus dem Index gelöscht werden. Nichts ist aber dagegen einzuwenden, eine normale textbasierte Kopie der Seite zu erstellen, dann aber in der Datei robots.txt anzugeben, dass ausschließlich die Textseiten von den Robots besucht werden sollen. Ein anderer Ansatz stellt die Einbettung des Flash-Films in ein Frameset dar. Dieses Frameset muss dann aber natürlich für Suchmaschinen optimiert werden. Diese Möglichkeiten zeigen, dass es zwar durchaus einige interessante Ansätze für die Optimierung von Flash-Seiten gibt, alle haben aber Nachteile. Sie sollten das auf jeden Fall bedenken, wenn Sie den Einsatz reiner Flash-Seiten in Betracht ziehen. Wie bereits erwähnt: Am Einsatz kleiner Flash-Animationen zur Visualisierung ist überhaupt nichts auszusetzen.
7.5.1 Flash aufbereiten Adobe, als Entwickler41 von Flash, ist das Problem mit den Suchmaschinen bewusst und sicherlich auch ein Dorn im Auge. Mit dem Flash Search Engine SDK (http:// www.macromedia.com/software/flash/download/search_engine/) stellt Adobe daher ein Tool bereit, um aus Flash-Inhalten Links und Texte für Suchmaschinen nutzbar zu machen. Ob Suchmaschinen-Betreiber davon zukünftig Gebrauch machen werden, bleibt allerdings abzuwarten. Interessant ist das Flash Search Engine SDK aber allemal. Aus diesem Grund wird hier gezeigt, wie sich eine typische Flash-Datei so aufbereiten lässt, dass sie für Suchmaschinen tatsächlich nutzbar ist.42 Laden Sie sich zunächst Flash Search Engine SDK von der Seite http://www.macromedia.com/cfusion/entitlement/index.cfm?e=search_sdk herunter. Folgen Sie zum Download den Hinweisen auf der Seite. 41 Entwickelt wurde Flash eigentlich von Macromedia. Mittlerweile befindet sich dieses SoftwareHaus allerdings im Besitz von Adobe. 42 Die Verwendung ist sowohl unter Windows wie auch unter Linux möglich. Macintosh-Anwendern steht Flash Search Engine SDK derzeit leider nicht zur Verfügung.
192
Flash, PDF, CMS und andere Problembereiche
Im folgenden Beispiel wird davon ausgegangen, dass Sie unter Windows XP arbeiten. Legen Sie unter C:\ das Verzeichnis flash_sdk an und kopieren Sie die beiden Dateien swf2html.exe und stiletto-sample.swf hinein. (Anstelle von stiletto-sample.swf können Sie natürlich auch jede andere Flash-Datei verwenden.) Im Original sieht die Flash-Datei folgendermaßen aus:
Abbildung 7.5: Flotter Flitzer mit Flash umgesetzt
1. Öffnen Sie nun die Windows-Kommandozeile über die Start-Schaltfläche und Ausführen. Tragen Sie in das sich öffnende Ausführen-Feld cmd ein, bestätigen Sie die Eingabe mit OK und wechseln Sie in das zuvor angelegte Verzeichnis. Haben Sie es wie beschrieben unter C:\ abgelegt, sieht der Aufruf folgendermaßen aus: chdir c:\flash_sdk
2. Um das SDK zu verwenden, geben Sie folgenden Befehl ein: swf2html stiletto-sample.SWF -o output.htm
3. Über [Enter] wird die Konvertierung der Flash-Datei angestoßen.
193
Kapitel 7
Abbildung 7.6: Das Tool wird über die Kommandozeile gesteuert.
4. Öffnen Sie anschließend den Ordner flash_sdk. Dort findet sich nun die generierte Datei output.htm, die nun tatsächlich für die Indexierung innerhalb von Suchmaschinen geeignet ist. #
The Stiletto answers questions no one dared to ask. Can you make a performance electric car? Can you make a luxury car affordable? Can you make a small car safe? Can I drive from LA to Vegas in an electric car? Z.E.V. has an answer: Yes.
Wie Sie sehen, ist es also durchaus möglich, Flash-Inhalte suchmaschinengerecht aufzubereiten.
7.6 JavaScript Es wird immer wieder darüber diskutiert, ob JavaScript-Bereiche von Suchmaschinen ausgelesen werden können. Musste diese Frage bis vor kurzem noch mit Nein beantwortet werden, hat sich das in letzter Zeit geändert. Denn in der Tat können Suchma-
194
Flash, PDF, CMS und andere Problembereiche
schinen mittlerweile JavaScript interpretieren. Um das beweisen zu können, haben russische SEO-Spezialisten zahlreiche Experimente durchgeführt. Dabei wurde getestet, ob die Robots verschiedener Suchmaschinen dazu in der Lage sind, solche HTMLSeiten zu verarbeiten, in denen JavaScript- bzw. JavaScript-Weiterleitungen enthalten sind. Hier die interessantesten Ergebnisse. Es steht fest, dass Google JavaScript-Weiterleitungen korrekt interpretiert. Der GoogleRobot folgt tatsächlich dem folgenden Link: #
#
# Code
<script type="text/javascript">
Neben solch einer »normalen« Weiterleitung konnte vom Google-Robot aber auch das folgende verschlüsselte Fragment korrekt geparst werden: #
#
# Code
<script type="text/javascript"> < /script>
Eine weitere Möglichkeit besteht darin, den JavaScript-Code in einem IFrame zu verstecken. Auch hier folgt der Googlebot. #
Es gibt aber auch Varianten, die vom Googlebot nicht verfolgt werden konnten. Ein typisches Beispiel dafür zeigt die folgende Syntax: #
#
# Code
Inhalt
Inhalt
Inhalt
Inhalt
Inhalt
Inhalt
Inhalt
Inhalt
Inhalt
Inhalt
Inhalt
Inhalt
Inhalt
Inhalt
<script type="text/javascript">
196
Flash, PDF, CMS und andere Problembereiche
Eine solche Syntax ist also vor allem dann interessant, wenn man sicherstellen will, dass ausschließlich »echte« Besucher weitergeleitet werden, Suchmaschinen dem Link aber nicht folgen sollen. Ebenfalls scheiterte der Googlebot in Verbindung mit dem Event-Handler onfocus(). Der wurde eingesetzt, um den Besucher nur dann auf die neue Seite weiterzuleiten, wenn auf der aktuellen Seite der Fokus liegt, die Seite also aktiv ist. #
#
# Code
<script type="text/javascript">
Zu guter Letzt hat man versucht, den Link in eine Funktion zu integrieren, was allerdings keinerlei Auswirkungen auf die Weiterleitung hatte. Auch hier konnte der Googlebot nicht folgen. #
#
# Code
<script type="text/javascript">
Sie haben gesehen, dass es im Zusammenspiel zwischen Suchmaschinen und JavaScript durchaus noch Ungereimtheiten gibt. Vorsicht ist beim Einsatz von JavaScript immer dort geboten, wo Links und Menüs per JavaScript umgesetzt werden. Denn, wenn eine Suchmaschine solchen JavaScriptLinks nicht folgen kann, werden die dahinter liegenden Seiten nicht indexiert. Um solche Probleme zu umgehen, sollte man immer im Fußbereich der Seite normale HTMLHyperlinks anbieten.
197
Kapitel 7
Enthält eine Seite sehr viel JavaScript-Code, sollten Sie über eine Auslagerung nachdenken. Dadurch wird das Verhältnis zwischen normalem Seitencontent und JavaScript-Code wieder in ein aus Suchmaschinen-Sicht vernünftiges Verhältnis gerückt. Ob das tatsächlich etwas bringt, ist zwar unklar, schaden tut eine Auslagerung aber auf jeden Fall nicht. Ein weiterer Vorteil: Der Quelltext der Seite wird übersichtlicher. Die JavaScript-Auslagerung lässt sich denkbar einfach realisieren. Schreiben Sie dazu den Code in eine normale Textdatei und ändern Sie deren Erweiterung von .txt auf .js. Gespeichert wird die Datei zum Beispiel in einem eigens angelegten Skript-Verzeichnis skripte. In der eigentlichen HTML-Seite wird nun ein Verweis auf diese JavaScriptDatei gesetzt. <script type="text/javascript" src="skripte/meinescripte.js" />
Der Pfad ist jeweils anzupassen. Sie sollten einen Bereich definieren, der angezeigt wird, wenn die verwendete SkriptSprache (im aktuellen Fall also JavaScript) im Browser nicht verfügbar ist. Der dort definierte Code wird dann automatisch ausgeführt, wenn ein Browser nicht skriptfähig ist oder JavaScript deaktiviert wurde. Definiert wird der <noscript>-Bereich normalerweise direkt unterhalb des eigentlichen Skripts. Ein Beispiel: #
#
# Code
<script type="text/javascript"> <noscript> Hier erfahren Sie mehr über den Pommeranzer Seoparden Informationen
Der <noscript>-Bereich wird immer öfter für Keyword-Stuffing verwendet. Und in der Tat können Seiten, die das <noscript>-Tag nutzbringend einsetzen, besser gelistet werden als andere. Mittlerweile geht das sogar so weit, dass <noscript> auch dort eingesetzt wird, wo es gar keine Skripte gibt. Hier ist allerdings Vorsicht geboten. Denn immer mehr Suchmaschinen erkennen durchaus, ob Tags an einer bestimmten Stelle überhaupt sinnvoll sind. Gegen ein Dummy-Skript, wie zum Beispiel eine Kommentarzeile oder Ähnliches, sind die Algorithmen der Suchmaschinen derzeit allerdings noch machtlos.
198
Flash, PDF, CMS und andere Problembereiche 43
Gerüchte und Missverständnisse Seit langer Zeit hält sich hartnäckig das Gerücht, dass die Verwendung von JavaScript bestraft wird, wenn damit der Text der Statuszeile des Browsers verändert wird. Auch hierzu hat der GoogleGuy wieder eindeutig Stellung bezogen: So it's kind of like the whole urban myth that was going on for a while about if you use javascript to change the text in the status bar, a search engine may penalize you.42
7.7 Frames und IFrames Frames haben sicherlich einige Vorteile: Denken Sie nur an die Möglichkeit den Anzeigenbereich des Browsers in mehrere, frei definierbare Segmente zu unterteilen. So lassen sich unterschiedliche Seiten unabhängig voneinander anzeigen. Dieses »KillerArgument« von Frame-Freunden stimmt, kann allerdings nicht überzeugen.44 Denn die Nachteile, die sich aus der Verwendung von Frames ergeben, sind vielfältiger und wiegen schwerer. Fehlende Navigation – Oft wird in einem Frame die Navigationsleiste geladen, die dann permanent sichtbar ist. Über die dort untergebrachten Links ruft der Besucher dann die entsprechenden Seiten auf, die normalerweise in einem anderen Frame geladen werden. So weit, so gut. Ruft der Benutzer eines dieser Verweisziele aber direkt auf (zum Beispiel über eine Suchmaschine), fehlt die Navigation. Dieses Problem lässt sich zwar lösen, ärgerlich ist es aber trotzdem. Informationen dazu, wie Sie dieses Problem angehen können, erhalten Sie im weiteren Verlauf dieses Kapitels. Skalierung – Eine der Stärken von HTML ist es, den Text der Seite mithilfe des Browsers so zu skalieren, dass er gut lesbar ist. Ein Besucher, mit »schlechten« Augen kann sich im Browser eine größere Schriftgröße einstellen. Mittlerweile gehen aber leider immer mehr Webdesigner dazu über, anstelle von normalem Text auf Grafiken zurückzugreifen. Eine Skalierung der Schriftgröße ist dann natürlich nicht mehr möglich. Und genau mit diesem Problem haben auch Frames zu kämpfen. Denn bei deren Definition müssen die Frame-Größen angegeben werden. Dabei kann es dann schnell passieren, dass ein Frame bei einer bestimmten Bildschirmauflösung leer bleibt, während bei einer anderen Auflösung der Inhalt zu groß für das Frame ist und der Besucher horizontal scrollen muss. Letzteres ist natürlich gerade bei Fließtexten ärgerlich. 43 Nun heißt das freilich nicht, dass es besonders sinnvoll ist, die Statuszeile zu manipulieren. Denn viele Besucher möchten, wenn sie mit der Maus über einen Link fahren, sehen, was das Verweisziel ist. Deswegen: Finger weg von der Statuszeile! 44 Es gibt noch weitere Vorteile: So werden sie zum Beispiel im Gegensatz zu CSS schon sehr lange von den Browsern unterstützt und können deshalb »unbedenklich« für Layout-Aufgaben genutzt werden. Ein weiterer Pluspunkt ist der geringere Datentransfer, da feste Seitenelemente wie Navigation und Logo in aller Regel in einem starren Frame stehen. Mit zunehmender Verbreitung von Flatrates und weiter sinkenden Preisen überholt sich dieses Argument allerdings zusehends.
199
Kapitel 7
Drucken – Sie wissen sicherlich, dass man einzelne Frameseiten ausdrucken kann. Sind Sie aber auch davon überzeugt, dass das Ihre Besucher wissen? Denn eines darf nicht vergessen werden. Sie arbeiten täglich mit Ihrer Seite und wissen daher natürlich, wie Sie mit Frames umzugehen haben. Viele Ihrer Besucher rufen Ihre Seite aber vielleicht das erste Mal auf und wissen nicht, wie sie zum Beispiel nur den unteren Seitenbereich ausdrucken.
Abbildung 7.7: Man muss schon etwas Erfahrung haben, um Frames auszudrucken.
Platzverschwendung – Oft werden Frames mit Scrollbars oder Rahmen angezeigt. Der Platz der dafür verschwendet wird, mag auf einem 19‘‘-Monitor nicht auffallen, auf einem kleineren Bildschirm wirkt sich der fehlende Platz aber durchaus störend aus. Links und URIs – Wird eine normale Internetseite von einem Besucher aufgerufen, sieht er deren genaue Adresse und kann sie als Lesezeichen bzw. Favoriten ablegen. Bei Frameseiten – zumindest was die Unterseiten anbelangt – funktioniert das nicht. Denn hier wird immer der URI des Frameset-Dokuments angezeigt.
200
Flash, PDF, CMS und andere Problembereiche
Und das meint Google zu Frames Google unterstützt Frames so weit wie möglich. Frames können Probleme für Suchmaschinen verursachen, da sie nicht dem Grundmodell des Internets entsprechen. Nach diesem Modell steht üblicherweise eine Seite für nur einen URL. Auf Seiten, die Frames verwenden, werden mehrere URLs (einer für jeden Frame) auf einer einzigen Seite angezeigt. Wenn Google feststellt, dass eine Nutzeranfrage eine vollständige Seite als Ergebnis liefert, gibt Google das gesamte Frameset zurück. Wenn die Anfrage als Ergebnis allerdings einen einzelnen Frame innerhalb des Framesets ergibt, gibt Google nur den entsprechenden Frame zurück. In diesem Fall erscheint nicht das gesamte Frameset der Seite.
Das größte Problem von allen ist aber sicherlich das Zusammenspiel von Frames und Suchmaschinen. Um zu verstehen, was eine Suchmaschine sieht, wenn sie eine Frameseite indexieren will, werfen Sie einen Blick auf den folgenden Code: #
#
# Code
Pommeranzer Seopard
Es handelt sich hier um ein ganz typisches Frameset. Trifft der Crawler nun auf diese Seite, stößt er bereits auf das erste Problem. Denn wie Sie sehen, ist das -Tag leer. Die Suchmaschine hat hier also überhaupt keine Chance, irgendetwas zu indexieren. Daher sollten Sie in jedem Fall einen <noframes>-Bereich anlegen. Der wird dem normalen Benutzer nur dann angezeigt, wenn sein Browser Frames nicht interpretieren kann. Besonders interessant ist dieser Bereich allerdings für Suchmaschinen, da sie die dort enthaltenen Informationen auslesen und indexieren können. Ein vollständiges Frameset inklusive des <noframes>-Tags sieht folgendermaßen aus. #
#
# Code
Pommeranzer Seopard <noframes>
201
Kapitel 7
Pommeranzer Seopard
Wird angezeigt, wenn der Browser keine Frames darstellen kann.
Hier finden Sie Informationen zum Pommeranzer Seoparden.
Kontakt Sitemap
Der <noframes>-Bereich sollte eine inhaltliche Beschreibung der Webseite darstellen, die etwa 250 Wörter enthalten sollte. Dieser Text sollte so gestaltet werden, dass er für Suchmaschinen geeignet und von denen nicht etwa als Spam gebrandmarkt wird. Leider wurde das <noframes>-Tag in der Vergangenheit immer wieder für sogenanntes Keyword-Stuffing missbraucht. Demzufolge gibt es bereits Suchmaschinen, die den Inhalt dieses Tags sehr gering bewerten. Das ist allerdings kein Grund, ihn außer Acht zu lassen, so wie es allzu oft in der Praxis geschieht. Vor dem Hintergrund, dass Suchmaschinen ohnehin Probleme mit Frames haben, sollten Sie auf jeden Fall die Möglichkeiten nutzen, die durch das <noframes>-Tag geboten werden. Darüber hinaus empfiehlt sich natürlich auch der Einsatz des -Tags und der beiden Metatags description und keywords. Denn, auch wenn die Bedeutung von Metatags bei den meisten Suchmaschinen stark gesunken ist, greifen durchaus einige Suchmaschinen auf sie zurück, wenn überhaupt keine andere Informationen zu finden sind.
7.7.1 Frameseiten automatisch nachladen Ein Frame-Problem kann relativ einfach gelöst werden. Die einzelnen Frameseiten werden von Suchmaschinen losgelöst vom Frameset indexiert. Landet ein Besucher auf einer solchen losgelösten Seite, fehlt zum Beispiel oft die Navigation. Es muss also ein Weg gefunden werden, dass eine solche Unterseite nach dem Aufrufen automatisch innerhalb des vollständigen Frames geladen wird. Am einfachsten lässt sich dieses Problem mit JavaScript angehen. Hierzu ein typisches Beispiel: #
#
# Code
<script type="text/javascript">
202
Flash, PDF, CMS und andere Problembereiche
Setzen Sie diesen Bereich in die Unterseiten des Frames. Sobald eine solche Unterseite dann aufgerufen wird, wird automatisch die Frameset-Datei index.html geladen. Allerdings hat diese Variante einen entscheidenden Makel: Es wird immer automatisch von der Unterseite auf die Hauptseite (hier index.html) weitergeleitet. Der Besucher muss sich dann wieder zur ursprünglichen Unterseite hangeln. Dazu sind allerdings nur die wenigsten Besucher bereit. Der Großteil wird Ihre Seite entnervt verlassen. Mit folgendem JavaScript lässt sich das beschriebene Problem beheben: #
#
# Code
<script type="text/javascript">
Hier wird überprüft, ob das dazugehörende Frameset existiert. Ist das nicht der Fall, wird es nachgeladen. Zusätzlich wird dem Frame mitgeteilt, von welcher Seite aus das Nachladen stattgefunden hat. Um das Frame in Ihre eigenen Seiten integrieren zu können, setzen Sie anstelle von Framename den Namen des Frames ein, anhand dessen das Frameset erkannt werden soll. Ist das Frame nicht vorhanden, wird der Besucher über location.href zu dem angegebenen URL weitergeleitet. Hier geben Sie den URL des Framesets an. Diesem URL wird per location.pathname der Pfad der aktuellen Seite hinzugefügt. Dadurch kann die aktuelle Seite im Anschluss in das Frameset geladen werden.
7.7.2 Alternativen zu Frames Es wurde auf den vorherigen Seiten mehrmals auf die Nachteile von Frames hingewiesen. Das soll natürlich nicht geschehen, ohne eine Alternative aufzuzeigen. In diesem Abschnitt erfahren Sie, wie Sie Frames mit einer Kombination aus PHP und CSS ersetzen können. Da es sich hier keinesfalls um ein Spezialbuch für PHP oder CSS handelt, wird hier lediglich ein Beispiel gezeigt, das Sie so aber problemlos an Ihre eigenen Anforderungen anpassen können. Zum Einsatz kommt dabei die include()-Funktion von PHP. Ziel ist es, den Frame-Liebhabern eines ihrer Hauptargumente für den Einsatz von Frames zu nehmen. Gerne wird argumentiert, dass sich der Einsatz von Frames besonders im Zusammenhang mit Menüs eignet. Angenommen, Sie haben 100 Seiten und in jeder dieser Seiten ist das gleiche Menü eingebunden. Was passiert nun,
203
Kapitel 7
wenn ein zusätzlicher Menüpunkt eingebunden werden soll? Normalerweise muss man diese Änderungen an allen 100 Seiten durchführen. Anders sieht es aus, wenn die Seite auf Frames basiert. Dort ist dann das Menü meist in einem eigenen Frame untergebracht. Ergo müssen die Änderungen auch lediglich an einer Seite vorgenommen werden. Ein klarer Wettbewerbsvorteil also für Frames. Das folgende Beispiel bewirkt das gleiche, dieses Mal allerdings ohne auf Frames zu setzen. #
#
# Code
Pommeranzer Seopard <style type="text/css"> #head, #foot { width:100%; height:40px; background-color:#ffffff; color:#00000; font-size:20px; } Willkommen bei uns Das ist der Fußbereich
Es wird immer die Seite eingebunden, die über den Parameter artikel übergeben wird. Wird also zum Beispiel index.php?artikel=kontakt aufgerufen, lädt dies in den contentBereich die Datei kontakt.php. Sollte die Datei index.php ohne Parameter aufgerufen werden, wird die Datei normal.php geladen. Auf diese Weise können Sie eine Seite auf-
204
Flash, PDF, CMS und andere Problembereiche
bauen, die zwar die Vorzüge (immer vorhandene Navigation usw.) von Frames besitzt, allerdings ohne Frames auskommt. Ein Problem gibt es hier aber natürlich:45 Die URLs sind nicht gerade suchmaschinenfreundlich. Einen Ausweg aus diesem Dilemma gibt es, allerdings ist diese Variante dann nicht mehr ganz so komfortabel. Im Gegensatz zu Frames stellt sie allerdings immer noch die bessere Lösung dar. Legen Sie dazu zunächst die Datei header.php mit folgendem Inhalt an. #
Hierin wird der gesamte Dateikopf definiert. Der Einfachheit halber wurde an dieser Stelle auf Metatags usw. verzichtet. Diese Datei enthält all die Elemente, die auf jeder Seite gleich sind. Im nächsten Schritt legen Sie die Datei footer.php an. #
#
# Code
Das ist der Fußbereich
Hierhin sind die Elemente enthalten, die auf jeder Seite im unteren Fensterbereich angezeigt werden bzw. den Abschluss des HTML-Grundgerüsts bilden. Nun muss nur noch eine Seite angelegt werden, die die beiden zuvor gespeicherten Dateien einfügt.
45 Eigentlich gibt es zwei Probleme: Bevor dieses Skript in der Praxis eingesetzt wird, sollte unbedingt noch überprüft werden, ob die Variable $_GET['artikel'] gültig ist. Wird das nicht getan, können Angreifer hier schädlichen Code übergeben und so die Webseite manipulieren.
205
Kapitel 7
#
#
# Code
Hier wird der jeweilige Inhalt der Seite definiert
Diese Datei fügt nun die Dateien header.php und footer.php zu einer Datei zusammen. Der Vorteil dieser Variante: In der so abgespeicherten Datei muss immer nur der Inhalt des aktuellen Dokuments und die beiden include()-Funktionen definiert werden. Auf diese Weise können Sie den gesamten Webauftritt aufbauen, ohne dass Sie auf Frames zurückgreifen müssen.
7.7.3 IFrames Auch wenn der Name ähnlich klingt, mit »echten« Frames haben IFrames nichts zu tun. Denn sie teilen den Bildschirm nicht in mehrere Bereiche auf, sondern sind ähnlich wie Grafiken ein Bereich innerhalb einer Webseite. Ursprünglich eine Entwicklung von Microsoft, werden IFrames mittlerweile von den meisten Browsern unterstützt und gehören seit HTML 4.0 zum offiziellen Standard. IFrames dienen dazu, fremde Quellen, vorzugsweise natürlich andere Webseiten, anzuzeigen. Im einfachsten Fall werden IFrames folgendermaßen definiert: #
Das funktioniert zwar, Suchmaschinen haben damit allerdings gehörige Probleme. Denn es ist davon auszugehen, dass so angelegte IFrames von den Suchmaschinen nicht indexiert werden. Damit Suchmaschinen überhaupt etwas mit IFrames anfangen können, sollten Sie zusätzliche Informationen integrieren. #
Setzen Sie innerhalb des IFrames einen Link auf die Seite, die eigentlich im IFrame angezeigt werden soll. In Kombination mit einem zusätzlichen beschreibenden Text ist das IFrame dann bestmöglich für Suchmaschinen gerüstet. Der so angelegte Text ist für den normalen Benutzer übrigens nicht sichtbar. Er wird nur dann angezeigt, wenn sein Browser das <iframe>-Tag nicht kennt.
206
Flash, PDF, CMS und andere Problembereiche
Und das meint der GoogleGuy I've never heard the suggestion that Google would penalize for iframes before reading it in the thread. Plenty of legit sites use iframes, so it wouldn't make sense to penalize for it. Now I can easily believe that some search engine spiders would have trouble with iframes just like some spiders have trouble with frames. But I wouldn't expect iframes to cause any penalties. So it's kind of like the whole urban myth that was going on for a while about if you use javascript to change the text in the status bar, a search engine may penalize you.
Bei IFrames kommt übrigens die gleiche Problematik wie bei normalen Frames zum Tragen. Denn die Suchmaschine zeigt, bei einem Treffer auf das im IFrame eingebettete Dokument, nur dieses an. Die das IFrame umgebende Seite wird in diesem Fall ignoriert. Sie sollten dann auf jeden Fall einen Link in die eingebettete Seite setzen oder ein entsprechendes Skript verwenden. Wie ein solches aussehen kann, haben Sie im Zusammenhang mit Frames gesehen. IFrames und Spam Wie bereits erwähnt, sind IFrames nicht Teil der eigentlichen Webseite, sondern werden lediglich in diese eingebettet. Einige »findige« Seitenbetreiber sind nun auf die Idee gekommen, Suchmaschinen optimierte Inhalte anzubieten, die dann vom IFrame visuell überlagert werden. Die Suchmaschine indexiert die optimierte Seite, während dem Besucher der normale Seiteninhalt angezeigt wird. Diese Methode könnte kurzfristig Erfolg bringen. Das Risiko, bei Suchmaschinen aufgrund von Spam aus dem Index geworfen zu werden, ist aber sehr hoch.
7.8 Sessions Sessions sind normalerweise eine feine Sache. Ruft ein Besucher die entsprechende Seite auf, wird eine Zufallszahl generiert, die der Besucher über den gesamten Aufenthalt auf der Seite »mitschleppt«. Besonders interessant ist das zum Beispiel für OnlineShops und Foren. Wandert ein Besucher durch einen Online-Shop, kann er Dinge in den Warenkorb legen, und die bleiben während seines gesamten Besuchs dort liegen. Üblicherweise werden Session-ID entweder als Cookie auf dem Client gespeichert oder, sollten Cookies deaktiviert sein, über den URL an den Server übergeben. Aus Sicherheitsgründen werden Sessions so programmiert, dass sie zeitlich begrenzt sind. Allerdings werden Sessions von Haus aus nicht automatisch beendet, denn das System kann das Sitzungsende des Clients nicht eindeutig erkennen46. Sie erkennen Sessions normalerweise an einer recht langen Adresszeile im Browser. http://www.pommeranzer-seopard.de/is-bin?sid=295332953f9539533
In diesem Beispiel lautet die Session-ID 295332953f9539533. Anhand dieser ID ist der Besucher nun eindeutig zu erkennen. 46 Das klappt höchstens mithilfe der Session-Parameter innerhalb der Konfigurationsdirektive.
207
Kapitel 7
Ruft man den URL einer bereits abgelaufenen Session auf, kommt der bekannte Hinweis »Diese Seite ist nicht mehr gültig«. Und genau hier liegt das Problem von Sessions in Verbindung mit den Suchmaschinen. Denn, besucht ein Suchmaschinen-Robot eine Seite, die mit Session-IDs arbeitet, wird ihm automatisch eine Session-ID zugewiesen. Der Robot würde die Seite nun zum Beispiel im Index unter dem URL http://www.pommeranzer-seopard.de/is-bin?sid=295332953f9539533
speichern. So weit, so richtig. Taucht die Seite nun allerdings in den Trefferlisten auf, und wird dort angeklickt, ist die Session-ID natürlich längst abgelaufen und der Besucher bekommt den wenig erbaulichen Hinweis »Diese Seite ist nicht mehr gültig« zu Gesicht. Das ist natürlich eine vertrackte Situation. Die Tipps zahlreicher »Experten«, dann einfach auf Session-IDs zu verzichten, sind unsinnig. Denn oftmals gibt es zu ihnen keine Alternative. Und auch der Hinweis von Google (http://www.google.de/ support/webmasters/bin/answer.py?answer=35769&hl=de) diesbezüglich ist nur wenig hilfreich. Ermöglichen Sie es Suchrobotern, Ihre Website ohne Sitzungs-IDs oder Argumente, die ihren Weg durch die Website aufzeichnen, zu crawlen. Diese Methoden sind hilfreich, um das Verhalten einzelner Nutzer zu analysieren, das Zugriffsmuster von Suchrobotern ist jedoch davon gänzlich verschieden. Das Verwenden solcher Techniken kann zu einer unvollständigen Indizierung Ihrer Website führen, da Suchroboter eventuell nicht in der Lage sind, URLs zu eliminieren, die verschieden aussehen, aber auf dieselbe Seite zeigen.
Eine Möglichkeit, das Problem von Session-IDs und Suchmaschinen zu lösen, ist, das System so einzustellen, dass alle vorhandenen Seiten auch als statische HTML-Seiten ohne Session-IDs ausgegeben werden. Dabei darf man allerdings nicht vergessen, diese von der Startseite der »echten« Seite aus zu verlinken. Im besten Fall werden diese Seiten dann indexiert und tauchen in den Trefferlisten auf. Allerdings hat diese Variante einen entscheidenden Nachteil: Sie verstößt gegen die Richtlinien der meisten Suchmaschinen, nach denen man keine doppelten Seiten mit identischem Inhalt generieren soll. Ein anderer, besser Lösungsansatz besteht darin, dem Googlebot und den anderen Suchmaschinen erst gar keine Session-ID zuzuweisen. Das lässt sich ganz einfach über ein kleines PHP-Skript47 realisieren. Dabei macht man sich die Tatsache zunutze, dass Suchmaschinen immer den Useragent mitschicken. Per PHP lässt sich diese Kennung ermitteln und entsprechend darauf reagieren. Google schickt beispielsweise die Zeichenkette googlebot mit. Über folgendes PHP-Skript wird ermittelt, ob GoogleBOT als Kennung vorhanden ist. Wenn das der Fall ist, wird das Starten der Session verhindert.
47 Es geht natürlich auch mit anderen Skript- und Programmiersprachen. Die PHP-Variante ist aber sicherlich am einfachsten. (Diese Aussage stelle ich jetzt einfach mal dreisterweise und voller Selbstvertrauen in den Raum.)
208
Flash, PDF, CMS und andere Problembereiche
#
#
# Code
Nun deckt Google zwar einen großen Bereich der Suchmaschinen ab, Sie wollen aber sicherlich auch andere Suchmaschinen berücksichtigen. Dazu lässt sich das Skript ganz einfach erweitern. Im folgenden Beispiel werden neben Google noch die beiden Suchmaschinen Yahoo! und MSN aufgenommen. #
#
# Code
Theoretisch können Sie hier sämtliche Suchmaschinen-Kennungen aufnehmen.
7.9 Cookies Nicht nur im Zusammenhang mit dem Datenschutz sind Cookies ein schwieriges Thema. Denn ebenso wie Datenschützer mögen auch Suchmaschinen Cookies nicht besonders. Hier ein entsprechender Hinweis von Google: Google hatte aufgrund von Cookie-Anforderungen Schwierigkeiten, auf der Seite zu navigieren. Suchmaschinen können beim Durchsuchen von Websites, die Cookies für die Navigation verwenden, Schwierigkeiten haben. Navigieren Sie mithilfe eines Textbrowsers auf Ihrer Website, um zu sehen, wie ein Spider sie möglicherweise crawlt.
Auch wenn es immer mal wieder anderslautende Vermutungen gibt: Suchmaschinen können nichts mit Cookies anfangen. Eine interessante Diskussion zu diesem Thema finden Sie unter http://www.abakus-internet-marketing.de/foren/viewtopic/t-21147.html. Normalerweise sollten Sie auf den Einsatz von Cookies verzichten und stattdessen Sessions verwenden. Das erspart Ihnen die Probleme mit Suchmaschinen.48 Gegen Cookies spricht zudem, dass sie von immer mehr Anwendern im Browser deaktiviert werden.
48 Die Probleme, die Suchmaschinen möglicherweise mit Session-IDs haben, sind natürlich immer noch präsent.
209
Kapitel 7
7.10 Java-Applets Um es vorwegzunehmen: Suchmaschinen können mit Java-Applets nichts anfangen. Andererseits stellt es aber auch kein Problem dar, wenn man ein solches Applet in die eigenen Seiten integriert. Sinn und Unsinn von Java-Applets Auch im Zusammenhang mit Java gilt: Überlegen Sie sich, ob der Einsatz dieser Technologie wirklich sinnvoll ist. Auf vielen Seiten wird zum Beispiel die Navigation mithilfe von Java-Applets realisiert. Das ist in den meisten Fällen natürlich völlig überzogen und dient oft nur dazu, zu zeigen, dass der Entwickler Java beherrscht. Denn Java mag für einige Einsatzbereiche interessant sein, für »normale« Webanwendungen ist es meist überdimensioniert. Ein Grund dafür sind die vergleichsweise langen Initialisierungszeiten für die Java Virtual Machine (JVM), wenn diese noch nicht geladen ist. Es ist davon auszugehen, dass Java auch zukünftig nur Nischen besetzen kann. Stattdessen werden modernere Technologien wie zum Beispiel Ajax immer weiter auf dem Vormarsch sein.
Mit allem, was innerhalb des eigentlichen Applets steht, können Suchmaschinen rein gar nichts anfangen. Sie sollten daher auf jeden Fall das alt-Attribut verwenden, um der Suchmaschine einen alternativen Text anzubieten. #
#
# Code
<param name="farbe" value="#000000" />
Das alt-Attribut allein genügt allerdings nicht. Zusätzlich empfiehlt es sich, die Informationen, die im Applet enthalten sind, parallel auch als Text anzubieten. Wichtig ist das vor allem, wenn das Applet die Navigation enthält. In diesem Fall lagern Sie unbedingt die Links aus und bieten sie zusätzlich als normale Textlinks an.49
7.11 Passwortgeschützte Bereiche Immer mehr Seiten werden mit Benutzernamen und Passwort geschützt. So können Besucher dann beispielsweise erst einen Seitenbereich betreten, wenn sie sich zuvor registriert und dann eingeloggt haben. Für Suchmaschinen sind solche Bereiche tabu 49 Das empfiehlt sich übrigens nicht nur hinsichtlich der Suchmaschinen-Optimierung. Es gibt tatsächlich sehr viele Besucher, die die Wiedergabe von Java-Applets in ihrem Browser deaktiviert haben. Auch an diese Besucher sollte man denken und die Seite so gestalten, dass sie notfalls auch ohne das Java-Applet benutzbar ist.
210
Flash, PDF, CMS und andere Problembereiche
und werden nicht indexiert. Das Problem daran: Oft sind solche Seiten so aufgebaut, dass bis auf die Startseite keine andere Seite des Projekts ohne Passwort zugänglich ist. Für eine vernünftige Positionierung in den Suchmaschinen ist das freilich fatal. Funktioniert der Zugriff auf passwortgeschützte Bereiche doch? Die Schulverwaltung der Catawba-Schulen (http://www.catawba.k12.nc.us/) im US-Bundesstaat North Carolina hat im Jahr 2006 Google beschuldigt, passwortgeschützte Bereiche in seinen Index aufgenommen zu haben. Mit einer einstweiligen Verfügung wurde Google dazu gezwungen, sämtliche Inhalte wieder aus dem Index zu entfernen. Trotz dieses »Sieges« der Schule kann man sich natürlich durchaus besorgt die Frage stellen, wie Google überhaupt an die Inhalte gekommen ist. Denn, wie bereits erwähnt, können Spider normalerweise passwortgeschützte Bereiche nicht erreichen. Google hat den Vorfall mittlerweile damit erklärt, dass einer der Schüler die Daten veröffentlicht bzw. die »Tür weit offen gelassen« hat. Und tatsächlich hat sich der Vater einer Schülerin gemeldet und bestätigt, dass seine Tochter vor einigen Monaten Opfer eines Identitätsdiebstahls geworden ist. Beruhigt? Sicherlich nicht. Denn Identitätsdiebstahl ist ein immer weiter um sich greifendes Verbrechen.
Man steht hier als Webseitenbetreiber vor einem echten Dilemma. Der viel zitierte Hinweis, dass man dann eben auf den Passwortschutz verzichten muss, ist natürlich Unsinn. Schließlich gibt es genügend Webseiten, die ohne Passwortschutz gar nicht denkbar wären. Es gibt verschiedene Ansätze, dieses Problem zu lösen. Im einfachsten Fall legen Sie einen Blog an. Denn solche Blogs sind nicht nur als eigenständige Webseite interessant, sondern können auch unterstützend für Webanwendungen genutzt werden. Oftmals sind passwortgeschützte Bereiche arm an Content, wodurch die Suchmaschine kaum ermitteln kann, wie sie die Webseite klassifizieren soll. Legt man nun aber einen Blog an und stellt dort zum Beispiel die neuesten Features, Infos oder Funktionen vor, werden diese Informationen von den Suchmaschinen indexiert und sind so einem breiten Publikum zugänglich. Besonders interessant sind Blogs natürlich auch vor dem Hintergrund, dass die meisten CM-Systeme mittlerweile eine entsprechende Funktion zur Generierung von Blogs liefern. Je nachdem, von welcher Art die Webanwendung ist, können Sie Ihren Besuchern einen Testbereich einrichten. Dort können sie dann die Anwendung auf Herz und Nieren ohne Passwort testen. Auf diese Weise lernen dann nicht nur die Besucher Ihre Seite besser kennen, auch Suchmaschinen können die Seiten problemlos indexieren.
211
8
Die SuchmaschinenAnmeldung Man mag drei- oder viertausend Menschen gekannt haben, man spricht aber immer nur von sechs oder sieben.
Elias Canetti, Literatur-Nobelpreisträger
Nachdem Sie Ihre Seiten optimiert haben, gilt es nun, sie bei den Suchmaschinen anzumelden. Wie das vonstatten geht, ist eine Frage der Philosophie. Während die einen getreu der Maxime »je mehr desto besser« verfahren, melden andere ihre Seiten ausschließlich bei den wirklich wichtigen Suchdiensten an. Und dann gibt es da natürlich noch den unübersichtlichen Markt der Anbieter, die für einen nicht eben geringen Betrag die Aufgabe der Suchmaschinen-Anmeldung übernehmen. Auf den folgenden Seiten lernen Sie die verschiedenen Methoden kennen. Und dann stellt sich natürlich noch die alles entscheidende Frage, ob denn der Eintrag in Suchmaschinen überhaupt nötig ist oder die Seite nicht auch so früher oder später in den Indizes der großen Anbieter landet. So gibt zum Beispiel Yahoo! auf seinen Seiten bekannt: Das Ziel der Yahoo! Suche ist es, jeden verfügbaren Inhalt im Web zu entdecken, zu indizieren und dadurch den Nutzern das bestmögliche Suchergebnis zu bieten. Der Yahoo!-Suchindex enthält mehrere Milliarden Webseiten und besteht zu mehr als 99 % aus Ergebnissen, die durch freies Crawling aufgenommen wurden.
Auch dieser Aspekt wird in diesem Kapitel natürlich ausführlich untersucht.
Kapitel 8
8.1 Welche Suchmaschinen wichtig sind Es gibt tausende Suchmaschinen. Und natürlich gibt es unzählige Tools und Anbieter, die versprechen, Ihre Webseite bei 10.000, 30.000 oder sogar 50.000 Suchmaschinen anzumelden. Und in der Tat schadet es auf den ersten Blick nicht, in möglichst vielen Suchmaschinen gelistet zu werden. Allerdings sollten Sie sich eines vor Augen halten: Es gibt mit Sicherheit keine 50.000 Suchmaschinen. Stattdessen handelt es sich bei den meisten dieser Seiten um sogenannte Free-For-All-Sites. Das ist nichts anderes, als Seiten mit ellenlangen Linklisten. Dort angemeldet zu sein, bringt rein gar nichts. Denn normalerweise verirrt sich niemand auf solche Seiten. Sollte es tatsächlich einmal geschehen, wird sich niemand die endlosen Linklisten durchlesen. Und auch die Hoffnung, dass durch Links auf diesen Seiten die eigene Linkpopularität erhöht werden kann, muss leider enttäuscht werden. Die »echten« Suchmaschinen erkennen solche Seiten und nehmen sie nicht in ihren Index auf. Erschwerend kommt hinzu, dass der Großteil der auf Free-For-All-Sites gelisteten Seiten unseriös ist. Und genau dieses Unseriöse wird dann auch auf Ihre Seite abfärben. Denn wenn Ihre Seite direkt zwischen den beiden Links Geld verdienen von zu Hause. 5000 Euro garantiert und Prominente nackt auftaucht, wird es schnell peinlich. Daher sollten Sie Abstand von Einträgen auf solchen Seiten nehmen. Nun sind nicht alle Seiten Free-For-All-Sites. Es gibt auch noch Spezialsuchmaschinen, die von den Eintragsdiensten ebenfalls angesteuert werden. Hier könnten Sie möglicherweise Nachteile aus einer Anmeldung ziehen. Denn es gibt Suchmaschinen, die nur Seiten zu einem bestimmten Themengebiet oder einer bestimmten Region aufnehmen. Durch automatische Anmeldungen werden die Betreiber, dieser oft von Privatpersonen oder Institutionen betriebenen Suchmaschinen, mit sinnloser Arbeit überhäuft. Denn erst müssen die gemeldeten Seiten überprüft und dann manuell gelöscht werden. Und selbst wenn Ihre Seite in einer solchen Spezialsuchmaschine auftaucht, ist der Zweck natürlich immer noch fraglich. Oder würde es Ihnen wirklich etwas bringen, wenn Ihre Seite in einer Suchmaschine für Patente auftaucht, Ihre Seite sich aber den neuesten Online-Games verschrieben hat?
!
!
!
ACHTUNG
Es ist müßig, über Sinn und Zweck von solchen allumfassenden Anmeldediensten zu diskutieren. Fakt ist, dass es keine 50.000 Suchmaschinen gibt. Meistens handelt es sich um Free-For-All-Seiten. Die geben Ihre E-Mail-Adresse, die Sie während der Anmeldung angeben müssen, sehr oft an Spammer weiter. Weiterer Nachteil: Die meisten Suchmaschinen ignorieren automatische Anmeldungen und nehmen so gemeldete Seiten gar nicht erst in ihren Index auf.
Genau genommen muss man seine Seite nur bei den »Großen« anmelden. Das sind Google, Yahoo!, Lycos und MSN Search. Ist Ihre Seite hier gut gelistet, decken Sie bereits mehr als 95 Prozent des Suchmaschinen-Traffics ab. Denn was viele Webseiten-
214
Die Suchmaschinen-Anmeldung
betreiber nicht wissen: Die Suchmaschinen sind untereinander stark verzahnt und viele kooperieren miteinander. Derzeit gibt es vier große Suchtechnologien: Google Inktomi Fast Search And Transfer (FAST) MSN Search Die folgende Tabelle liefert einen Überblick darüber, welche Suchtechnologie von den verschiedenen Suchmaschinen eingesetzt wird: Suchmaschine
Technologie
AllTheWeb
FAST
AltaVista
Inktomi
Fireball
FAST
Google
Google
HotBot
Inktomi
Lycos
FAST
MSN/Live Search
MSN Search
Yahoo!
Inktomi
Tabelle 8.1: Suchmaschinen und die dazugehörige Technologie
Bei der Frage, welche Suchmaschinen bei der Anmeldung berücksichtigt werden sollten, ist natürlich auch der anvisierte Markt zu berücksichtigen. Ist Ihre Seite ausschließlich für den deutschsprachigen Raum interessant oder soll sie global funktionieren? Im deutschen Sprachraum nehmen die »großen 3« ebenfalls eine Spitzenposition ein. Melden Sie Ihre Seiten auf jeden Fall bei Google, Yahoo! und MSN/Live Search an. Zusätzlich relevant sind Web.de und Fireball. Es schadet außerdem nichts, wenn man seine Seiten bei AllesKlar, Dino-Online, Abacho und Sharelook anmeldet. Auf internationalem Parket decken ebenfalls die drei bekanntesten Suchdienste Yahoo!, Google und MSN/Live Search den Großteil des Marktes ab.
215
Kapitel 8
8.2 Die Seite manuell eintragen Mittlerweile kann man davon ausgehen, dass es nicht mehr nötig ist, seine Seiten manuell bei den großen Suchmaschinen anzumelden. Das glauben Sie nicht? Dann stellen Sie doch einfach mal eine Seite online und testen Sie nach einigen Tagen, ob sie nicht ganz ohne Ihr Zutun bei Google & Co. gelistet wird. Für kleinere Suchmaschinen und Spezialkataloge gilt das allerdings meistens nicht. Dort muss man seine Seiten nach wie vor manuell anmelden. Oft wird damit argumentiert, dass eine Anmeldung zwar nicht mehr zwingend notwendig ist, man dadurch aber eine bessere Position in den Suchergebnissen erzielt. Auch das wurde durch zahlreiche Tests widerlegt. So ist es zum Beispiel bei Google völlig unerheblich, ob Sie Ihre Seite selbst anmelden oder sich ganz auf Google verlassen. Es zählen ausschließlich die bekannten Rankingfaktoren.
> >
>
HINWEIS
Wie gelangen die Seiten aber in den Index der Suchmaschine? Die Robots und Spider besuchen regelmäßig die ihnen bekannten Seiten, um nach Neuerungen zu sehen. Dabei folgen sie den Links der Seite. Auf diese Weise werden immer mehr und letztendlich auch Ihre Seiten indexiert. Wer auf Nummer sicher gehen will, kann seine Seite natürlich auch manuell eintragen. Denn ein einmaliger Eintrag schadet nichts. Verzichten sollte man allerdings darauf, seine Seite bei Google & Co. täglich nach dem Motto »Doppelt hält besser« anzumelden. Solche Versuche gehen nach hinten los und führen dazu, dass die Seite gesperrt und nicht gelistet wird.
Um seine Seiten bei einer Suchmaschine anzumelden, sucht man nach einem Link wie URL hinzufügen, Seite vorschlagen oder Ähnlichem. Welche Angaben neben URL und Seitentitel letztendlich noch benötig werden, ist von Suchmaschine zu Suchmaschine unterschiedlich. Um den Anmeldevorgang etwas zu beschleunigen, vor allem, wenn Sie die Seite nacheinander bei mehreren Suchmaschinen anmelden wollen, sollten Sie die notwendigen Daten bereits im Vorfeld anlegen. So brauchen Sie sie dann nur noch in die entsprechenden Felder zu kopieren. Benötigt werden in aller Regel: Der URL der Seite. Der Titel der Seite. Die wichtigsten Keywords. Kurze Beschreibung der Seite in Deutsch und (im Idealfall) in Englisch. Die E-Mail-Adresse des Seitenbetreibers. Eine Kategorie, in der die Seite gelistet werden soll.
216
Die Suchmaschinen-Anmeldung
Abbildung 8.1: Der erste Schritt zur Anmeldung
Mit diesen Angaben sind Sie eigentlich für alle Suchmaschinen gewappnet. Und keine Bange: Nicht alle Suchmaschinen verlangen tatsächlich alle Angaben. Die folgende Übersicht soll Ihnen dabei helfen, sich bestmöglich auf die Anmeldung bei den wichtigsten Suchmaschinen vorzubereiten: Google – Bei Google braucht man seine Seiten normalerweise nicht anzumelden. Um in den Google-Index aufgenommen zu werden, genügen Links von anderen Seiten. Der Googlebot besucht dann die Seite früher oder später automatisch. Yahoo! – Yahoo! ermöglicht eine kostenlose Anmeldung für alle nicht kommerziellen Webseiten. Allerdings wird dabei keine Garantie gegeben, ob und wann die Seite im Index erscheint. Wer auf Nummer sicher gehen will, der entscheidet sich für die 299 Euro teure Anmeldung. Dabei wird die Seite innerhalb von 7 Tagen besucht und – wenn sie den Bestimmungen von Yahoo! entspricht – aufgenommen. Wer seine Seiten bei Yahoo! anmeldet, wird übrigens nicht nur bei Yahoo!, sondern auch bei AltaVista und AllTheWeb gelistet. Lycos und HotBot – Auch hier kann man seine Seite kostenlos eintragen. Genau wie bei Yahoo! wird jedoch auch bei Lycos und HotBot keine Garantie auf Aufnahme gegeben. Zusätzlich gibt es bezahlte Einträge, durch die die Webseite mit einer Kurzbeschreibung und optisch hervorgehoben angezeigt wird. Die Preise
217
Kapitel 8
dafür liegen bei 299 beziehungsweise 398 Euro. Die Einträge erscheinen bei allesklar.de, Lycos, Fireball, freenet.de, T-Online.de, DINO-Online, meinestadt.msn.de und meinestadt.de! In der folgenden Tabelle sind die Adressen der Anmeldeformulare einiger Suchmaschinen aufgeführt. Das erspart Ihnen die oft zeitraubende Suche danach. Denn unverständlicherweise verstecken viele Suchmaschinen die entsprechenden Formulare. Suchmaschine
8.2.1 Ein Eintrag im DMOZ ist Pflicht Auch wenn das Open Directory Project (DMOZ) zunehmend in die Kritik gerät, sollten Sie Ihre Seiten dort auf jeden Fall anmelden. Eine Aufnahme ist zwar keinesfalls garantiert und dauert recht lange, trotzdem sollten Sie es versuchen. Denn schließlich basieren viele Verzeichnisse und Suchdienste50 auf dem DMOZ. Ein weiterer Aspekt, der für eine Anmeldung spricht: Google misst dem DMOZ-Listing ein relativ hohes Gewicht bei der Ranking-Bildung zu. Denn Google geht davon aus, dass eine Seite, die es in das DMOZ geschafft hat, zumindest schon einmal von einem menschlichen Besucher begutachtet und der Aufnahme für »würdig« befunden wurde. Und was gut genug für das menschliche Auge ist, ist auch gut genug für Google. Um Ihre Seite in das DMOZ-Verzeichnis einzutragen, rufen Sie die Projektseite unter http://www.dmoz.de/ auf und wechseln in die Rubrik, in die die Seite am besten passt. Innerhalb der betreffenden Kategorie klicken Sie auf den Link URL vorschlagen. Hier geben Sie den URL, den Titel der Webseite, die Beschreibung und Ihre E-MailAdresse an. Mit einem Klick auf Absenden wird die vorgeschlagene Seite an den zuständigen Redakteur übermittelt. Jetzt heißt es Geduld bewahren und abwarten, ob die Seite tatsächlich aufgenommen wird. Denn die Aufnahme kann sich nicht nur über Wochen, sondern sogar über Monate hinziehen. 50 Auch das Verzeichnis von Google bezieht seine Daten aus dem DMOZ.
218
Die Suchmaschinen-Anmeldung
Abbildung 8.2: Vor dem Eintrag wird man recht ausführlich belehrt.
8.3 Vollautomatische Anmeldungen als (schlechte) Alternative Die manuelle Anmeldung haben Sie im vorherigen Abschnitt kennengelernt. Daneben gibt es aber auch die Möglichkeit, seine Seiten automatisch in die verschiedenen Suchmaschinen einzutragen. Hier kann man zwischen entsprechenden Agenturen, OnlineDiensten und spezieller Software wählen. Die Spanne der Angebote reicht dabei von kostenlos bis teuer.
> >
>
HINWEIS
Allerdings sollten Sie beide Varianten nur bei den »übrigen« Suchmaschinen verwenden. Die wirklich wichtigen Suchmaschinen, wie Google, Yahoo! & Co. sollten nach wie vor manuell bedient werden. Eingangs dieses Kapitels wurden die wichtigen Suchdienste genannt.
219
Kapitel 8
An dieser Stelle wird bewusst keine Auswahl von Eintragsdiensten gezeigt. Der Markt ist hier zu vielfältig, als dass man einige wenige herausheben könnte. Wollen Sie auf solche Anbieter zurückgreifen, sollten Sie einige Auswahlkriterien berücksichtigen und immer eines bedenken: Von wenigen Ausnahmen abgesehen, handelt es sich bei den sogenannten Multi-Submittern um Suchmaschinen-Spammer. Warum das so ist, lässt sich ganz einfach erklären. Für die Anmeldung bei den Suchmaschinen werden sehr oft Skripte verwendet, die die von Ihnen eingegebenen Daten in die Anmeldeformulare der Suchmaschinen übergeben. Aufgrund dieses Automatismus kann hier allerdings nur auf Basis des kleinsten gemeinsamen Nenners gearbeitet werden. Allerdings erlauben bzw. verlangen viele Suchdienste die Eingabe ganz spezieller Daten. So muss man zum Beispiel sehr oft die Kategorie seiner Seite über ein Auswahlfeld angeben. Die Eintragsskripte sind dazu nicht in der Lage. Zusätzlich werden Suchmaschinen-Betreiber dadurch verärgert, dass viele Multi-Submitter die Seitenmeldung gleich mehrmals durchführen. Wird das von den Spam-Mechanismen der Suchmaschine registriert, entfernt sie Ihre Seite für lange Zeit aus dem Index.
> >
>
HINWEIS
Am schlimmsten sind übrigens die Submitter, die eine Garantie geben, dass man binnen weniger Wochen in den Top Ten der Trefferliste bestimmter Suchmaschinen erscheint. Um es salopp auszudrücken: Das ist schlicht und ergreifend Unsinn. Denn auf die letztendliche Platzierung haben die Submitter keinerlei Einfluss. Wie widersinnig solche Versprechen sind, wird deutlich, wenn man sich überlegt, was dieser Submitter mit seinem elften Kunden macht. Garantiert er dem den elften Platz in der Trefferliste oder fliegt einer seiner älteren Kunden aus den Top Ten?
Ähnlich stellt es sich bei Software dar, über die man seine Seiten automatisch bei Suchmaschinen anmelden kann. Die funktionieren eigentlich alle mehr oder weniger nach dem gleichen Prinzip: Man gibt die wichtigsten Daten zu seiner Seite ein, beziehungsweise lässt sie automatisch einlesen. Anschließend braucht man nur noch die gewünschten Suchmaschinen auszuwählen und schon kann man die Software anweisen, die Seite einzutragen. Die meisten Programme werben mit einer unglaublich großen Anzahl an Suchmaschinen, in denen der Eintrag vorgenommen werden kann. Das klingt zwar nett, der Effekt ist allerdings gering. Denn was bringt es, wenn man zwar in 10.000 Suchmaschinen (von denen der Großteil sich bei genauerer Betrachtung als Linklisten entpuppt) auftaucht, die meisten User aber ausschließlich die großen Suchdienste nutzen? Die meisten Suchmaschinen sind von der vollautomatischen Anmeldung übrigens nicht begeistert und ändern regelmäßig die Adresse des Anmeldeformulars. Viele Eintragsdienste reagieren darauf kaum oder verspätet. Das führt dazu, dass die automatische Anmeldung dann fehlschlägt.
220
Die Suchmaschinen-Anmeldung
!
!
!
ACHTUNG
Am Ende noch einmal eine eindeutige Warnung: Die Suchmaschinen-Betreiber ergreifen mittlerweile Maßnahmen gegen automatische Einträge und reagieren immer öfter mit dem Ausschluss von automatisch angemeldeten Seiten.
8.3.1 So lange dauert es, bis die Seite gelistet wird Viele Webseitenbetreiber werden, nachdem sie ihre Seiten angemeldet haben, unruhig, wenn sie sie nicht bei Google & Co. finden. Diese Aufregung ist allerdings völlig unbegründet. Denn in der Mehrzahl der Fälle dauert es eine ganze Weile, bis die Seite in den jeweiligen Suchmaschinen gelistet wird. Wie lange sich die Suchmaschinen tatsächlich Zeit lassen, zeigt die folgende Tabelle: Suchmaschine
Erste Anmeldung
Nach erneutem Besuch
AltaVista
2 Wochen
2 Tage
Fireball
1 Tag
3 Tage
Google
8 Wochen
Nach Relevanz
Lycos
3 Wochen
4 Wochen
MSN
3 Wochen
3 Wochen
Yahoo!
8 Wochen
8 Wochen
Tabelle 8.3: So lange dauert die Aufnahme in die Suchmaschinen.
Beachten Sie, dass es sich hier um Erfahrungswerte handelt. So ist es durchaus möglich, dass Ihre Seiten bei AltaVista bei der Erstanmeldung schon nach einer Woche statt der veranschlagten zwei indexiert werden.
8.4 Google-Sitemaps verwenden und automatisch Änderungen übermitteln Google-Sitemaps ermöglichen die automatische Anmeldung von Webseiten in den Google-Index. Wann immer es an der Seite Änderungen gibt, kann man Google darüber kostenfrei und automatisch mit einer einfachen XML-Datei informieren. URLs, die von Google in den Index aufgenommen werden sollen, werden mithilfe von Google Sitemap übergeben und ermöglichen so eine schnellere Indexierung. Dank der Sitemap lernt Google die Struktur Ihrer Webseite besser kennen und kann so das Verhalten des Robots optimieren. Mittlerweile werden Sitemaps übrigens nicht nur von Google unterstützt. Auch Yahoo! und Microsoft verwenden diesen Standard. Ausführliche Informationen zum verwendeten Protokoll finden Sie unter http://www.sitemaps.org/.
221
Kapitel 8
Vorteile durch Google-Sitemaps sind: Die Seiteninhalte können nach Wichtigkeit bewertet werden. So kann man Google mitteilen, welcher Content besonders wichtig ist.51 Sitemaps können auch einer besseren Indexierung in anderen Suchmaschinen dienen. Google findet auch solche Informationen, die der Suchmaschine ohne Sitemap möglicherweise verborgen geblieben wären. Damit Sie einen Eindruck davon bekommen, was bei der Definition von Google-Sitemaps auf Sie zukommt, hier ein typisches Beispiel: #
#
# Code
http://www.example.com/ 2005-01-01 monthly <priority>0.8 http://www.example.com/catalog?item=12 &desc=vacation_hawaii weekly http://www.example.com/catalog?item=73& desc=vacation_new_zealand 2004-12-23 weekly http://www.example.com/catalog?item=74& desc=vacation_newfoundland 2004-12-23T18:00:15+00:00 <priority>0.3 http://www.example.com/catalog?item=83&desc=vacation_usa 2004-11-23 51 Das bedeutet allerdings nicht, dass eine als wichtig gekennzeichnete Seite auf Platz 1 der Trefferlisten erscheint.
222
Die Suchmaschinen-Anmeldung
Hierbei handelt es sich um eine XML-Datei, die auf unterschiedlichste Arten erstellt werden kann. Aufgrund der vergleichsweise einfachen Syntax kann man sie natürlich per Hand anlegen. Wem das zu aufwendig erscheint, der kann die ganze Sache aber auch automatisieren. Google stellt dafür den Sitemap-Generator kostenlos zur Verfügung. Dabei handelt es sich um ein Python-Skript, mit dem Sie die entsprechende XMLDatei generieren können. Das Skript kann von der Seite https://www. google.com/ webmasters/tools/docs/de/sitemap-generator.html heruntergeladen werden. Für den Einsatz auf großen Seiten ist es allerdings nur bedingt geeignet. Mittlerweile gibt es aber zahlreiche Tools von Drittanbietern, die diesen Nachteil nicht haben. http://www.auditmypc.com/free-sitemap-generator.asp http://gsitecrawler.com/ http://www.sitemapbuilder.net/ Auf den Webmaster-Seiten von Google gibt es ausführliche Informationen zum Anlegen der Sitemaps. Ob Sie auf Sitemaps setzen, bleibt letztendlich natürlich Ihnen überlassen. Ein besseres Ranking erzielt man durch die Sitemaps allerdings nicht.
8.5 So tragen Sie eine Seite wieder aus Zu guter Letzt soll noch kurz auf die Möglichkeit eingegangen werden, eine einmal angemeldete Seite wieder aus dem Index der Suchmaschinen zu entfernen. Das kann zum Beispiel bei einer Firmenauflösung oder Ähnlichem nötig werden. Spezielle Formulare bieten die Suchmaschinen dafür in aller Regel zwar nicht an, trotzdem können Sie dafür sorgen, dass Ihre Seiten wieder aus dem Index entfernt werden. Dazu löschen Sie sie vom Server und melden sie bei den betreffenden Suchmaschinen erneut an. Beim nächsten Besuch stellen die Crawler fest, dass die Seite nicht mehr existiert und löschen den Eintrag aus dem Suchmaschinen-Index. Allerdings sollten Sie sich darauf einstellen, dass das Austragen deutlich länger dauert, als das Eintragen. Google stellt ein spezielles Formular zum Entfernen von URLs zur Verfügung. Zu finden ist es unter http://services.google.com/urlconsole/controller. Darüber hinaus kann man natürlich auch mit einer robots.txt und entsprechenden Metatag-Angaben arbeiten. Ausführliche Informationen dazu finden Sie unter http://www.google.de/ intl/de/remove.html.
223
9
Erfolgskontrolle Viele erkennen zu spät, dass man auf der Leiter des Erfolges einige Stufen überspringen kann. Aber immer nur beim Hinuntersteigen.
William Somerset Maugham, englischer Schriftsteller
Sie wissen längst, wie viel Mühe die Suchmaschinen-Optimierung macht. Stellt sich dann natürlich die Frage, ob dieser Aufwand tatsächlich berechtigt ist und Erfolg bringt. Das verlangt nach einer regelmäßigen Überprüfung. In die Kontrolle sollten dabei natürlich die Suchmaschinen eingebunden werden. Über die kann man überprüfen, ob seine Seiten überhaupt, und wenn ja, an welcher Position, gelistet sind. Darüber hinaus sollte regelmäßig ein Blick in die Log-Dateien des Servers geworfen werden. Denn die geben durchaus interessante Dinge preis. So kann man nicht nur erfahren, wie viele Besucher die Seite hat, sondern auch woher sie stammen und welche Seiten sie im Einzelnen aufgerufen haben. Am Ende der Analyse sollte eine klassische Kosten-Nutzen-Rechnung stehen. Denn Suchmaschinen-Optimierung und bezahlte Sucheinträge gehen durchaus ins Geld. Deswegen sollten Sie regelmäßig den sogenannten Return on Investments (ROI) im Auge behalten. Lohnen sich die Investitionen, und was darf Suchmaschinen-Marketing und -optimierung überhaupt maximal kosten, damit die Seite trotzdem noch Gewinn abwirft. Dabei sind die Kosten für Marketing und Optimierung übrigens längst nicht die einzigen. In eine solche Analyse müssen dann auch Faktoren wie Hosting, Personal und Softwarelizenzen mit
Kapitel 9
einfließen. Dieses Kosten-Gesamtpaket muss anschließend ins Verhältnis zu den Erträgen gestellt werden, die von der Webseite abgeworfen werden.
9.1 So überprüfen Sie, ob die Seite gelistet ist Viele Seitenbetreiber überprüfen, ob sie in den Suchmaschinen gelistet sind, indem sie entweder ein entsprechendes Keyword oder den Domain-Namen eingeben. Diese beiden Aspekte allein geben allerdings noch nicht genügend Sicherheit und verraten schon gar nicht, wie gründlich die Seiten tatsächlich indexiert wurden. Besser ist es, wenn Sie sich direkt von den jeweiligen Suchmaschinen bestätigen lassen, welche Seiten exakt gelistet sind. Eine solche Möglichkeit bieten die meisten Suchmaschinen. Wie eine entsprechende Ausgabe aussieht, zeigt die folgende Abbildung:
Abbildung 9.1: Die Seiten von Addison-Wesley sind bei Google gelistet.
Hier wurde überprüft, ob die Domain www.awl.de bei Google gelistet ist. Dabei erfährt man nicht nur, ob eine Domain tatsächlich indexiert wurde, auch alle von Google indexierten Dateien werden aufgeführt. Beachten Sie, dass dazwischen unterschieden wird, ob man www.awl.de, http://www.awl.de oder awl.de eingibt. So führt Google bei der Eingabe von site:awl.de 2.200 Treffer auf, während es bei site:www.awl.de lediglich 874 sind. Diese Unterschiede existieren, weil bei site.awl.de auch Subdomains
226
Erfolgskontrolle
wie docma.awl.de aufgelistet werden. Sie sollten sich daher am besten eine Abfrageform angewöhnen und diese dann auch tatsächlich jedes Mal verwenden. Suchmaschine
Abfrage
Anmerkungen
AltaVista
host:www.awl.de
Keine
AllTheWeb
site:www.awl.de
Hier werden die Ergebnisse von mehreren Suchdiensten und Portalen aufgeführt. Dazu gehören unter anderem T-Online und Lycos.
Google
site:www.awl.de
Bei Google tauchen in der Trefferliste auch sogenannte bekannte URLs auf. Das sind solche URLs, die Google zwar kennt, die allerdings nicht gespidert wurden. Zu erkennen sind sie daran, dass zu den URLs keinerlei Beschreibung angezeigt wird.
HotBot
domain:www.awl.de
HotBot erlaubt über den Link auch die Abfrage von Fireball und Lycos. So können Sie gleich überprüfen, ob Ihre Seite auch dort gelistet ist.
Yahoo!
site:http://www.awl.de
Keine
Tabelle 9.1: Suchmaschinen und ihre verschiedenen Abfragemöglichkeiten
Ob die eigenen Seiten in den Indexen der Suchmaschinen stehen, ist zweifellos ein wichtiger Aspekt. Im nächsten Schritt sollte man aber auch überprüfen, ob das eigene Projekt so beliebt ist, dass von anderen Webseiten darauf verwiesen wird. Viele Suchmaschinen ermöglichen eine solche Abfrage. Beachten Sie dabei, dass hierdurch ausschließlich die entsprechenden Links aufgeführt werden und es sich nicht um den Wert der Linkpopularität handelt. Suchmaschine
Abfrage
Anmerkungen
AltaVista
link:www.awl.de
Um die Suche ausschließlich auf fremde Seiten zu begrenzen, verwendet man stattdessen die Syntax link:www.awl.de -host:awl.de
AllTheWeb
link.all:www.awl.de
Es werden die Ergebnisse von mehreren Suchdiensten und Portalen (z.B. T-Online und Lycos) aufgeführt.
Google
link:www.awl.de
Die gleiche Abfrage kann auch über die erweiterte Suche vorgenommen werden. Dort müssen Sie die betreffende Domain in das Feld Domain eintragen.
HotBot
linkdomain:www.awl.de
Um Links von den eigenen Seiten auszuschließen, verwendet man stattdessen die Syntax linkdomain:www.awl.de – domain:www.awl.de
Yahoo!
link:http://www.awl.de
Yahoo! bietet die komfortabelste Anzeigenvariante an.
Tabelle 9.2: Die Linkpopularität überprüfen
Besonders interessant ist die Ergebnisseite von Yahoo!
Hier werden im oberen Fensterbereich zwei Auswahlfelder angezeigt, über die man zusätzliche Optionen einstellen kann. Dabei kann man nicht nur auswählen, woher die Links stammen sollen (von allen Seiten, außer von dieser Domain, außer von dieser Subdomain), auch eine Beschränkung darauf, ob die Links nur auf den aktuellen URL oder die gesamte Seite zielen, ist möglich.
9.2 Rank Monitoring Wie man manuell überprüfen kann, ob die Seiten in den Indizes der jeweiligen Suchmaschinen auftauchen, haben Sie im vorherigen Abschnitt gesehen. Das sogenannte Rank Monitoring beziehungsweise Position Monitoring geht allerdings noch einen Schritt weiter. Denn hiermit wird nicht nur überprüft, ob die Seite überhaupt im Index steht, sondern man kann zusätzlich verfolgen, an welcher Position seine Seite gelistet ist. Aus den Veränderungen der Platzierung kann man dann Rückschlüsse auf Erfolg oder Misserfolg der eingesetzten Optimierungsmaßnahmen ziehen. Das Rank Monitoring hängt meistens unmittelbar mit den Besucherzahlen zusammen. Denn normalerweise hat eine gut positionierte Webseite höhere Besucherzahlen, als eine, die in der Trefferliste erst an Position 278 auftaucht. Um die Position seiner Webseite in den jeweiligen Suchmaschinen zu überprüfen, gibt es wieder ganz unterschiedliche Herangehensweisen. Im einfachsten Fall gibt man bei der betreffenden
228
Erfolgskontrolle
Suchmaschine die Schlüsselwörter ein, auf die man seine Seite hin optimiert hat. Anschließend braucht man dann nur noch nachzusehen, an welcher Position die eigene Seite steht. Die auf diese Weise ermittelte Position trägt man anschließend in eine Datenbank oder Tabelle ein. So können Sie über einen längeren Zeitraum verfolgen, wie sich das Ranking entwickelt und welche Optimierungsmaßnamen gefruchtet und welche sich eher als Flop herausgestellt haben. Neben dieser manuellen Variante, gibt es auch entsprechende Tools, mit denen man das Ranking seiner Seiten überprüfen kann. Die Auswahl reicht dabei von kostenlosen Online-Tools, bis hin zu »echter« Software, die man auf seinem Rechner installieren muss. Beide Varianten arbeiten allerdings nach dem gleichen Prinzip: Man muss URL und Suchbegriff eingeben. Daraufhin wird mehr oder weniger übersichtlich die Position der angegebenen Seite angezeigt. Ein gutes kostenloses Online-Tool ist unter http://www.ranking-check.de/suchmaschinen.php zu finden.52
Abbildung 9.3: Online-Tools helfen bei der Kontrolle des Rankings. 52 Bei Drucklegung dieses Buches lief der Dienst allerdings nicht fehlerfrei und lieferte für Ask, MSN und Web.de falsche Ergebnisse.
229
Kapitel 9
Nachdem man hier Domain und Suchwort angegeben hat, wird nicht nur die Position der Seite angezeigt, auch Linkpopularität und den PageRank der Seite kann man der Übersicht entnehmen. Nun ist rankingCHECK natürlich nicht der einzige Service dieser Art. Hier einige weitere Anbieter: http://rankcomparison.di.unipi.it/ – Ein Ranking-Tool, über das man bis zu 15 Suchmaschinen abfragen kann. http://www.seo-guy.com/seo-tools/se-pos.php – Ermöglicht die Abfrage von 5 Suchmaschinen. Zusätzlich kann man angeben, wie viele Ergebnisseiten durchforstet werden sollen. http://www.yahoosearchrankings.com/– Hier kann man überprüfen, ob die Seite unter den Top 1.000 gelistet wird. http://www.seo-server.de/ – Dieses Tool ermöglicht die Abfrage von 300 GoogleDatencentern. Sämtliche Online-Tools haben allerdings einen entscheidenden Nachteil: Man ist bei der Nutzung doch mehr oder weniger eingeschränkt. So kann man nur einen URL eingeben und auch die Anzahl der zu überprüfenden Keywords ist limitiert. Wer nur eine Webseite betreibt und die auf ein bis zwei Schlüsselwörter hin untersuchen will, dem genügen die Online-Tools in aller Regel. Wer mehr Funktionsvielfalt wünscht, der muss auf entsprechende Software-Tools zurückgreifen. Ein äußerst interessantes und beliebtes Tool ist dabei AgentWebRanking. Eine Testversion von AWR kann von der Seite http://www.agentwebranking.com/de heruntergeladen werden. AWR liefert vergleichsweise zuverlässige Ergebnisse. Zudem können die ermittelten Daten als CSV-Datei exportiert und somit problemlos in anderen Anwendungen weiterverarbeitet werden. Durch die Möglichkeit, mehrere Domains parallel abzufragen, eignet sich AWR auch hervorragend zur Konkurrenzanalyse. Allerdings verlief bei Testläufen die Abfrage von mehr als 50 Schlüsselwörtern etwas zäh. Auch wurden nicht immer alle Positionen geliefert, sondern nur die der eingegebenen Domain. Bei Preisen von 38 bis 384 Euro ist AWR allerdings nur für all jene etwas, die tatsächlich mehrere Domains regelmäßig und anhand mehrerer Schlüsselwörter überprüfen wollen. Natürlich ist AWR längst nicht das einzige Tool seiner Art. Deswegen auch hier wieder ein kleiner Überblick möglicher Alternativen: http://www.ranking-toolbox.de/ – Diese Komplettlösung für besseres Ranking ermöglicht unter anderem auch Ranking Monitoring. http://www.suchmaschinentricks.de/software/ – Suchmaschinen Tricks RankingReport kann kostenlos heruntergeladen und genutzt werden.
230
Erfolgskontrolle
http://www.websitemanagementtools.com/ranking-manager/ – Es werden verschiedene Editionen des Ranking-Managers angeboten. Die Preise liegen zwischen 59 und 398 US-Dollar.
Abbildung 9.4: AWR bietet zahlreiche Optionen.
Man kann übrigens auch eigene Skripte schreiben, um das Ranking zu ermitteln. Bei Google kann man dazu das API nutzen, über das der Zugriff auf die Google-Datenbank gewährt wird. Wie ein solcher Zugriff aussehen kann, wird unter anderem auf der Seite http://www.aiplayground.org/artikel/google-apis/ anhand der Skriptsprache Python gezeigt.
!
!
!
ACHTUNG
Mögliche Gefahren durch das Rank Monitoring Wenn Sie die Position Ihrer Seiten nur hin und wieder überprüfen, ist dagegen überhaupt nichts einzuwenden. Von einer regelmäßigen Nutzung ist allerdings dringend abzuraten. Denn natürlich verursachen Ranking-Tools bei den Suchmaschinen Traffic und beanspruchen zusätzliche Ressourcen. Aus diesem Grund reagieren die Suchmaschinen mittlerweile etwas gereizt auf Ranking-Tools. So passiert es immer häufiger, dass die Anfragen von Ranking-Tools an Suchmaschinen gebloggt werden. Unter Umständen kann der übertriebene Einsatz solcher Software aber auch dazu führen, dass der betreffende URL aus dem Index entfernt wird.
231
Kapitel 9
9.3 Sich per E-Mail über den Besuch von Google informieren lassen Das sitzt man Tage und Wochen vor seinen Seiten, um sie für Google zu optimieren, und hofft, schnell in den Google-Index aufgenommen zu werden. Allerdings macht sich bei vielen Seitenbetreibern recht schnell Ernüchterung breit, wenn sie merken, dass sich Google mitunter sehr viel Zeit lässt. Nun könnte man natürlich täglich über die Abfrage link:www.awl.de überprüfen, ob die eigene Seite bereits bei Google gelistet ist, nach dem zwanzigsten Versuch wird das allerdings frustrierend. Eine elegantere Variante ist da zweifellos die folgende Skript-Lösung. Diese wenigen Zeilen PHP-Code sorgen dafür, dass man eine E-Mail zugeschickt bekommt, wenn der Googlebot die eigenen Seiten besucht hat. #
#
# Code
Um das Skript für Ihre Seite zu optimieren, müssen Sie lediglich die E-Mail-Adresse anpassen. Tragen Sie anstelle von [email protected] die Adresse ein, an die die E-Mail tatsächlich geschickt werden soll.
9.4 Gründe, warum die Seite nicht gefunden wird Tauchen Ihre Seiten nicht in den Suchmaschinen auf, ist das noch kein Grund, gleich in Panik zu geraten. Denn es gibt unzählige Antworten auf die folgende Frage: Warum wird ausgerechnet meine Seite nicht gelistet? Nun, das kann zahlreiche und vor allem ganz verschiedene Gründe haben. Die folgende Auflistung hilft Ihnen bei der FehlerRecherche:
232
Erfolgskontrolle
Aufnahmezeit – Denken Sie nicht, dass Ihre Seiten sofort nach der Anmeldung in der Suchmaschine auftaucht. Wenn man Glück hat, dauert es bis zur Aufnahme in den Index nur wenige Tage, oft vergehen aber auch Wochen und sogar Monate. Hier gilt es also, Ruhe zu bewahren und abzuwarten. Seitenzahl – Besonders umfangreiche Projekte gelangen nicht in kurzer Zeit in den Index. Seite nicht gefunden – Sollte ein Crawler Ihre Seiten indexieren wollen, diese sind aber mehrmals nicht erreichbar, werden sie aus dem Index entfernt, und das übrigens völlig zu Recht. Denn wer will schon beim zweiten Suchergebnis Diese Seite ist nicht verfügbar angezeigt bekommen. Gesperrte IP-Adresse – Es gibt kostengünstige Webspace-Angebote, die nur deswegen so billig sind, weil sich mehrere Seitenbetreiber eine IP-Adresse teilen müssen. Wird die IP-Adresse eines Seitenbetreibers nun wegen Spam oder ähnlichen Verstößen gesperrt, sind davon auch alle anderen Seitenbetreiber betroffen, deren Projekt unter der gleichen IP-Adresse läuft. Cookies – Manche Seiten können nur genutzt werden, wenn vom Besucher Cookies akzeptiert werden. Allerdings mögen Suchmaschinen die Cookies überhaupt nicht. Auf einen generellen Cookie-Zwang auf allen Seiten eines Projekts sollte daher unbedingt verzichtet werden. Verzeichnistiefe – Suchmaschinen gehen davon aus, dass die wichtigen Seiten eines Projekts sich in den obersten Verzeichnisebenen befinden. Und genau auf diese Ebenen konzentrieren sich Suchmaschinen demzufolge. Seiten in untergeordneten Verzeichnissen werden daher oftmals nicht indexiert. Linktiefe – Ähnliches wie beim vorherigen Verzeichnistiefen-Problem gilt auch für die Linktiefe. Denn Suchmaschinen verfolgen Links nur bis zu einer bestimmten Ebene. Als Faustregel gilt, dass Dateien nicht mehr als 3 Links von der Startseite aus entfernt sein sollten. SSL-Verbindung – Während zum Beispiel Google durchaus mit SSL-geschützten Verbindungen umgehen kann, scheitern hier andere Suchmaschinen. Aus diesem Grund sollten Sie dafür sorgen, dass nur die Seiten einem SSL-Schutz unterliegen, bei denen das tatsächlich notwendig ist. So sollte zwar der Bezahlvorgang über SSL laufen, bei der Anzeige des Impressums ist SSL dann allerdings fehl am Platz. CMS – Auf die Probleme, die Suchmaschinen mit dynamisch generierten Seiten haben, wurde hinlänglich hingewiesen. Auch wenn mittlerweile immer mehr Suchmaschinen mit solchen Seiten umgehen können, sind dies längst noch nicht alle.
233
Kapitel 9
Weiterleitungen – Enthält eine Seite lediglich eine Weiterleitung auf eine andere Seite, wird diese normalerweise nicht in den Index aufgenommen. Stattdessen erscheint die Seite im Index der Seite, auf die weitergeleitet wurde. Spam – Wer mit Spam-Methoden versucht, seine Position in den Suchmaschinen zu verbessern, braucht sich natürlich nicht zu wundern, wenn seine Seiten nicht im Index erscheinen. Denn werden solche Betrugsversuche von Suchmaschinen entdeckt, kann das von einer Abmahnung, über Herabsetzung des PageRanks bis hin zur Streichung aus dem Index führen. Das sind die wichtigsten Aspekte, die dazu führen können, dass Ihre Seiten nicht in den Trefferlisten der Suchmaschinen erscheinen. Bedenken Sie jedoch immer – und deswegen ist das auch der erste Punkt in der Liste gewesen – dass die Aufnahmedauer durchaus mehrere Woche oder Monate dauern kann. Vor allem bei redaktionell geführten Webkatalogen zieht sich die Aufnahme teilweise sehr lange hin.
9.5 Server Monitoring Auch die ausgeklügeltsten SEO-Strategien bzw. -Maßnahmen helfen herzlich wenig, wenn die Seite überhaupt nicht erreichbar ist. Und das ist öfter der Fall, als man vielleicht annimmt. Zunächst einmal ist es problematisch, wenn der Crawler die Webseite zur Neuindexierung aufruft, diese aber nicht erreichen kann. In diesem Fall wird die Seite erst gar nicht in den Index aufgenommen. Ebenso problematisch ist es aber auch, wenn die Seite bereits im Index steht, bei einem erneuten Besuch des Crawlers aber nicht erreichbar ist. Der Crawler wird dann in aller Regel zwar noch mehrmals versuchen, die Seite aufzurufen. Sollten diese Versuche scheitern, wird der URL ebenfalls aus dem Index entfernt. Um solche Probleme zu vermeiden, sollte der Webserver auf Erreichbarkeit hin überprüft werden. Entscheidende Bedeutung kommt dabei dem sogenannten Server Monitoring zu. Dabei werden an den Server in regelmäßigen Abständen Anfragen geschickt. Anhand der Antworten des Servers kann dann exakt analysiert werden, ob und wann der Server erreichbar bzw. nicht erreichbar gewesen ist. Bei den meisten Monitoring-Tools wird man dann normalerweise über den Serverausfall per SMS oder E-Mail informiert und kann reagieren. Für die Server-Überwachung gibt es verschiedene Herangehensweisen. Etliche Anbieter stellen Online-Tools zur Verfügung, mit denen man seinen Server überprüfen lassen kann. Viele Provider bieten auch selbst einen solchen Service an. Sollte dies bei Ihrem Provider nicht der Fall sein, dann werfen Sie einen Blick auf die folgenden Anbieter:
234
Erfolgskontrolle
http://www.srv-look.de/ http://www.webwatch4u.com/ http://www.livewatch.de/ http://www.serverwatchdog.de/ http://www.internetseer.com/ Die Palette reicht hier von kostenlos bis kommerziell. Wobei selbst die kommerziellen Anbieter nicht besonders teuer sind. InternetSeer ist zum Beispiel in der Basisversion kostenlos. Und selbst die Small-Business-Variante kostet dann lediglich 29 US-Dollar. Es muss natürlich nicht unbedingt ein externer Anbieter sein. Ebenso gibt es gute und teilweise auch kostenlose Software, dank derer man die Server-Überwachung in die eigenen Hände nehmen kann. Hier eine kleine Auswahl: http://www.bello-monitors-the.net/about/wingui.htm http://www.server-eye.de/ Man kann übrigens auch sein ganz persönliches Server-Monitoring aufbauen. Geeignet ist dafür zum Beispiel die Sprache Perl. Ein entsprechendes Perl-Skript, das bereits sehr viele Funktionen integriert hat, ist HotSaNIC (http://hotsanic.sourceforge.net/). Egal ob Online-Dienst oder andere Lösungen, das Prinzip ist fast immer das Gleiche: Es wird in regelmäßigen Abständen das Antwortverhalten des Servers überprüft. Dazu werden die verschiedensten Protokolle wie HTTP, FTP, SMTP, Ping usw. verwendet.
> >
>
HINWEIS
Oft wird der Fehler gemacht, das Monitoring auf dem betroffenen Server bzw. im dazugehörenden Netzwerk durchzuführen. Das führt natürlich nicht zum gewünschten Ergebnis. Denn fällt der Server aus, ist davon auch das Monitoring betroffen. Die Überwachung liefe dann ins Leere. Sorgen Sie deshalb immer dafür, dass der zu überwachende Server und das Überwachungstool unabhängig voneinander laufen!
9.6 Erfolgskontrolle mit den Log-Dateien Ein äußerst wichtiges Element für den Erfolg eines Webprojekts stellen die sogenannten Log-Dateien dar. In der Praxis fristen sie allerdings viel zu oft ein Schattendasein. Eigentlich unbegreiflich, wenn man sich vor Augen führt, welche Informationen man ihnen entreißen kann. Hier eine kleine Kostprobe: Wie lautet die IP-Adresse des Nutzers? Auf welcher Seite steht der Link, über den der Besucher kam? Welchen Browser hat der Besucher verwendet?
235
Kapitel 9
Wie lange blieb er auf der Seite? Welches Betriebssystem hat er im Einsatz? Welche Suchmaschinen und Schlüsselwörter wurden verwendet, um auf die Seite zu gelangen? Bevor gezeigt wird, wie man Log-Dateien analysiert oder automatisch analysieren lässt, soll zunächst zum besseren Verständnis geklärt werden, was Log-Dateien eigentlich genau sind. Bei jedem Aufruf einer Webseite hinterlässt der Besucher Spuren. Das sind zum Beispiel seine IP-Adresse und der von ihm verwendete Browser. All diese Informationen werden in den Log-Dateien des Servers protokolliert und abgespeichert. Öffnet man eine Log-Datei mit einem Texteditor, erkennt man auf den ersten Blick zunächst einmal nicht sehr viel.
Abbildung 9.5: Log-Dateien wirken auf den ersten Blick etwas unübersichtlich.
Weiß man allerdings, was die einzelnen Einträge bedeuten und welche Tools bei der Analyse helfen können, sind die Log-Dateien äußerst gesprächig und helfen dabei, die Entwicklung der Besucherströme richtig zu interpretieren.53
53 Und im Idealfall zieht man dann natürlich aus der Analyse die richtigen Schlüsse und macht sein Webprojekt noch erfolgreicher.
236
Erfolgskontrolle
9.6.1 Die manuelle Auswertung Der Zugriff auf Log-Dateien wird von den meisten Webhostern ermöglicht. In vielen Fällen kann man einen Zeitraum angeben, für den man eine Log-Datei benötigt, kann sich diese automatisch generieren lassen und dann herunterladen. Fragen Sie im Zweifelsfall bei Ihrem Hoster nach. Ein typischer Eintrag in einer solchen Log-Datei sieht folgendermaßen aus: crawl-66-249-65-50.googlebot.com - - [11/Feb/2007:03:14:44 +0100] "GET /pdf/ typo_vorwort.pdf HTTP/1.1" 304 - "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
Das wirkt auf den ersten Blick recht unübersichtlich, vor allem wenn man sich überlegt, dass in einer Log-Datei oft mehrere tausend solcher Einträge stehen. Aber auch wenn es etwas chaotisch aussieht, die Einträge folgen einem festen Muster. crawl-66-249-65-50.googlebot.com – Dabei handelt es sich um die IP-Adresse des Rechners, von dem aus der Aufruf getätigt wurde. Die kann entweder, wie im aktuellen Beispiel, von einem Crawler oder von einem »normalen« Rechner kommen. Im letzteren Fall sieht sie dann so aus: 81.19.249.94. [11/Feb/2007:03:14:44 +0100] – Das ist der Zeitpunkt des Zugriffs. Die Zeitangabe folgt dabei dem amerikanischen Format Tag/Monat/Jahr. Durch einen Doppelpunkt getrennt, wird die exakte Uhrzeit des Zugriffs im GMT-Zeitformat angezeigt. Kommt der Besucher wie im aktuellen Beispiel aus der mitteleuropäischen Zeitzone (MEZ) wird durch +0100 eine Stunde dazuaddiert. GET – Hier wird die Art des Aufrufs angegeben. In diesem Fall wurde GET verwendet, was nichts anderes bedeutet, als dass die Daten vom Server an den Client gesendet wurden. /pdf/typo_vorwort.pdf – Dabei handelt es sich um die Seite oder Datei, die vom Client angefordert wurde. HTTP/1.1 – Über diese Angabe wird das Protokoll bekannt gegeben, mit dem die angeforderten Daten codiert wurden. 304 – Dabei handelt es sich um den Rückgabecode des Servers. Hieran kann man zum Beispiel ablesen, ob der Aufruf der Seite erfolgreich gewesen ist. Der im aktuellen Beispiel zurückgegebene Code 304 besagt, dass die Seite/Datei vollständig aus dem Cache geladen wurde. Mehr zu den Rückgabecodes dann im weiteren Verlauf dieses Kapitels. »Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)« – Diese Angaben geben Aufschluss über den Client, der für den Aufruf verantwortlich ist. Dort kann man zum Beispiel den verwendeten Browser und das Betriebssystem erkennen. Im aktuellen Beispiel handelt es sich um den Googlebot. Ein typischer
237
Kapitel 9
Aufruf für einen »menschlichen« Client sieht folgendermaßen aus: Mozilla/5.0 (Windows; U; Windows NT 5.1; de; rv:1.8.0.6) Gecko/20060728 Firefox/1.5.0.6. Hieran erkennt man, dass der Benutzer den Browser Firefox auf einem Windows-System verwendet. In den Log-Dateien werden Ihnen immer wieder Angaben, wie Googlebot oder Tarantula begegnen. Hinter diesen oft äußerst phantasievollen Namen verbergen sich die Robots der jeweiligen Suchmaschine. Neben den Bots der Suchmaschinen gibt es auch unliebsame Gäste, die Ihre Seiten nach E-Mail-Adressen durchsuchen oder auch sogenannte Web-Sauger, die gleich den gesamten Inhalt Ihrer Seite einsammeln. Hier einige typische Vertreter dieser Zunft: EmailCollector EmailSiphon EmailWolf ExtractorPro SiteSnagger WebStripper Offline Explorer WebCopier Sie können selbst bestimmen, welche Bots auf Ihre Seite zugreifen können. Eine Möglichkeit sind entsprechende Einträge in der Datei robots.txt. Allerdings müssen sich Robots nicht danach richten, was in dieser Datei steht.54 Wirklich effektiven Schutz bieten aber zum Beispiel entsprechende Skript-Lösungen. Wie man bestimmte Bots und Spider mithilfe von PHP ausschließt, wird zum Beispiel auf der Seite http:// www.qxm.de/webdesign/20040507-115515 gezeigt. Ein weiterer wichtiger Aspekt bei der Analyse sind die Rückmeldungen des Servers. Im gezeigten Beispiel wurde vom Server der Wert 304 zurückgeliefert, was bedeutet, dass die angeforderte Ressource vollständig aus dem Cache geladen wurde. Darüber hinaus gibt es aber noch eine Vielzahl anderer Varianten. Die wichtigsten sind in der folgenden Tabelle zusammengefasst. Sollten Sie doch einmal auf einen Statuscode stoßen, der hier nicht enthalten ist, finden Sie dessen Erklärung unter http://de.selfhtml.org/servercgi/server/httpstatuscodes.htm.
54 Das gilt natürlich in erster Linie für Web-Sauger und E-Mail-Sammler.
238
Erfolgskontrolle
Abbildung 9.6: Solch eine Fehlermeldung hat wohl jeder schon mal gesehen. Statuscode
Beschreibung
200
Der Request wurde erfolgreich durchgeführt.
204
Das angeforderte Dokument enthielt keinerlei Daten.
206
Die Übertragung wurde abgebrochen, was ganz unterschiedliche Gründe haben kann und nicht unbedingt etwas mit dem Server zu tun haben muss.
300
Für eine Anfrage existieren mehrere ähnliche Dokumente. Da der Server die Datei nicht eindeutig zuordnen konnte, wurden dem Client mehrere zur Auswahl angeboten.
301
Die Datei wurde verschoben und ist an der alten Stelle nicht mehr verfügbar.
304
Die vom Client angeforderte Seite wurde vollständig aus dem Cache geladen.
400
Die Anfrage des Clients wurde vom Server nicht verstanden. Meistens liegt das übrigens an einem Syntaxfehler.
401
Der Client ist nicht berechtigt, auf die angeforderte Ressource zuzugreifen. Diese Meldung erscheint, wenn der Client nicht die notwendigen Zugangsdaten eingegeben hat.
403
Der Server hat die Anfrage abgelehnt. Die Gründe hierfür können vielfältiger Natur sein. Oft wurde die betreffende Ressource gesperrt oder es wurde versucht, an ein Verzeichnislisting heranzukommen.
404
Die angeforderte Ressource existiert nicht. Nicht immer ist man daran als Seitenbetreiber schuld. Mögliche Ursache kann nämlich auch sein, dass der User im Browser einen Fehler bei der Eingabe der Webadresse gemacht hat.
500
Die Anfrage enthält Anforderungen, die vom Server nicht verarbeitet werden können, weil die Voraussetzungen dazu nicht erfüllt sind. Das tritt zum Beispiel oft auf, wenn CGI-Skripte fehlerhaft sind.
503
Der Server ist überlastet und kann die Anfrage aus diesem Grund derzeit nicht verarbeiten. Es ist möglich, dem Client einen Zeitraum mitzuteilen, zu dem er es erneut versuchen kann.
Tabelle 9.3: Die wichtigsten Fehlercodes
239
Kapitel 9
9.6.2 Software zur Analyse der Log-Dateien Die manuelle Analyse von Log-Dateien ist etwas mühsam. Das gilt vor allem, wenn man mehrere Projekte verwaltet, die guten Zuspruch finden und somit hohe Besucherzahlen aufweisen können. Für all diejenigen, denen das manuelle Auswerten der LogDateien zu aufwendig ist, gibt es die entsprechende Software. Welche Sie einsetzen, hängt letztendlich von Ihren persönlichen Vorlieben und Anforderungen ab. AWStats – Die kostenlose Analyse-Software AWStats kann kostenlos von der Seite http://awstats.sourceforge.net/ heruntergeladen werden. AWStats arbeitet serverseitig und wird als Open-Source-Projekt fortlaufend weiterentwickelt. Interessant ist vor allem, dass das Tool in Perl geschrieben ist und deshalb auch ohne RootZugang installiert werden kann. Webalizer – Bei Webalizer handelt es sich wohl um das bekannteste Analyse-Tool. Heruntergeladen werden kann die kostenlose Software unter http://www. mrunix.net/webalizer/. Obwohl Webalizer bereits seit 2002 nicht mehr weiterentwickelt wird, setzen es viele Provider auch heute noch ein. Das Tool bietet zwar längst nicht den Funktionsumfang aktueller Software, liefert aber dennoch zahlreiche Informationen. Dazu gehören Besucheranzahl, Seitenzugriffe, Keywords und Zugriffs-Länder. Funnel Web Analyzer – Während die beiden vorherigen Tools ausschließlich serverseitig eingesetzt werden können, läuft Funnel Web Analyzer clientseitig unter Windows. Dieses Tool ist ebenfalls kostenlos und kann von der Seite http://www. quest.com/funnel_web/analyzer/ bezogen werden. Funnel Web Analyzer bietet weitgehende Konfigurationsmöglichkeiten. So können Sie zum Beispiel viel detaillierter als bei AWStats angeben, welche Daten Sie bei der Analyse tatsächlich aufbereitet bekommen wollen. dalaSTAT-pro55 – Etwas aus der Rolle fällt dieses Tool, fehlen sollte es in einer Aufzählung von Analyse-Software aber keinesfalls. dalaSTAT-pro ermöglicht die effiziente Analyse von Log-Files des Massen-Hosters Strato. Das Programm kann kostenlos von der Seite http://dalastat.de/ heruntergeladen werden. Besonderer Clou der Software: Das sonst notwendige manuelle Herunterladen der Strato-LogDateien erfolgt automatisch. Egal für welches der genannten Tools Sie sich entscheiden, sie arbeiten eigentlich alle nach dem gleichen Prinzip. Die Log-Dateien werden eingelesen, analysiert und in übersichtlicher Form ausgegeben. Auf den folgenden Seiten werden die Schritte gezeigt, die Sie normalerweise bei jedem der Tools durchlaufen. Dabei müssen die jeweiligen Analysen allerdings nicht unbedingt in dieser Reihenfolge vorkommen.
55 Die Screenshots im weiteren Verlauf dieses Kapitels basieren übrigens auf dalaSTAT-pro.
240
Erfolgskontrolle
Anzahl der Seitenaufrufe Am besten verschaffen Sie sich zunächst einen ganz allgemeinen Überblick darüber, wie Ihr eigenes Projekt denn von den Besuchern angenommen wird. Deutlichster Indikator dafür sind natürlich die Anzahl der Zugriffe pro Tag und pro Monat.
Abbildung 9.7: Die Anzahl der monatlichen Besucher
Interessant sind diese Angaben vor allem dann, wenn es zu größeren Schwankungen kommt. Haben Sie zum Beispiel SEO-Optimierungen vorgenommen und schnellen die Besucherzahlen daraufhin in die Höhe, war das die Mühen natürlich wert. Gehen die Besucherzahlen hingegen in den Keller, sollten Sie überprüfen, ob die Seite noch in den Indexen der Suchmaschinen steht und ob es vielleicht häufiger zu Serverausfällen kommt.
> >
>
HINWEIS
Bei der Auswertung der verschiedenen Werte kommt es allerdings erfahrungsgemäß immer wieder zu Fehlinterpretationen. Denn in den Log-Dateien werden tatsächlich alle HTTP-Requests protokolliert. Aktualisiert ein Besucher eine Seite zehnmal, generiert er dadurch 10 Einträge. Diese sogenannten Page Impressions haben daher nur wenig mit dem tatsächlichen Erfolg Ihrer Seite zu tun. Viel wichtiger ist die Anzahl der Besucher (Visits). Denn die gibt Auskunft darüber, wie viele unterschiedliche Besucher Ihre Seite tatsächlich aufgerufen haben.
241
Kapitel 9
Linkpopularität überprüfen Interessant ist es natürlich zu erfahren, über welche anderen Webseiten die Besucher auf Ihre Seiten gelangt sind. Um das ermitteln zu können, werten die Analyse-Tools den über das HTTP-Protokoll ermittelten Referrer aus. Der zeigt die Seite an, auf der ein Link auf die eigenen Seiten gesetzt wurde und über den der User den Weg zu den eigenen Seiten gefunden hat. Anhand der so gewonnenen Erkenntnisse können Sie die angewandte Verlinkungsstrategie hinterfragen und optimieren. Überprüfen Sie, von welchen Seiten Sie besonders viele Besucher bekommen. Versuchen Sie auf Basis der gewonnenen Informationen, die Betreiber ähnlich gelagerter Seiten von einer Linkpartnerschaft zu überzeugen.
Herkunftsland der Besucher Für den Erfolg vieler Projekte spielt auch die Herkunft der Besucher eine wichtige Rolle. Denn wer einen international ausgerichteten Online-Shop betreibt, der will natürlich nicht nur Besucher aus Deutschland, sondern ist natürlich auch an Besuchern aus anderen Ländern interessiert. Viele Analyse-Tools ermöglichen die Aufteilung der Besucher nach dem Herkunftsland. So können Sie überprüfen, inwieweit Sie mit Ihrer Seite tatsächlich die Besucher aus den Ländern ansprechen, die Sie mit Ihrem Angebot erreichen wollen. Sollten Länder nicht vertreten sein, in denen Sie aber eigentlich vertreten sein wollen, konzentrieren Sie Ihre Marketingbemühungen auf diese. Beachten Sie, dass die gewonnenen Daten über das Herkunftsland meistens nicht besonders zuverlässig sind. Denn die Messarten unterscheiden sich bei den einzelnen Tools. Sie sollten die gewonnenen Erkenntnisse daher nicht als absolute Zahlen verstehen. Grundsätzliche Tendenzen lassen sich aber durchaus ableiten.
Seiten-URLs Interessant ist es natürlich zu erfahren, welche Seiten von den Besuchern aufgerufen wurden. So können Sie erkennen, was tatsächlich für den Besucher interessant oder erreichbar ist, und die Seiten dementsprechend anpassen. Im Laufe der Zeit werden Sie Tendenzen feststellen, die Ihnen zeigen, welche Seiten von den Besuchern weitestgehend ignoriert werden. Das kann natürlich ganz unterschiedliche Gründe haben. Denkbar wäre natürlich, dass das Thema der Seiten für die Masse der Besucher schlichtweg uninteressant ist. Möglich ist aber auch, dass die Seiten nicht direkt über Suchmaschinen erreichbar sind. Kontrollieren Sie deshalb zunächst, ob die fraglichen Seiten tatsächlich genauso sorgfältig suchmaschinen-optimiert wurden, wie die anderen Seiten.
242
Erfolgskontrolle
Abbildung 9.8: Diese Seiten wurden aufgerufen.
Wenn das der Fall ist und es somit am Thema der Seiten liegt, haben Sie zwei Möglichkeiten: Entweder finden Sie sich mit dem niedrigen Interesse ab oder Sie versuchen die Seiten interessanter zu machen. Das könnte durch zusätzliche Links oder interessante Grafiken realisiert werden.
Verwendete Suchmaschinen Wie erfolgreich Sie mit Ihrer Suchmaschinen-Optimierung tatsächlich sind, können Sie in erster Linie natürlich daran erkennen, ob und über welche Suchmaschinen die Besucher auf Ihre Seite gelangen. In vielen Analyse-Tools gibt es daher eine spezielle Auflistung der Besucherzahlen nach Suchmaschinen geordnet. Diese Daten sind für die weitere Optimierung von enormer Bedeutung. Das gilt vor allem, wenn Sie in ganz bestimmten Suchmaschinen ein gutes Ranking erreichen wollen. Befindet sich die betreffende Suchmaschine im unteren Teil der Liste, lockt man über sie also nur wenige Besucher auf seine Seiten. Dann muss man die Optimierung für diese Suchmaschine verbessern. Sollte das von Ihnen verwendete Tool keine spezielle Aufschlüsselung nach Suchmaschinen ermöglichen, müssen Sie einen Blick auf die Referrer-Liste werfen und daraus Ihr Schlüsse ziehen.
243
Kapitel 9
Abbildung 9.9: Kontrolle der Referrer
Beachten Sie, dass zwar sehr viele Besucher über Suchmaschinen kommen, dass dies allerdings längst nicht alle sind. So tippen viele Besucher – vor allem solche, die Ihre Seite regelmäßig besuchen – die Adresse direkt in den Browser ein oder haben Ihre Seite als Bookmark bzw. Lesezeichen hinterlegt.
Verwendete Browser Die von den Usern verwendeten Browser spielen hinsichtlich der SuchmaschinenOptimierung keine Rolle. Wichtig ist dieser Aspekt allerdings vor dem Hintergrund der Usability. Denn wenn man weiß, dass der Großteil der Besucher mit Mozilla-Browsern und dem Internet Explorer die Seiten aufruft, allerdings niemand Opera verwendet, muss man möglicherweise seine Seiten nicht für Opera optimieren.56 Zusätzlich zu den verwendeten Browsern kann man sich in vielen Analyse-Tools auch anzeigen lassen, ob JavaScript, Flash oder Java aktiviert wurden. Auch das sind wichtige Usability-Aspekte. Denn, wenn man beispielsweise feststellt, dass kaum ein Besucher Java aktiviert hat, sollte man sich überlegen, ob man nicht das aufwendig gestaltete Java-Applet auf seiner Seite ersetzt.
56 Gut gemachte Seiten, die sich an die offiziellen Spezifikationen von HTML und CSS halten, werden in standardkonformen Browsern normalerweise korrekt angezeigt. Kleinere Abweichungen in der Darstellung können dabei zwar vorkommen, ins Gewicht fallen die aber normalerweise nicht.
244
Erfolgskontrolle
Abbildung 9.10: Auf die hier ermittelten Werte kann man die Usability-Bemühungen abstimmen.
Eingesetzte Suchbegriffe Ebenfalls interessant ist die Frage, welche Suchbegriffe die Besucher auf die Seite geführt haben. Auch das steht in den Log-Dateien. Denn sobald ein User auf einen Link in der Trefferliste klickt, wird der Suchbegriff im HTTP-Request übergeben. Werfen Sie zum besseren Verständnis einen Blick auf den folgenden Eintrag in einer LogDatei: T836d.t.pppool.de - - [11/Feb/2007:11:57:10 +0100] "GET /typoscript_zwei.html HTTP/1.1" 200 5027 "http://www.google.de/search?hl=en&client=firefoxa&rls=org.mozilla%3Ade%3Aofficial&hs=8lW&q=%22TYPO3+und+TypoScript%22+ +rezension&btnG=Search" "Mozilla/5.0 (Windows; U; Windows NT 5.1; de; rv:1.8.1.1) Gecko/20061204 Firefox/2.0.0.1"
Die eingegebenen Suchbegriffe – in diesem Beispiel übrigens TYPO3 und TypoScript rezension – können exakt nachvollzogen werden. So kann man erkennen, für welche Suchmaschine die Schlüsselwörter bereits so optimiert sind, dass darüber tatsächlich Benutzer angelockt werden. Je nachdem, welches Analyse-Tool verwendet wird, kann man sich hier für die einzelnen Suchdienste die Schlüsselwörter einzeln anzeigen lassen. Interessant für zukünftige Optimierungsmaßnahmen sind dann vor allem die Suchmaschinen, über die man mit dem sonst recht erfolgreichen Schlüsselwort keine oder kaum Besucher anlockt. An diesem Punkt kann man dann neue Maßnahmen zur Optimierung der Seiten treffen.
245
Kapitel 9
Fehlerquellen Besonders wichtig ist die Anzeige der HTTP-Fehlercodes. Denn jeder fehlerhafte Seitenaufruf kann dazu führen, dass User die Seite zukünftig meiden. Schlecht sind solche Fehler aber auch hinsichtlich der Suchmaschinen. Denn stellt ein Crawler fest, dass es auf einer Seite permanent Fehlzugriffe gibt und viele Seiten nicht verfügbar sind, wird die Seite entweder schlechter bewertet oder oft sogar aus dem Index entfernt. Sie sollten daher eine konsequente Fehleranalyse betreiben.
Abbildung 9.11: favicon.ico-Fehler gehören zum Alltag.
Dabei muss es Sie übrigens nicht beunruhigen, dass die Liste vergleichsweise lang ist. Denn die Robots kontrollieren, ob die beiden Dateien favicon.ico57 und robots.txt existieren. Und wenn Sie diese Dateien nicht angelegt haben, wird ein entsprechender fehlerhafter Aufruf registriert. Viel wichtiger sind solche 404-Meldungen, die sich auf »echte« Dateien oder Seiten beziehen. Anhand der Fehlermeldungen kann man leicht nachvollziehen, an welcher Stelle es zu fehlerhaften Aufrufen kam. Überprüfen Sie, ob Links falsch gesetzt wurden oder ob einfach nur vergessen wurde, die Seite auf den Server zu übertragen.
57 Diese Datei ist für die Anzeige der kleinen Bilder in der Adresszeile der Browser oder in den Bookmarks zuständig.
246
10
Suchmaschinen-Marketing Liebe junge Väter oder angehende, haben Sie Mut! Nennen Sie Ihre Neuankömmlinge des heutigen Tages ruhig Waldemar! Waldemar ist da!
Heinz-Florian Oertel, Liveberichterstattung zum Sieg des Marathon-Läufers Waldemar Cierpinski
Die klassische Suchmaschinen-Optimierung der eigenen Webseite ist nur ein Mittel, um den Erfolg der Seite zu steigern. Ebenso wichtig ist das Kaufen von Suchbegriffen. So erscheint die Seite in den berühmten Sponsored Links oder den Google-Anzeigen. In diesem Kapitel werden die beiden bekanntesten und wichtigsten Programme für bezahlte Sucheinträge, Google AdWords und Yahoo! Search Marketing, vorgestellt. Außerdem lernen Sie aber auch die Möglichkeiten und Grenzen von der bezahlten Aufnahme in die einzelnen Suchmaschinen kennen.
10.1 Klassische Werbemittel Die immer noch bekannteste Variante der Werbung in Suchmaschinen ist für den normalen Benutzer sicherlich das Werbebanner. Für Sie wird dieses Werbemittel allerdings kaum interessant sein, denn immer mehr Suchmaschinen gehen weg von klassischer Bannerwerbung. Vorreiter war hier sicherlich Google, mit dem bekannt schlichten Design. Normale Bannerwerbung lässt sich am ehesten mit den Beilagen in den Tageszeitungen vergleichen. So findet man zum Beispiel vor allem in den Wochenendbeilagen immer
Kapitel 10
wieder Prospekte von Möbelhäusern. Dadurch hoffen die Möbelhändler unter den Lesern der Tageszeitung einige zum Gang in ihr Geschäft zu animieren. Und genauso funktioniert das auch mit Bannern im Web. Aber so, wie sich immer mehr Leute an ihren Briefkasten ein »Bitte keine Werbung«-Schild kleben, statten sich auch immer mehr Online-Nutzer mit Hilfsmitteln aus, um Onlinewerbung zu unterdrücken. So gibt es mittlerweile für fast jeden Browser Pop-up-Blocker und Tools zur automatischen Unterdrückung von Bannerwerbung. Aber nicht nur diese Anti-Banner-Tools haben diese Form der Werbung in Verruf gebracht. Mittlerweile gehen Werbestrategen von einer gewissen Bannerblindheit bei den Nutzern aus. Und in der Tat sind die Klickraten für Banner in den letzten Jahren rapide gesunken. Das soll aber nicht heißen, dass Bannerkampagnen grundsätzlich wirkungslos sind. Ganz im Gegenteil: Gut gemachte Bannerwerbung kann durchaus zum Erfolg Ihres Webauftritts beitragen. Und so gibt es zum Beispiel immer noch zahlreiche Suchmaschinen, bei denen man Bannerwerbung schalten kann. Eine davon ist Yahoo!. Das nötige Kleingeld vorausgesetzt, kann man hier zum Beispiel auf der Startseite klassische Werbebanner, FlashFilme oder Skyscraper schalten.
Abbildung 10.1: Ein typisches Werbebanner auf Yahoo!
Tipps zur Gestaltung von Bannern finden Sie zum Beispiel unter http://www. webmaster-resource.de/tricks/grafik/was-macht-ein-gut-gestaltetes-banner-aus.php.
248
Suchmaschinen-Marketing
Wichtig ist vor allem, dass Sie sich bei der Gestaltung der Banner an die von den Online-Vermarktern mittlerweile akzeptierten Standards halten. So können Sie sicher sein, dass Sie ein einmal gestaltetes Banner auf verschiedenen Seiten einsetzen können, ohne es anpassen zu müssen. Die folgenden Banner-Arten werden unterschieden: (Ausführliche Informationen über die einzelnen Formate erhalten Sie dann in der Tabelle nach der Aufzählung.) Universal Ad Package – Die hierin zusammengefassten Formate erzielen größere Wirkung als klassische Formate. Universal Flash Layer – Dieser Standard wurde direkt für den deutschen Markt entwickelt und soll die Produktion dieses Formats vereinfachen. Flash Layer – Kann die Spezifikation des Universal Flash Layers nicht eingehalten werden, kommt dieses Format zum Einsatz, das sich wenigstens an Mindestanforderungen hält. Andere – Neben den genannten Varianten, gibt es noch klassische Werbeformen wie Pop-ups usw. Die sind zwar nicht gerade neu, werden aber immer noch gerne eingesetzt. Die folgende Tabelle zeigt die wichtigsten Werbeformen58 inklusive der entsprechenden Formate:
Format
Größe in Pixel
Dateigröße in KB (Flash)
Dateigröße (JPEG/GIF)
728*90
30
20
Universal Ad Package Super Banner Rectangle
180*150
20
15
Medium Rectangle
300*250
30
20
Wide Skyscraper
160*600
30
20
400*400
30
–
Universal Flash Layer Universal Flash Layer
Tabelle 10.1: Werbeformen und ihre Formate
58 Wenn Sie tiefer in die Materie der Werbeformen eintauchen, werden Sie schnell merken, dass eigentlich jeder Anbieter neben den Standardvarianten eigene Werbemittel anbietet. Diese hier alle aufzuführen, wäre nicht nur schwierig, sondern schlichtweg unmöglich. Gute Anbieter zeigen aber entsprechende Beispiele, sodass man sich unter den oftmals kreativen Namen der Werbeformen dann auch tatsächlich etwas vorstellen kann.
249
Kapitel 10
Format
Größe in Pixel
Dateigröße in KB (Flash)
Dateigröße (JPEG/GIF)
Super Banner
728*90
30
20
Rectangle
180*150
20
15
Nicht spezifiziert
30
–
Pop-up
200*300
20
15
Pop-up
250*250
20
15
Full Banner
468*60
20
15
Standard Skyscraper
120*600
25
20
Universal Ad Package
Flash Layer Flash Layer
Andere
Tabelle 10.1: Werbeformen und ihre Formate (Fortsetzung)
Ob Sie sich für Bannerwerbung als Kommunikationsmittel entscheiden, ist natürlich nicht zuletzt auch eine Frage Ihres Werbebudgets. Banner werden normalerweise über den sogenannten Tausenderkontaktpreis (TKP) abgerechnet. Der TKP gibt an, wie viel Geld man einsetzen muss, um 1.000 Leute seiner Zielgruppe zu erreichen. So kostet bei Lycos das Schalten eines Skyscrapers 9 Euro (Stand Anfang 2007). Das bedeutet nichts anderes, als dass Sie 9 Euro dafür zahlen, dass der Skyscraper 1.000-mal angezeigt wird.
10.2 Bezahlte Einträge mit Paid Placement Klassische Bannerwerbung ist nur eine Möglichkeit, seine Webseite einem breiten Publikum zu präsentieren. Viel häufiger setzen Seitenbetreiber mittlerweile aber auf bezahlte Sucheinträge. Auf den folgenden Seiten werden die verschiedenen Varianten und Programme vorgestellt.
10.2.1 Begriffsvielfalt und Begriffsverwirrung Auf dem Sektor der bezahlten Sucheinträge bzw. Textanzeigen, gibt es mittlerweile unzählige Begriffe. Bevor die einzelnen Programme im Detail vorgestellt werden, hier zunächst einige wichtige Begriffe: Ganz allgemein spricht man beim Buchen von Textanzeigen in Suchmaschinen von Paid Placement. Diese Paid Placements erscheinen als Paid Listings und Sponsored Links. Ebenfalls in diesem Zusammenhang tauchen immer wieder die Begriffe Pay for Performance, Cost per Click und Pay per Click auf, die sich auf die Art der Abrechnung beziehen. Anders als bei Werbebannern, werden
250
Suchmaschinen-Marketing
dabei nicht die 1000er-Einblendungen bezahlt, sondern gezahlt wird erst, wenn auf die Werbung geklickt wird. Die Höhe des Klickpreises wird dabei getreu dem Motto Die Nachfrage regelt den Preis festgelegt. Denn ähnlich wie bei eBay werden die Klickpreise versteigert. Derjenige, der die höchste Summe für einen Klick bezahlt, landet mit seiner Anzeige ganz oben. Auf dem zweiten Platz wird derjenige angezeigt, der das zweithöchste Gebot abgibt.59
10.2.2 Payed-Inclusion-Programme Der Suchmaschinen-Sektor ist ein äußerst hart umkämpfter Markt. Kein Wunder also, dass die Marketingstrategen der Suchmaschinen-Betreiber immer neue Einnahmequellen entwickeln. Eine äußerst lukrative Einnahmequelle haben sich die Suchmaschinen dabei durch das Payed-Inclusion geschaffen. Dabei hat jeder Seitenbetreiber die Möglichkeit, frei wählbare URLs in den Index der Suchmaschine einzutragen. Für diese Aufnahme bezahlt man einen gewissen Betrag und erkauft sich dadurch dann die zeitnahe Aufnahme in den Datenbestand der jeweiligen Suchmaschine. Payed-InclusionProgramme bieten den Vorteil, dass die Bearbeitung der Anmeldung schneller erfolgt und die Seiten auch in aller Regel in kürzeren Abständen gespidert werden. Eine Garantie auf eine gute Platzierung gibt es hier allerdings nicht. Mittlerweile lassen sich immer mehr Suchmaschinen dafür bezahlen, dass sie Webseiten in ihren Index aufnehmen. Für Sie als Seitenbetreiber stellt sich nun die Frage, ob Sie bereit sind, für einen Eintrag um die 400 Euro/Jahr zu bezahlen, um in einer Suchmaschine und deren angeschlossenen Suchdiensten und Portalen vertreten zu sein.
Express Submit: So kommt die Seite blitzschnell in den Index In Kapitel 8 haben Sie gesehen, wie Sie Ihre Webseite in die verschiedenen Suchmaschinen eintragen lassen können. Allerdings werden Sie sehr schnell ernüchtert feststellen, dass diese Einträge oft einen entscheidenden Pferdefuß haben: denn mittlerweile muss man bei sehr vielen Suchmaschinen bezahlen, um überhaupt in den Katalog aufgenommen zu werden. Die Preise sind dabei, vor allem für kleinere Webseiten mit geringem Budget, immens. So kostet das sogenannte Premium-Listing bei allesklar.de immerhin 398 Euro im Jahr. Damit erscheint der Eintrag zwar an prominenter Stelle bei allesklar.de, Lycos, Fireball, freenet.de, T-Online.de, DINO-Online, meinestadt.msn.de und dem Städteportal meinestadt.de!, ein Pappenstiel ist dieser Betrag aber trotzdem nicht.60 59 Beachten Sie, dass zum Beispiel bei Google neben dem reinen Klickpreis auch noch die Qualität der Anzeige mit in die Berechnung der tatsächlichen Anzeigenposition einbezogen wird. Dazu aber später mehr. 60 Es gibt bei allesklar.de übrigens auch einen kostenlosen Basis-Eintrag. Dadurch wird die Seite zwar auch in den verschiedensten Katalogen gefunden, einer Kategorie wird die Seite allerdings nicht zugewiesen.
251
Kapitel 10
Abbildung 10.2: Wer sich den Eintrag etwas kosten lässt, wird bevorzugt bedient.
Bei anderen Suchmaschinen sind die Einträge hingegen kostenlos. Allerdings ist dann nicht garantiert, dass Ihre Seite dort auch tatsächlich im Index erscheint. Ob sich ein bezahlter Eintrag bei einer Suchmaschine lohnt, hängt letztendlich natürlich auch davon ab, welchen Gewinn Sie mit Ihrer Webseite erwirtschaften können. Ermitteln Sie, welche Anzahl von Besuchern Sie über die entsprechende Suchmaschine anlocken können und ob das ausreicht, die Kosten für den Eintrag wieder hereinzuholen. Zum Ermitteln können Sie zum Beispiel Ihre Log-Dateien heranziehen oder sich in einschlägigen SEO-Foren umhören.
Trusted Feed Trusted Feed ist eine Form der zu Anfang dieses Kapitels vorgestellten Payed-InclusionProgramme. Die Besonderheit an Trusted Feed ist, dass hier XML-Feeds genutzt werden. Diese Variante ist vor allem für Webseiten mit dynamischen Inhalten oder reine Multimedia-Webseiten interessant, die es normalerweise kaum in die Top-Platzierungen der Suchmaschinen schaffen. Trusted Feed garantiert, dass auch solche Webseiten indexiert werden, die sonst von den Suchrobots nicht erfasst werden können.
252
Suchmaschinen-Marketing
Interessant ist Trusted Feed zum Beispiel für Betreiber von Online-Shops. Denn gerade die haben bei Suchmaschinen einen schweren Stand. Ist ein Artikel im Shop nicht mehr verfügbar, soll der Besucher über den natürlich auch nicht auf die Seite gelockt werden. Erreichen lässt sich das allerdings nur, wenn die Seite mit dem fraglichen Artikel schnellstmöglich aus dem Index der Suchmaschinen entfernt wird. Ebenso schnell sollen aber Seiten mit neuen Produkten in den Index aufgenommen werden. Für solche Fälle bieten einige Suchmaschinen Trusted Feeds an. Dabei kann man als Seitenbetreiber die Daten seiner Webseite in einem speziellen Format direkt an die Suchmaschine übermitteln. Normalerweise kommt dabei XML zum Einsatz. In den übermittelten Daten sind Titel, URL und Text der Seite enthalten. Was auf den ersten Blick als gute Idee erscheinen mag, entpuppt sich bei näherer Betrachtung allerdings als Spam-Falle. Denn die Suchmaschine kann kaum überprüfen, ob die übermittelten Daten tatsächlich stimmen. Wer garantiert also, ob der Beschreibungstext im XML-Format wirklich dem entspricht, was den Besucher auf der Zielwebseite erwartet? Die Suchmaschinen-Betreiber versuchen dieser Gefahr, mit dem den Seitenbetreibern entgegengebrachten Vertrauen entgegenzuwirken. Liefert ein Seitenbetreiber falsche Daten, wird ihm normalerweise die Möglichkeit der Trusted Feeds entzogen. Da dieser Aspekt den Content-Bringern bekannt ist, gibt es kaum Betrugsversuche. Und noch auf andere Weise wird versucht, Betrügereien im Keim zu ersticken: Denn normalerweise steht die Möglichkeit zur Übermittlung der Webseitendaten per Trusted Feed nur großen Webseiten und Vermarktern zur Verfügung. Interessant ist natürlich auch die Frage, welchen Seiten man seine Inhalte mit Trusted Feeds übermitteln kann. Die folgende Liste zeigt eine kleine Auswahl: Froogle Amazon eBay Kelkoo Yahoo! Shopping MSN Shopping Auf eine Tatsache muss im Zusammenhang mit Trusted Feeds allerdings noch hingewiesen werden: Es handelt sich zwar um einen bezahlten Listing-Service, allerdings nicht um ein bezahltes Ranking. Man zahlt lediglich für die Möglichkeit, seine URLs automatisch an die jeweiligen Suchdienste zu übermitteln. Eine Garantie auf eine gute Position im Index sind Trusted Feeds hingegen nicht.
253
Kapitel 10
10.2.3 Pay-Per-Click-Programme Das Pay-Per-Click-Verfahren (PPC) ist ebenfalls kostenpflichtig, funktioniert allerdings etwas anders. Beim PPC-Verfahren werden Listenplätze in den Ergebnislisten der Suchmaschinen versteigert. Sie selbst sind schon, wenn vielleicht auch unbewusst, mit dem PPC-Verfahren in Berührung gekommen. Gibt man zum Beispiel in Google den Begriff Kino ein, wird in der rechten Spalte, neben der Trefferliste, ein AnzeigenBereich angezeigt.
Abbildung 10.3: Bezahlte Einträge bei Google
Bei diesen Einträgen handelt es sich um Payed-Listings, das Verfahren wird als PayedPlacement bezeichnet. Bei PPC-Programmen werden die gekauften Links gesondert angezeigt, sie erscheinen also nicht innerhalb normaler Trefferlisten. Die oberste Listenposition wird automatisch dem Anbieter zuerkannt, der pro Klick am meisten zahlt. Die Preisspanne ist dabei übrigens immens. So bekommt man wenig gefragte Suchbegriffe bereits für wenige Cent, während man für andere Keywords mit mehreren Euro zu rechnen hat. So liegt beispielsweise das derzeitige Top-Gebot für den Begriff Privatdetektiv bei Yahoo! Search Marketing immerhin bei stolzen 8,80 Euro. Damit sich bei solch hohen Beträgen die ganze Geschichte nicht zu einem finanziellen Desaster entwickelt, kann man ein Budget festlegen. Ist dieses verbraucht, erscheint der Eintrag nicht mehr in der Anzeigen-Liste.
254
Suchmaschinen-Marketing
Abbildung 10.4: So teuer können Klicks werden.
Auf diese Weise kann man selbst festlegen, welche finanziellen Belastungen auf einen zukommen. Zudem sollte man sich überlegen, ob man immer die Top-Platzierung braucht, oder ob nicht auch der zweite oder dritte Platz genügt. Denn wählt man den »Platz an der Sonne« gerät man so auch schnell in das Visier von Klick-Betrügern. Die sorgen durch künstlich herbeigeführte Klicks dafür, dass Ihr Guthaben aufgebraucht wird, ohne dass dadurch tatsächlich echte Kunden auf Ihre Seite gelotst werden. Wie die gekauften Links letztendlich angezeigt werden, hängt von den Suchmaschinen ab. So kann man beispielsweise bei AltaVista nur sehr schlecht zwischen gesponserten und echten Suchergebnissen unterscheiden. Andere Anbieter wie Yahoo! hingegen kennzeichnen gekaufte Links recht deutlich. Im weiteren Verlauf dieses Kapitels werden die beiden größten PPC-Programme, Yahoo! Search Marketing (ehemals Overture) und AdWords, vorgestellt. Wer sich dort einkauft, deckt damit einen enormen Markt ab. Denn anders als viele Anwender denken, ist AdWords nicht nur für Google wichtig, sondern die dort gekauften Links sind auch in anderen Suchmaschinen bzw. Portalen sichtbar. Wie diese Vernetzung der einzelnen Dienste untereinander aussieht, zeigt die folgende Übersicht: AdWords – AOL, Freenet.de, Google, T-Online, Yahoo! Search Marketing – Yahoo!, MSN, Web.de, Tiscali, Abacho, bellnet, Lycos, AltaVista, Fireball Mirago – Infospace, CPASE, Qoloq, Jungle Spider, Seekoo, alias.de, naanoo.com, webcrawler.de, Infocreep, die-kraehe.de, infoseeker.de, Axada, Vivisimo MIVA – Fireball Shopping, Lycos Shopping, meineStadt.de, Allesklar.de, MetaGer.de, Metaspinner.de, Metacrawler.de
255
Kapitel 10
QualiGo – metacrawler.de, MetaGer, BLITZSUCHE, tricus Deutschland, Sharelook Deutschland, ixquick, SUCHEN.COM, HEXNET, nettz.de, apollo 7, CYbiz.de, WebSuche, webverzeichnis.de, alluna, ABADOOR, INFOTIGER, METATIGER, BINGOOO Wie Sie sehen, hängen die großen Anbieter doch irgendwie zusammen. Für Sie als Seitenbetreiber ist das natürlich angenehm. Schließlich erreichen Sie, wenn Sie eine AdWords-Anzeige schalten, nicht nur Kunden bei Google, sondern auch bei Freenet.de und T-Online. Sie können das übrigens selbst testen. Geben Sie bei Google und Freenet einen beliebigen Suchbegriff ein und vergleichen Sie die geschalteten Anzeigen.
Abbildung 10.5: Die gleichen Anzeigen wie bei Google
Auf diese Weise können Sie gleich mehrere (Werbe-)Fliegen mit einer Klappe schlagen und tauchen so auf verschiedenen Seiten auf.
Angebote überwachen Sie können sich vorstellen, dass zwischen den einzelnen Geboten mitunter große Lücken klaffen. Während ein Seitenbetreiber für die Top-Platzierung 91 Cent bezahlt, liegt das Gebot für den zweiten Platz vielleicht nur bei 20 Cent. Diese Pricing Gaps sind eine nicht
256
Suchmaschinen-Marketing
zu unterschätzende Kostenfalle. Denn im genannten Beispiel würde dieses Pricing Gap eine Differenz von stolzen 70 Cent betragen. Dabei würde es genügen, wenn man statt der 91 Cent lediglich 21 Cent zahlen würde. Denn auch dann hätte man noch die TopPlatzierung inne. Dieses unnötig bezahlte Kapital kann und sollte man natürlich sinnvoller nutzen. Allerdings werden die zu viel bezahlten Beträge oftmals erst sichtbar, wenn der nachfolgende Bieter aussteigt. Wer seine Gebote bei nur einem PPC-Anbieter abgibt, kann hier natürlich regelmäßig manuell nachschauen und seine Gebote anpassen. Anders sieht es aber natürlich aus, wenn man hunderte Gebote bei mehreren Anbietern verwalten will. Dann verliert man entweder ganz den Überblick oder die manuelle Kontrolle wäre ein riesiger zeitlicher Aufwand. Abhilfe schaffen hier entsprechende Webangebote oder Tools. Die überwachen die Gebote automatisch und kontrollieren permanent die Differenz zu den Gebots-Konkurrenten. Erhöht ein Konkurrent sein Gebot, wird die Software aktiv und überbietet dieses Gebot automatisch um 1 Cent. Sollte der Konkurrent aufgeben, senkt die Software automatisch das Gebot auf einen Cent über dem Gebot des Nachfolgers. Ebenso kann man aber auch festlegen, dass es genügt, wenn das eigene Gebot unter den Top-3-Platzierungen zu finden ist. Die folgende Liste liefert einen Überblick derartiger Angebote und Tools: http://www.bettergobids.com/ – Überwacht Overture (Yahoo! Search Marketing). http://www.bidrank.com/ – BidRank ist ein Tool zum automatischen PPCManagement. http://www.searchmarketingtools.com/ppc/ppcbidtracker.html – Auf dieser Seite werden verschiedene Tools angeboten. http://www.voytech.com/keywords/ppc.htm – Eine weitere Sammlung zahlreicher guter Software zum Thema. Sie haben gesehen, dass es durchaus Lösungen gibt, die bei der sehr komplexen Arbeit der Gebotsübersicht behilflich sein können. Hat man nur ein bis zwei Gebote zu verwalten, lohnt eine Einarbeitung in die Tools normalerweise nicht. Mit zunehmender Gebotszahl sollte ihr Einsatz aber auf jeden Fall geprüft werden. Denn diese Tools ermöglichen nicht nur eine enorme Zeitersparnis, auch die Kosten für Anzeigen lassen sich teilweise deutlich senken.
10.3 Google AdWords Google AdWords ist zweifellos der prominenteste Vertreter im Reigen der Pay-for-Performance-Netzwerke. Richtig eingesetzt, kann man über Google AdWords den Erfolg seiner Webseite weiter vorantreiben. Hinter AdWords steckt das Prinzip, gegen einen entsprechenden Betrag, Textanzeigen auf Google und an das Google-Werbenetzwerk angeschlossenen Seiten zu schalten. Gibt man bei Google eine Suchanfrage ab, bekommt man folgendes Bild zu sehen:
257
Kapitel 10
Abbildung 10.6: Normale und bezahlte Links in schöner Eintracht
Im linken Bereich wird der organische oder generische Teil angezeigt. Es werden hier die Webseiten aufgeführt, die aufgrund Ihrer Optimierungsmaßnahmen und den Algorithmen der Suchmaschinen auftauchen. Rechts daneben sind die AdWordsAnzeigen zu finden. Als Seitenbetreiber kann man sich hier einkaufen und so seine Webseite an prominenter Stelle präsentieren. Um selbst eine solche Anzeige zu schalten, müssen Sie sich beim AdWords-Programm anmelden, Keywords definieren und ein Maximalgebot für den Preis abgeben, den Sie bereit sind, für einen Klick auf die Anzeige zu bezahlen. Das Prinzip der Preisbildung erinnert dabei an das von Versteigerungen, wie Sie sie zum Beispiel von eBay her kennen. In welcher Reihenfolge die Anzeigen auftauchen ist dabei übrigens nicht nur eine Frage des Preises. So erscheint nicht automatisch die Anzeige an oberster Position, für die das höchste Gebot abgegeben wurde. Stattdessen werden neben dem Preis zusätzliche Qualitätskriterien bei der Zuweisung der Anzeigenposition berücksichtigt. So können wenig finanzstarke Seitenbetreiber den großen Webseiten mit riesigem Budget den Rang ablaufen. Voraussetzung dafür ist dann aber, dass die Anzeige tatsächlich qualitativ hochwertig gestaltet ist. Dazu aber später mehr. Es muss an dieser Stelle noch einmal auf einen wichtigen Aspekt hingewiesen werden: Durch AdWords schaltet man lediglich eine Werbeanzeige. Sich in die organischen Suchtreffer von Google oder anderen seriösen Suchmaschinen einzukaufen, funktioniert hingegen nicht. Zwar kursieren solche Gerüchte immer mal wieder in den ein-
258
Suchmaschinen-Marketing
schlägigen SEO-Foren, richtig werden sie aber auch dadurch nicht, dass sie immer wieder wiederholt werden. Begründet werden diese Gerüchte dann oft mit der Tatsache, dass ein Seitenbetreiber AdWords-Anzeigen geschaltet hat und just ab diesem Zeitpunkt taucht seine Webseite auch in den generischen Suchergebnissen auf. Das ist allerdings Zufall bzw. hängt mit anderen komplexen Faktoren zusammen. Damit, dass Google käuflich ist, hat das auf jeden Fall nichts zu tun. Google AdWords vs. Google AdSense Immer wieder werden die beiden Begriffe AdWords und AdSense verwechselt oder miteinander gleichgesetzt. Das ist so allerdings völlig falsch. Denn während man als Seitenbetreiber bei AdWords selbst Anzeigen schaltet, bindet man beim AdSense-Programm Anzeigen anderer Webseitenbetreiber in seine eigene Seite ein.
Viele Seitenbetreiber glauben, dass die AdWords-Anzeigen ausschließlich bei Google erscheinen. Dem ist allerdings nicht so. Die Anzeigen werden vielmehr auch im sogenannten Google Such-Werbenetzwerk angezeigt. Zu diesem Netzwerk gehören unter anderen die folgenden Seiten: Froogle, Google Groups Netscape AT&T Worldnet EarthLink Tiscali Bild.de Freenet.de T-Online Neben diesen Seiten des Such-Werbenetzwerks können Anzeigen auch auf ContentWebseiten geschaltet werden. Zu diesen Content-Webseiten gehören unter anderem: Meinestadt.de Capital Chip Online tecchannel ciao Marco Polo
259
Kapitel 10
Laut Google kann man über dieses Werbenetzwerk bis zu 86 % aller Internetuser erreichen. Damit ist klar, dass man als Webseitenbetreiber, der kommerzielle Ziele verfolgt, eigentlich nur schwer an AdWords vorbeikommt. Nur ein Überblick Dieser Abschnitt soll Ihnen die Arbeit mit Google AdWords lediglich vorstellen. Eine vollständige Beschreibung des Services inklusive aller möglichen Optionen kann und soll hier nicht erfolgen. Wenn Sie sich für Google AdWords entscheiden, sollten Sie sich auf jeden Fall die sehr umfangreichen Hilfeseiten unter http://adwords.google.de/support/?hl=de ansehen. Dort werden alle wichtigen Funktionen vorgestellt, sodass kaum noch eine Frage offenbleibt.
Nachdem Sie nun wissen, was Google AdWords ist und wie dieser Dienst theoretisch funktioniert, geht es nun an den praktischen Teil. Auf den folgenden Seiten wird gezeigt, wie sich Google AdWords in der Praxis nutzen lässt. Um nur mal eben zu ermitteln, welche Kosten durch AdWords-Anzeigen auf Sie zukommen, müssen Sie übrigens nicht extra einen Account eröffnen und die gesamte Anmeldeprozedur durchlaufen. Hier hilft der Traffic Estimilator weiter. Dieses Tool kann kostenlos unter https://adwords.google.com/select/TrafficEstimatorSandbox genutzt werden. Nachdem Sie hier die notwendigen Informationen wie Keywords, Zielregion und Währung eingetragen haben, können Sie sich die geschätzten Kosten und KeywordZugriffszahlen anzeigen lassen. Das verschafft Ihnen eine ungefähre Vorstellung von den zu erwartenden finanziellen Belastungen.
10.3.1 Einen kostenlosen Account eröffnen Um mit Google AdWords überhaupt arbeiten zu können, benötigen Sie einen entsprechenden Account. Anlegen lässt sich der kostenlos unter http://adwords.google.com/ select/Login über die Schaltfläche Anmeldung für Neukunden. Anschließend stehen die beiden Lösungen Starter-Edition und Standard-Edition zur Auswahl. An dieser Stelle wird die Verwendung der Standard-Edition vorgestellt, da diese detaillierte Optionen und bessere Tools für die Kampagnen-Verwaltung bietet. Insgesamt werden Sie sechs Schritte durchlaufen. Den Assistenten können Sie dabei völlig unverbindlich verwenden und auf diese Weise überprüfen, ob Sie Google AdWords für Ihre Webseite nutzen wollen. Kosten fallen erst dann an, wenn Sie nach der Erstellung der Kampagne die Ihnen von Google zugeschickte E-Mail bestätigen und Zahlungsinformationen übermitteln. Einem Test steht also nichts mehr im Weg.
260
Suchmaschinen-Marketing
Abbildung 10.7: So einfach können Sie die Kosten schätzen, die durch die Keywords möglicherweise entstehen.
10.3.2 Zielkunden definieren Im ersten Schritt legen Sie die Sprache Ihrer Zielkunden fest und bestimmen, in welchen Ländern die Werbung geschaltet werden soll. Eine Mehrfachauswahl ist wie üblich möglich, indem man beim Klicken die [Strg]Taste gedrückt hält. Interessant sind diese Optionen natürlich für all diejenigen, die vor allem regional tätig werden. Das sind zum Beispiel Handwerker, die nur gefunden werden wollen, wenn in ihrer Stadt oder unmittelbaren Region nach einer entsprechenden Dienstleistung gesucht wird. Die folgenden Optionen stehen zur Auswahl: Länder und Gebiete – Die Anzeige erscheint in den ausgewählten Ländern und Gebieten. Regionen und Städte – Die Anzeige wird nur in regionalen Suchanfragen aus von Ihnen ausgewählten Regionen und Städten angezeigt. Benutzerdefinierte Ausrichtung – Die Anzeige erscheint nur bei solchen Google-Kunden, die sich in unmittelbarer Umgebung des von Ihnen angegebenen Standorts befinden.
261
Kapitel 10
Abbildung 10.8: Land und Gebiet werden festgelegt.
Im aktuellen Beispiel wird davon ausgegangen, dass als Zielsprache ausschließlich Deutsch und als Zielregion Regionen und Städte gewählt wurde. Mit Weiter wird das nächste Dialogfenster aufgerufen. Hier können Sie im oberen Fensterbereich das Land auswählen, für das die Zielregionen eingestellt werden sollen. Je nachdem, was Sie dort für ein Land einstellen, passt sich auch das Auswahlfeld Verfügbare Gebiete an. Wählen Sie die gewünschten Gebiete aus und übernehmen Sie die Auswahl mit Hinzufügen. Neben den Gebieten (die in Deutschland übrigens den Bundesländern entsprechen) können Sie auch ganz gezielt einzelne Städte auswählen. Wollen Sie beispielsweise die Anzeige zwar in Leverkusen schalten, nicht aber im gesamten Bundesland Nordrhein-Westfalen, tragen Sie den Namen Leverkusen in das untere Textfeld ein. So können Sie ganz gezielt einzelne Städtenamen eintragen, wobei jeder Städtename jeweils in einer eigenen Zeile stehen muss. Nachdem die Einstellungen vollständig sind, geht es mit Weiter zur nächsten Webseite.
10.3.3 Anzeigentext anlegen Hier geht es nun um den schwierigsten Teil, nämlich den Anzeigentext. Sie sollten sich an dieser Stelle die nötige Zeit nehmen, um wirklich effektive Texte zu entwerfen. Überschrift und Anzeigentext müssen den Nutzer dazu animieren, auf Ihre Anzeige zu klicken und ihr den Vorzug vor den echten Suchergebnissen zu geben. Dabei ist es vor allem wichtig, eine gute Balance zwischen hoher Klick- und hoher Konversionsrate
262
Suchmaschinen-Marketing
zu erreichen. Denn sollte die Klickrate unter 0,5 % sinken, wird die Kampagne von Google gestoppt. Ebenso schlecht wäre es allerdings, wenn Sie die Nutzer zu unspezifisch ansprechen und dadurch sehr hohe Klickraten erzielen. Denn jeder Klick kostet Sie Geld. Und das sollten Sie natürlich nur für solche Klicks ausgeben, bei denen der Nutzer am tatsächlich angebotenen Produkt oder der Dienstleistung interessiert ist.
Abbildung 10.9: Man kann auch ganz gezielt einzelne Städte angeben.
Redaktionelle Richtlinien Google achtet sehr genau darauf, was in den Anzeigen steht. So sind zum Beispiel im Anzeigentitel keine Ausrufezeichen erlaubt. Die redaktionellen Richtlinien hier aufzuführen, würde zu weit gehen. Die wichtigsten Aspekte werden auf den folgenden Seiten genannt. Sollte Google doch einmal bei einer Ihrer Anzeigen etwas zu beanstanden haben, finden Sie die vollständigen Richtlinien unter https://adwords. google.com/select/guidelines.html?ctx=CreateAd.
In das Feld Anzeigentitel tragen Sie die Überschrift der Anzeige ein. Die Überschrift sollte nach Möglichkeit natürlich so gewählt werden, dass die Zielgruppe sich von ihr angesprochen fühlt. Praktischerweise wird der in das Textfeld eingetragene Text gleich in einem Vorschaufenster angezeigt. So können Sie gleich die Wirkung der eingetragenen Texte überprüfen. Sie sollten auf jeden Fall eines oder mehrere Ihr Keywords innerhalb der Überschrift verwenden. Allerdings darf die Überschrift nur aus maximal 25 Zeichen bestehen. Über die beiden Eingabefelder Textzeile 1 und Textzeile 2 definieren Sie die Anzeige. Beschreiben Sie hier kurz und präzise, welche Dienste bzw. Produkte Sie anzubieten haben. Vor allen Dingen sollten Sie darauf verzichten, den Nutzern falsche Tatsachen
263
Kapitel 10
vorgaukeln zu wollen. Hohe Klickraten bringen Ihnen überhaupt nichts, wenn der Kunde auf Ihren Seiten nicht das findet, was er erwartet. Bei der Gestaltung der Textanzeigen ist übrigens recht viel Geduld gefragt. Auf Anhieb werden Sie kaum die passenden Texte finden. Testen Sie verschiedene Textvarianten. Dabei werden Sie möglicherweise auch sehr schnell mit den durchaus harten redaktionellen Richtlinien konfrontiert werden, auf die bereits hingewiesen wurde. Diese sorgen manchmal dafür, dass ein eigentlich guter Anzeigentext noch einmal umgestellt werden muss. Google will durch die redaktionellen Richtlinien verhindern, dass die Anzeigentexte mit »billigen« Tricks aufgewertet werden. Ihnen sind sicherlich bereits in einigen Google-Anzeigen die fett geschriebenen Wörter aufgefallen. Dabei werden von Google automatisch die Wörter in Fettschrift angezeigt, die exakt dem eingegebenen Suchbegriff entsprechen. Dabei ist exakt allerdings wörtlich zu nehmen. Gibt der Suchende den Begriff Ticket
ein, wird der in der Anzeige nur fett angezeigt, wenn dort tatsächlich Ticket steht. Haben Sie stattdessen Tickets
eingetragen, erscheint dieses Wort in Normalschrift.
Abbildung 10.10: Stimmt der Begriff in der Anzeige exakt mit dem Suchbegriff überein, wird er in Fettschrift angezeigt.
264
Suchmaschinen-Marketing
Allerdings zeigt die Abbildung, dass das Stilmittel der Fettschrift nicht automatisch dafür sorgt, dass sich die eigene Anzeige von denen anderer Anbieter abhebt. Dennoch sollten Sie sich diese Möglichkeit natürlich nicht entgehen lassen. Versuchen Sie die Anzeigentexte so zu gestalten, dass die Schreibweise mit möglichst vielen Suchanfragen übereinstimmt. Ebenso wichtig ist allerdings auch die Frage, wie der User angesprochen wird. Mittlerweile hat sich herausgestellt, dass sich Benutzer eher zu einem Klick auf eine Anzeige verleiten lassen, wenn diese in einem gewissen »Befehlston« geschrieben ist oder konkrete Anweisungen enthält. Für das Berliner Theater könnte ein solcher Befehlston folgendermaßen aussehen: Berliner Theater Reservieren Sie Tickets direkt online in unserem Shop. www.berlin.de
Versuchen Sie, den potenziellen Kunden direkt anzusprechen und ihn mit wenigen Worten auf Ihr Produkt oder Ihre Dienstleistung aufmerksam zu machen. Nachdem Überschrift und Anzeigentext festgelegt sind, geben Sie den Anzeigen-URL und den Ziel-URL ein. Im Normalfall werden Sie nicht direkt auf die Startseite Ihres Webangebots verlinken. In diesem Fall tragen Sie bei Anzeige-URL zum Beispiel www.berlin.de
ein, während der Ziel-URL www.berlin.de/content/news.html
ist. In vielen Fällen lässt sich das übrigens auch gar nicht anders machen. Denn beim Anzeige-URL sind lediglich 35 Zeichen, beim Ziel-URL aber immerhin 1.024 Zeichen erlaubt. Viele Unternehmen machen den Fehler, direkt auf die Startseite zu verlinken. Da die meisten Firmen allerdings mehr als ein Produkt oder eine Dienstleistung anbieten, wirkt die Homepage für den Besucher oft unübersichtlich und er findet nicht direkt das, was er aufgrund des Anzeigentextes erwartet hat. Das führt sehr oft dazu, dass er die Webseite schnell wieder verlassen und sie im schlimmsten Fall so schnell auch nicht wieder besuchen wird. Sie sollten daher die Anzeige immer mit einer passenden Anschlussseite (Landing Page) versehen, auf der dem Besucher das geboten wird, was er aufgrund des Anzeigentextes vermutet. Theoretisch können Sie bei Anzeige-URL auch eine Domain angeben, die Ihnen überhaupt nicht gehört. Das funktioniert tatsächlich. Allerdings werden solche Anzeigen von Google binnen kürzester Zeit wieder gestoppt. Zudem setzen Sie sich des Risikos einer Klage des tatsächlichen Domain-Inhabers aus. Auf der sicheren Seite sind Sie, wenn Sie ausschließlich solche Domains verwenden, die Ihnen gehören.
265
Kapitel 10
Pop-ups sind verboten Auf keinen Fall sollten Sie beim Ziel-URL eine Seite angeben, bei der automatisch Pop-ups geöffnet werden. Denn Google ist sich da mit den meisten Internetanwendern einig und lehnt unverlangt geöffnete Pop-ups ab. Sollten sich auf der angegebenen Seite Pop-ups befinden, wird die Kampagne automatisch deaktiviert. Und immer daran denken: Google überprüft das Vorhandensein von Pop-ups tatsächlich!
Das ausgefüllte Dialogfenster dürfte jetzt in etwa folgendermaßen aussehen:
Abbildung 10.11: Die Anzeige ist fast komplett.
Mit Weiter wird der nächste Schritt aufgerufen. Bevor Sie allerdings weitere Einstellungen vornehmen können, werden die bislang eingetragenen Informationen überprüft. So kontrolliert Google, ob die angegebene Domain erreichbar ist. Ebenso wird der Anzeigentext einer Prüfung unterzogen. Sollte Google etwas an der Anzeige zu beanstanden haben, bekommen Sie eine entsprechende Meldung angezeigt. Die könnte beispielsweise folgendermaßen aussehen: Inakzeptable Superlative Ihr Anzeigentext darf keine vergleichenden oder subjektiven Aussagen wie »Beste«, »Niedrigste«, oder »Nummer 1« enthalten, sofern diese Aussagen nicht durch Dritte bestätigt wurden. Diese Bestätigung muss gegebenenfalls deutlich auf Ihrer Website angezeigt werden. Bitte entfernen Sie »Bestes« aus Ihrer Anzeige.
266
Suchmaschinen-Marketing
Nehmen Sie in diesem Fall die geforderten Korrekturen vor und versuchen Sie Ihr Glück mit Weiter erneut.
Wandelbare Anzeigentexte mit Variablen schreiben Es besteht auch die Möglichkeit, Variablen im Anzeigentext zu verwenden. Diese sogenannte Dynamische Keyword Integration (DKI) ist vergleichsweise unbekannt und wird daher nur von wenigen Ihrer Konkurrenten genutzt. Hier bietet sich Ihnen also möglicherweise ein Wettbewerbsvorteil. Durch DKI kann man eine Anzeigenvorlage benutzen, in die exakt die vom Suchenden in das Suchformular eingetragenen Wörter eingetragen werden. Nur auf Suchseiten von Google Beachten Sie, dass DKI ausschließlich auf den Suchseiten des Google-Netzwerks verwendet werden kann. Auf Content-Seiten, die am AdSense-Programm teilnehmen, lässt sich DKI nicht einsetzen. Hier werden stattdessen die definierten Standardtexte angezeigt.
Wollen Sie zum Beispiel Tickets für das Berliner Theater verkaufen und jemand sucht nach Theater Berlin, können Sie in Ihrem Anzeigentext/Überschrift den Text Theater Berlin verwenden. Sucht aber jemand nach Berliner Theater, erscheint in der gleichen Anzeige der Text Berliner Theater. Das ist ein ideales Hilfsmittel um den Anzeigentext exakt darauf abzustimmen, was der User gesucht hat. Anwenden lässt sich DKI innerhalb des gesamten Anzeigentextes. Dazu gehören nicht nur die Überschrift und der Text, sondern auch der URL. Bevor Sie DKI verwenden, müssen Sie sich darüber im Klaren sein, dass nicht immer der Text verwendet werden kann, nach dem gesucht wurde. So darf der Text für die Überschrift insgesamt nur 25 und für die Textzeilen insgesamt nur jeweils 35 Zeichen enthalten. Deswegen enthält der Code zwei Informationen: 1. Den Code, um exakt die Keywords, nach denen gesucht wurde, in den Anzeigentext zu kopieren. 2. Sollte dieses Wort zu lang sein, wird ein festgelegter Standardtext angezeigt. Für das zuvor genannte Berlin-Beispiel würde der Code folgendermaßen aussehen: #
#
# Code
{KeyWord:Theater Berlin} Alle Termine und Infos. Tickets einfach online reservieren! www.berlin.de
267
Kapitel 10
Durch diese Syntax wird der vom User eingetragene Suchbegriff automatisch in den Titel übernommen, außer wenn dieser zu lang ist. Dann erscheint stattdessen der Standardtext Theater Berlin. Alles in allem also eine ziemlich interessante Möglichkeit, um die Klickrate zu verbessern. Allerdings sind einige Besonderheiten bei der Syntax zu beachten. Denn der Schreibweise des Wortes KeyWord kommt entscheidende Bedeutung zu. Wenn Sie KeyWord
mit einem großen K und einem großen W schreiben, wird von jedem Wort der erste Buchstabe großgeschrieben. Im aktuellen Beispiel würde das also folgendermaßen aussehen: Theater Berlin
Ebenso können Sie auch nur den ersten Buchstaben von KeyWord großschreiben. Keyword
In diesem Fall wird auch ausschließlich der erste Buchstabe des ersten Suchworts großgeschrieben. Theater berlin
Diese Syntax wird allerdings weniger verwendet, da es hierdurch – je nach verwendetem Suchbegriff – zu Rechtschreibfehlern kommen kann. Eine weitere Möglichkeit besteht darin, KeyWord ausschließlich in Kleinbuchstaben zu schreiben. keyword
Hierdurch wird auch der gesamte Suchbegriff in Kleinbuchstaben angezeigt. theater berlin
Die letzte Möglichkeit besteht in der ausschließlichen Verwendung von Großbuchstaben. KEYWORD
Durch diese Syntax werden sämtliche Buchstaben im Suchbegriff großgeschrieben. Beachten Sie, dass so ausgestattete Anzeigen zunächst von Google deaktiviert werden. Denn die ausschließliche Verwendung von Großbuchstaben ist laut den redaktionellen Richtlinien von Google nur in Ausnahmefällen gestattet. THEATER BERLIN
Wichtig bei allen Varianten: Zwischen den Klammern und den Keywords dürfen keine Leerzeichen stehen.
268
Suchmaschinen-Marketing
10.3.4 Schlüsselwörter auswählen Nachdem Google den Anzeigentext akzeptiert hat, geht es mit der Definition der Suchbegriffe weiter. Dabei bestimmen Sie, bei welchen Suchbegriffen Ihre Anzeige erscheinen soll. Hierfür stellt Google ein entsprechendes Tool zur Verfügung, das bei der Auswahl der Keywords behilflich ist. Vorsicht bei der Verwendung von Markennamen Überprüfen Sie ganz genau, welche Wörter Sie bei AdWords oder vergleichbaren Werbeformen verwenden. Es gibt bereits einige gerichtliche Urteile, die die Verwendung fremder Markennamen als unzulässigen Kundenfang einstufen und verbieten. Sie sollten daher nur neutrale Begriffe verwenden. Verzichten sollten Sie auf jeden Fall auf fremde Firmennamen und Produkte direkter Konkurrenten. Auch beim Einsatz von geschützten Begriffen ist Vorsicht geboten. Der BGH urteilte hierzu, dass die Verwendung solcher Begriffe eine Markenrechtsverletzung darstellt.
Um sich von Google verschiedene Keyword-Vorschläge unterbreiten zu lassen, tragen Sie in das Feld Möchten Sie weitere Vorschläge? den betreffenden Begriff ein.
Abbildung 10.12: Schlüsselwörter können ganz bequem übernommen werden.
Mit Hinzufügen können Sie einzelne Keywords aus der Vorschlagsliste in Ihre Keywordliste übernehmen. Beachten Sie, dass in dieser Liste jedes Wort bzw. jede Wortgruppe in einer eigenen Zeile stehen muss. Sie sollten unbedingt einen Blick in die
269
Kapitel 10
erweiterten Optionen werfen.61 Denn hierüber können Sie exakt festlegen, wann Ihre Anzeige überhaupt angezeigt wird bzw. wie Google sie verarbeitet. Insgesamt gibt es vier verschiedene Varianten, um die Suchbegriffe auszuzeichnen. (Die entsprechende Syntax entnehmen Sie der im Anschluss an diese Aufzählung aufgeführten Tabelle.) Weitgehend passende Keywords – Diese Standardeinstellung wird automatisch übernommen, wenn Sie keine Änderungen an den erweiterten Optionen vornehmen. Es handelt sich hier um die mit Abstand bequemste Variante, schließlich werden hier nicht nur Ein- und Mehrzahl, sondern auch andere Varianten der Keywords berücksichtigt. Geben Sie zum Beispiel Theater Berlin an, erscheint die Anzeige auch dann, wenn nach Berliner Theaterkarten gesucht wird. Zweifellos ist diese Option sehr bequem. Allerdings kann sie fatale wirtschaftliche Folgen haben, denn Ihre Anzeige erscheint dann auch bei Suchanfragen, die überhaupt nichts mit Ihrem Thema zu tun haben könnten. So wird Sie dann zum Beispiel auch angezeigt, wenn die Begriffe Berlin oder Berliner Hotels eingegeben werden. Google kann allerdings nicht erkennen, dass Sie im Zusammenhang mit Berliner Hotels eigentlich gar nicht erscheinen wollen. Das führt dazu, dass der berechnete Klickpreis für die Anzeige zu hoch angesetzt wird und Sie somit mehr als nötig zahlen müssen. Ein weiterer wichtiger Aspekt ist in diesem Zusammenhang der von Google ermittelte Erfolg Ihrer Anzeige. Bei dieser sogenannten Klickrate wird das Verhältnis zwischen angezeigter und angeklickter Anzeige ermittelt. Ist dieser Wert auf Dauer zu niedrig, wird Ihre Anzeige gesperrt. Sie sollten sowohl vor diesem wie auch dem finanziellen Hintergrund darauf achten, dass Ihre Anzeige nur in Verbindung mit tatsächlich sinnvollen und auf Ihr Angebot passenden Suchbegriffen angezeigt wird. Passende Wortgruppen – Um zu bestimmen, dass die Anzeige nur erscheint, wenn die Schlüsselwörter exakt mit den Suchbegriffen übereinstimmen, werden sie in Anführungszeichen gesetzt. Die Angabe Berliner Theater führt dann dazu, dass die Anzeige zum Beispiel bei den Sucheingaben Berliner Theater oder auch Tickets für Berliner Theater erscheint. Bei Berliner Hotels würde die Anzeige hingegen nicht auftauchen. Diese Variante ist natürlich sehr zeitintensiv, schließlich muss man sich erst mühevoll die möglichen Begriffskombinationen überlegen. Die Mühe und Zeit, die man hier investiert, machen sich allerdings vor allem finanziell schnell bemerkbar. Genau passende Keywords – Dabei handelt es sich um die exakteste aller Möglichkeiten. Im Klartext bedeutet dies, dass die hier definierte Wortgruppe exakt so eingegeben werden muss, wie man sie angegeben hat. Auf das Berlin-Beispiel bezogen hat das zur Folge, dass die Anzeige ausschließlich bei der Suchabfrage Berliner Theater angezeigt wird. Bei Tickets für Berliner Theater erscheint die Anzeige hingegen nicht. Allerdings wird auch hier nicht zwischen Groß- und Kleinschreibung unterschieden. Ob die Suchabfrage Berliner Theater oder berliner theater lautet, spielt keine Rolle. 61 Google versteckt diese Optionen etwas, sodass viele Anwender nichts von deren Existenz wissen und daher oft auf die (möglicherweise) schlechtere Standardvariante zurückgreifen.
270
Suchmaschinen-Marketing
Ausschließende Keywords – Manchmal kann es sinnvoll sein, einige Suchbegriffe kategorisch auszuschließen. Gibt man hier zum Beispiel –Musical ein, erscheint die Anzeige definitiv nicht, wenn in der Suchabfrage das Wort Musical vorkommt. So ist garantiert, dass ausschließlich solche Klicks auf die Anzeige generiert werden, bei denen der User nach Theater- nicht aber nach Musical-Tickets sucht. Damit Google erkennt, für welche der vier möglichen Varianten Sie sich entscheiden, müssen die Schlüsselwörter jeweils in einer speziellen Syntax ausgezeichnet werden. Die folgende Tabelle zeigt die möglichen Optionen: Option
Syntax
Weitgehend passende Keywords
Keyword
Genau passende Keywords
[Keyword]
Passende Wortgruppen
»Keyword«
Ausschließende Keywords
-Keyword
Tabelle 10.2: Die Syntax-Optionen
Google bietet eigentlich alles, was man für die Definition der Schlüsselwörter benötigt. Unverständlicherweise werden diese Möglichkeiten allerdings nur von vergleichsweise wenigen Seitenbetreibern genutzt. Hier könnte sich für Sie demzufolge ein Wettbewerbsvorteil bieten, schließlich können Sie nun die Keywords noch gezielter definieren. Die folgende Abbildung zeigt ein typisches Beispiel für möglicherweise verschenkte Klicks und somit verschleudertes Kapital: Sucht man nach Theater Berlin erscheint auf der Top-Platzierung Theaterkasse Berlin. Das ist korrekt und passt so auch zum eingegebenen Suchbegriff. Was sich aber das Dunkelrestaurant davon verspricht, bei dieser Suchanfrage zu erscheinen, bleibt schleierhaft. Möglicherweise gehen die Seitenbetreiber davon aus, dass theateraffine Menschen durchaus auch kulinarischen Genüssen offen gegenüberstehen. Nun, das könnte eine Erklärung sein. Allerdings kann man wohl davon ausgehen, dass die Seitenbetreiber lediglich das Keyword Berlin definiert haben. Auf diese Weise generieren sie zwar sicherlich eine hohe Klickrate, ob sie dadurch aber tatsächlich Kunden für ihr Restaurant akquirieren, ist eher zweifelhaft. Keine Garantie für eine Aufnahme Beachten Sie, dass Google sich ausdrücklich das Recht vorbehält, von Ihnen definierte Keywords abzulehnen. Auch haftet Google in keinster Weise dafür, wenn Sie in Ihren Keywords möglicherweise gegen die Rechte Dritter (Stichwort Markenschutz) verstoßen.
Nachdem alle Keywords definiert sind, geht es zum nächsten Schritt.
271
Kapitel 10
Abbildung 10.13: Hier zahlt jemand möglicherweise für wenig sinnvolle Klicks.
10.3.5 Preise bestimmen Nicht nur interessant, sondern für Ihr Unternehmen möglicherweise überlebenswichtig, ist es, die Kosten für Ihre Kampagne unter Kontrolle zu halten. Auch hier bietet Google wieder mehrere Möglichkeiten. Egal für welche Variante Sie sich entscheiden, Sie sollten auf jeden Fall ein Budget definieren und so die maximalen Ausgaben festsetzen. Im oberen Fensterbereich legen Sie zunächst das Tagesbudget fest. Um gleich mit einem Vorurteil aufzuräumen: Auf die Position der Anzeige hat die Höhe des Budgets keinerlei Einfluss. Was darauf Einfluss hat, wird später noch gezeigt. Geben Sie hier zum Beispiel 10 Euro ein, wird die Anzeige so lange angezeigt, bis dieser Betrag verbraucht ist. So wird garantiert, dass Sie tatsächlich nicht mehr ausgeben, als Sie wollen. Sie sollten hier anfangs etwas konservativer herangehen und so überprüfen, ob das investierte Kapital sich tatsächlich refinanziert. Das angegebene Budget lässt sich übrigens jederzeit nach oben und unten korrigieren. Nach dem Tagesbudget geht es nun darum, festzulegen, welchen Betrag Sie maximal bereit sind, für einen Klick auf Ihre Anzeige zu bezahlen. Tragen Sie den maximalen Cost per Click (CPC) in das entsprechende Feld ein.
272
Suchmaschinen-Marketing
Abbildung 10.14: Ein recht bescheidenes Tagesbudget wurde festgesetzt
Was das hier Eingetragene tatsächlich für Auswirkungen hat, ist vielen Seitenbetreibern nicht ganz klar. Denn nicht jeder Klick kostet automatisch diesen Betrag. Die Kosten können vielmehr deutlich niedriger liegen. Angenommen, Sie sind bereit für einen Klick maximal 0,25 Euro zu bezahlen. Nun sind Sie aber wahrscheinlich nicht der einzige, der auf dieses Keyword bietet. Ein Beispiel: Konkurrent 1 bietet 0,10 Euro Konkurrent 2 bietet 0,30 Euro Konkurrent 3 bietet 0,05 Euro In dieser Konstellation würde Ihre Anzeige an Position 2 erscheinen, Sie würden allerdings nur 0,11 Euro pro Klick bezahlen. Je mehr Leute bieten, umso höher gehen natürlich auch die Klickpreise. Eine wirklich gute Platzierung erreicht man durch eine Kombination aus Klickpreis und Klickrate. Sie müssen also nicht unbedingt nur an der CPC-Preisschraube drehen, um die Anzeigenposition zu verbessern. Oft hilft es schon, wenn die Qualität der Anzeige optimiert wird. Die Anzeigenposition lässt sich anhand folgender Formel berechnen: CPC * Qualitätsfaktor = Position
Ein einfaches Beispiel soll diesen Aspekt verdeutlichen. Angenommen, Sie wollen maximal 0,25 Euro pro Klick bezahlen und der Qualitätsfaktor liegt bei 0,5 Prozent. Das führt zu einer errechneten Position von 0,125. Ihr Konkurrent wiederum hat einen maximalen Klickpreis von 0,15 Euro bestimmt, der Qualitätsfaktor liegt ebenfalls bei 0,5 Prozent. Seine errechnete Position liegt somit bei 0,08. In diesem Beispiel würde Ihre Anzeige an Position 1 und die Ihres Konkurrenten auf Position 2 erscheinen. Ihr Konkurrent hat jetzt zwei Möglichkeiten, um an
273
Kapitel 10
Ihnen vorbeizuziehen: Er erhöht den maximalen Klickpreis auf 0,26 Euro oder er verbessert seine Anzeige dahingehend, dass diese statt 0,5 einen Qualitätsfaktor von 0,9 aufweist. Über den im unteren Fensterbereich zur Verfügung stehenden Traffic Estimator kann man die voraussichtlichen Kosten der Kampagne berechnen.
Abbildung 10.15: So können Sie besser kalkulieren.
Hier können Sie erkennen, wie hoch die Zugriffszahlen auf Ihre Keywords wahrscheinlich sein werden und welche Kosten sich daraus ergeben. Im gezeigten Beispiel würden Sie auf ein Tagesbudget von 20 Euro kommen. Bei einem anvisierten Tagesbudget von 100 Euro ist das natürlich etwas wenig. In diesem Fall könnte man zum Beispiel weitere Keywords aufnehmen und so für mehr Klicks sorgen.
10.3.6 Anmelden und verwalten Nachdem alle Einstellungen vorgenommen wurden, können Sie die Anmeldung abschließen. Geben Sie dazu Ihre E-Mail-Adresse an. Anschließend müssen Sie nur noch über die Ihnen nach der Anmeldung zugeschickte E-Mail, die angegebene EMail-Adresse bestätigen und schon können Sie Ihr AdWords-Konto verwalten. Bis Sie die Zahlungsinformationen eingegeben haben, ist die Anzeige nicht aktiv. AdWords bietet zahlreiche Optionen, die laufenden Kampagnen zu kontrollieren und zu verwalten. Das AdWords-Konto ist die Schaltzentrale, über die Sie Budgets festlegen, sich Berichte anzeigen und sich über die entsprechenden Conversions-Raten informieren lassen können. Die wichtigste Ansicht ist aber zweifellos über den Punkt Kampagnenverwaltung/Kampagnenzusammenfassung zu finden: Hier werden alle angelegten Kampagnen angezeigt. (Nach Ihrem ersten Login wird hier nur eine stehen. Später dann natürlich mehr.) Um sich Details zu den einzelnen Kampagnen anzeigen zu lassen, klickt man auf den entsprechenden Kampagnenna-
274
Suchmaschinen-Marketing
men. In der sich öffnenden Tabelle werden Informationen zur Klickrate, Cost per Click und der Konversionsrate angezeigt.
Abbildung 10.16: Alle wichtigen Aspekte der Kampagne auf einen Blick
Den Kampagnenerfolg überprüfen – Konversionsmessungen Sie sollten regelmäßig den Erfolg Ihrer Kampagnen überprüfen. Denn nur so können Sie herausfinden, ob die Kunden tatsächlich über AdWords auf die Seite kommen oder doch über andere Wege zu Ihnen finden. Diese sogenannten Konversionsmessungen laufen folgendermaßen ab: 1. Der User klickt auf eine Ihrer AdWords-Anzeigen. 2. Auf dem Rechner des Users wird ein Cookie gespeichert. 3. Erreicht der User die von Ihnen definierte Anfrageseite zur Konversions-Bestätigung, wird der bei ihm gespeicherte Cookie ausgelesen und vom Google-Server wird das Konversions-Tracking-Bild gesendet. 4. Das Ergebnis des Konversions-Ereignisses wird von Google gespeichert und mit Ihrer Kampagne, Ihrem URL und Keyword in Beziehung gesetzt. Innerhalb des AdWord-Programms lässt sich die Konversionsmessung kinderleicht aktivieren. Und das Beste daran: Diese Funktion ist sogar kostenlos. Google erlaubt die Definition verschiedener Konversionstypen. So gibt es beispielsweise einen Typ, der im Zusammenhang mit Online-Shops interessant ist. Dabei wird auf dem Rechner des Users ein Cookie gespeichert. Anschließend surft er über die Webseite und legt Produkte in den Warenkorb. Am Ende des Einkaufs wird dann automatisch die Seite Vielen Dank für Ihren Einkauf angezeigt. Dieser Aufruf wird durch das Cookie registriert. Neben diesem Konversionstyp stellt Google noch einige andere zur Verfügung.
275
Kapitel 10
Abbildung 10.17: Die gewünschte Konversionsart wird ausgewählt.
Wählen Sie hier die gewünschte Konversionsart aus und bestätigen Sie die Auswahl. Hieraufhin wird Ihnen im nächsten Schritt ein Code-Block angezeigt, der die technische Basis der Konversionsmessung bildet. #
#
# Code
. Beendet werden sie mit
294
11 Spam und seine Folgen Manche Menschen wittern überall Betrug und wappnen sich immer gegen das Misstrauen, das ihnen andere entgegenbringen. Sie halten sich für besonders klug, weil sie die Schliche der Menschen kennen. Aber dieser beständige Argwohn verträgt sich nicht mit einem großen Geist.
Konfuzius, Gespräche Lunyü
Spam kennen die meisten Leute nur im Zusammenhang mit E-Mails. Und natürlich sind unerlaubt zugesandte E-Mails lästig und ihre Beseitigung zeitraubend. Allerdings kann man mit entsprechenden Spam-Filtern wie zum Beispiel dem Spamihilator gut gegen Spam-Mails vorgehen. In diesem Kapitel geht es allerdings nicht um den Kampf gegen E-Mail-Spam. Hier stehen vielmehr die Spam-Formen im Vordergrund, die auf Suchmaschinen zielen. Alle Techniken des Suchmaschinen-Spammers haben das Ziel, mehr Besucher auf seine Seiten zu locken, um auf diese Weise den Umsatz (zum Beispiel über AdSense-Anzeigen oder Verkäufe im Online-Shop) zu steigern.
> >
>
HINWEIS
Aktuelle Studien belegen, dass mittlerweile jeder vierte Treffer bei den großen Suchmaschinen Spam ist. Bei bestimmten Suchbegriffen liegt diese Quote sogar noch höher. Das zeigt, dass Spam kein Randproblem ist, sondern sich längst zu einem Massenphänomen entwickelt hat.
Pauschal gesagt kann man davon ausgehen, dass alles Spam ist, was nicht dem menschlichen Besucher nutzt, sondern ausschließlich der Verbesserung des Rankings
Kapitel 11
dient. Hierunter fallen zum Beispiel Techniken, die den Suchmaschinen Informationen vorgaukeln, die auf der Seite überhaupt nicht zu finden sind, oder die andere Seitenstrukturen vortäuschen. Eindeutig nicht in die Kategorie Suchmaschinen-Spam fallen hingegen die in diesem Buch unter Onpage- und Offpage-Optimierung vorgestellten Varianten zur Verbesserung der Position innerhalb von Suchmaschinen. Diese Maßnahmen sind völlig legitim. Suchmaschinen reagieren zunehmend gereizt auf Spam. Sobald ein Betrugsversuch erkannt wird, wird die betreffende Seite entweder vollständig aus dem Index entfernt oder zumindest für eine bestimmte Zeit gesperrt. Wie die einzelnen Suchmaschinen auf Betrugsversuche reagieren, ist allerdings ein streng gehütetes Betriebsgeheimnis. Zur Spam-Erkennung werden hauptsächlich automatische Algorithmen herangezogen, anhand derer die Seiten analysiert werden. In diese Analysen fließen unter anderem die folgenden Kriterien ein: Wurden die Seiten maschinell generiert und besitzen sie wenig oder überhaupt keinen Inhalt? Wurde die Seite ausschließlich zu dem Zweck entwickelt, den Besucher auf eine andere Seite umzuleiten? Sind die Texte schwer zu lesen, weil mit kleinen Schriftgrößen gearbeitet und kein ausreichender Kontrast zwischen Schriftfarbe und Seitenhintergrund eingehalten wurde? Befinden sich zu viele Schlüsselwörter auf einer Seite? Sobald eine Seite als Spam eingestuft wurde, wird sie von einem Mitarbeiter der Suchmaschine manuell überprüft. Bestätigt sich der Spam-Verdacht, wird die Seite abgemahnt oder gleich abgestraft. Neben der automatisierten Spam-Erkennung bieten fast alle Suchmaschinen auch die Möglichkeit, dass man Spam-Seiten manuell meldet. Genutzt wird diese Möglichkeit natürlich vor allem von Webautoren, die damit Konkurrenten anschwärzen wollen. Hauptanreiz für eine solche »Anzeige« ist die Hoffnung, dass die konkurrierende Seite aus dem Index entfernt und das eigene Projekt besser gelistet wird. Mehr zur manuellen Spam-Meldung im weiteren Verlauf dieses Kapitels.
11.1 Die »besten« Spam-Methoden Spammer sind durchaus kreative Menschen. Das wird umso deutlicher, wenn man sich die Vielzahl der unterschiedlichen Spam-Methoden ansieht. Auf den folgenden Seiten erhalten Sie einen Einblick in die zahlreichen Spam-Varianten.
296
Spam und seine Folgen
!
!
!
ACHTUNG
An dieser Stelle darf ein Hinweis natürlich nicht fehlen: Wenn Sie mit dem Gedanken spielen, die ein oder andere Methode selbst einzusetzen, sollten Sie sich immer der möglichen Konsequenzen bewusst sein. Denn, wenn Ihre Seite zum Beispiel aufgrund eines Spam-Versuchs tatsächlich aus dem Google-Index geworfen wird, hat das möglicherweise fatale Folgen für Sie. Schließlich ist die Bedeutung von Suchmaschinen, und speziell von Google, für den kommerziellen Erfolg von Webprojekten enorm und wurde in diesem Buch bereits mehrfach herausgestellt.
11.1.1
Inhalte stehlen (Content-Spam)
Um in Suchmaschinen gelistet zu werden, braucht man entsprechende Inhalte. Hier stellt sich für viele Seitenbetreiber allerdings die Frage: Woher nehmen, wenn nicht stehlen? Wer seine Seite ernsthaft betreibt, wird keine Probleme haben, verwertbare Inhalte zu generieren. Anders sieht es allerdings bei solchen Seitenbetreibern aus, die ausschließlich Projekte entwickeln, mit denen zum Beispiel AdSense-Einnahmen generiert werden sollen. Die greifen dann auf den sogenannten Content-Spam zurück. Dabei legen die Seitenbetreiber Inhalte nicht selber an, sondern lassen ihn anlegen. Meistens wird dazu der von DMOZ kostenlos zur Verfügung gestellte Content verwendet. Aus Suchmaschinen-Sicht ist das natürlich problematisch. Denn da die Seiten tatsächlich sinnvolle Inhalte bieten, kann man sie nur schwer als Spam abstrafen. Meistens wird der DMOZ-Content verwendet, um auf diese Weise ein eigenes Webverzeichnis anzulegen, in dem dann überwiegend AdSense-Anzeigen stehen. Für den Spammer ist das eine gute Einnahmequelle, schließlich verdient er an jedem Klick, den die Besucher auf einen der Einträge abgeben. Allerdings funktioniert diese Masche nicht mehr ganz so reibungslos. Denn längst haben Suchmaschinen darauf reagiert und halten solche reinen Clone-Seiten aus ihrem Index fern. Allerdings räubern Spammer nicht nur bei DMOZ & Co., sondern zum Beispiel auch in Gästebüchern und Foren. Für Spammer spielt es nämlich keine Rolle, welchen Content sie einsammeln, sondern lediglich, dass sie Content bekommen. Professionelle Spammer verwenden zum Content-Sammeln sogenannte Content Grabber. Diese Tools steuern automatisch Webseiten an und sammeln Inhalte ein. Um diesen Werkzeugen den Garaus zu machen, gibt es verschiedene Möglichkeiten. Im einfachsten Fall suchen Sie die Server-Logfiles nach solchen Bots ab und sperren diese dann auf Basis der gewonnenen Daten mithilfe der .htaccess-Datei. #
#
# Code
RewriteEngine On RewriteCond %{HTTP_USER_AGENT} ^Spammer-Bot RewriteRule ^.*$ - [F]
297
Kapitel 11
Abbildung 11.1: Das zentrale DMOZ-Verzeichnis
Eine interessante Anlaufstelle zur Vermeidung von Content-Klau finden Sie unter http://www.bot-trap.de/. Dort wird auch ein kostenloses Skript zum Schutz vor unliebsamen Bots angeboten. Ein Besuch der Seiten lohnt sich allemal. Und wer sich wirkungsvoll gegen Content Grabber schützen will, der bekommt mit diesem Skript eine echte Hilfe zur Hand.
11.1.2
Suchbegriffe wiederholen (Keyword-Stuffing)
Werden im normalen Leben Dinge richtig, nur weil man sie oft genug wiederholt? Eher nicht. Suchmaschinen aber gehen davon aus, dass ein Begriff umso repräsentativer für den Inhalt ist, je häufiger er in einem Dokument auftaucht. Kein Wunder also, dass eine der beliebtesten Spam-Methoden darin besteht, Suchbegriffe permanent zu wiederholen. Dadurch wird versucht, den TF-Algorithmus für einen Suchbegriff künstlich zu erhöhen. Bei diesem Algorithmus (auch Algorithmus der Worthäufigkeit) geht man davon aus, dass es für den Verfasser eines Textes einfacher ist, den gleichen Begriff für den gleichen Sachverhalt immer wieder zu verwenden. Je häufiger ein Wort in einem Text vorkommt, umso größer ist dessen Relevanz für den Inhalt.
298
Spam und seine Folgen
Im einfachsten Fall würde ein Wort, das in einem Text zehnmal vorkommt, einen TF von 10 haben. Problematisch daran: Erfahrungsgemäß kommen Begriffe in längeren Texten oft häufiger vor als in kürzeren Dokumenten. Deswegen wird die Worthäufigkeit ins Verhältnis zur Dokumentlänge gesetzt. Diese relative Worthäufigkeit ist aussagekräftiger. Spammer versuchen die relative Worthäufigkeit zu optimieren, indem sie das relevante Suchwort für den Benutzer unsichtbar im Dateikopf platzieren. Klassischerweise verwendet man dabei den Dateititel oder eines der beiden Metatags description und keywords. #
Nun hat diese Sache natürlich einen entscheidenden Nachteil: Suchmaschinen wissen längst davon und haben die Bedeutung der Metatags auf ein Minimum reduziert. Aus diesem Grund, ist diese (doch recht plumpe) Variante heute nur noch auf Seiten unerfahrener Webautoren zu finden. Etwas eleganter gehen diejenigen vor, die die Schlüsselwörter in Verbindung mit den Attributen alt und title innerhalb von Grafikdefinitionen verwenden. #
Aber auch hier gilt, dass Suchmaschinen natürlich längst Mittel und Wege gefunden haben, solche Täuschungsversuche zu enttarnen. Dabei ermitteln die Suchmaschinen die Häufigkeit des Vorkommens eines Suchbegriffs in einem Dokument und vergleichen diesen Wert mit einer maximal erlaubten Worthäufigkeit. Taucht der Begriff häufiger auf, als der von der Suchmaschine festgelegte Maximalwert ist, wird die Seite als Spam eingestuft. Der genaue Wert schwankt von Suchmaschine zu Suchmaschine. Mittlerweile geht man aber davon aus, dass die Worthäufigkeit einen Wert von 8 Prozent (besser weniger) nicht überschreiten sollte. Besonders »findige« Autoren von Webseiten versuchen Suchmaschinen auszutricksen, indem sie neben den eigentlichen Begriffen Füllwörter benutzen.
299
Kapitel 11
#
#
# Code
Allerdings gibt es Methoden, auch diese Manipulationsversuche zu enttarnen. Dazu werden semantische Analyseverfahren eingesetzt. Dank dieser Verfahren kann die Suchmaschine zum Beispiel feststellen, ob in einem Text unnatürlich viele Substantive auftauchen. Solche Seiten werden dann ebenfalls als Spam eingestuft und entsprechend abgestraft.
!
!
!
ACHTUNG
Übrigens: Wer jetzt auf die Idee kommt, die von Suchmaschinen am häufigsten eingegebenen Suchwörter in geballter Form auf seine Seite zu packen und so in den Trefferlisten ganz vorne zu erscheinen, wird enttäuscht sein. Denn auf diese Idee sind schon tausend andere Webseitenbetreiber vor ihm gekommen. Eine Chance auf eine Top-Platzierung ist somit eigentlich ausgeschlossen. Als Spam werden solche Seiten von Suchmaschinen allerdings nicht eingestuft. Denn die Keyword-Dichte ist natürlich nicht das einzige Kriterium, nach dem Seiten bewertet werden. Anstatt eine Seite als Spam abzutun, tauchen so »optimierte« Seiten einfach so weit hinten in den Suchtreffern auf, dass das fast einer »Spam-Sperrung« gleichkommt.
11.1.3
Suchergebnisse manipulieren: Google Bombing
Das sogenannte Google Bombing hat auf den ersten Blick nur wenig mit Spam zu tun. Denn hier geht es um die Manipulation von Suchergebnissen durch das Setzen von Links mit einem bestimmten Text. Wie das funktioniert, zeigt ein einfaches Beispiel: Tippt man bei Google den Suchbegriff miserable failure ein, liefert die Suchmaschine Folgendes65: Die Eingabe von miserable failure (kläglicher Versager) führt auf direktem Weg zur Seite des Präsidenten der Vereinigten Staaten. Das funktioniert, weil Google viele Links mit dem Begriff miserable failure auf die Seite George W. Bushs registriert hat. (Mittlerweile wurde diese Google-Bombe übrigens aus dem Index entfernt.) Genau dieses Prinzip versuchen sich Spammer zunutze zu machen, indem sie sehr viele Links mit einer bestimmten Linkbezeichnung auf ihre Seite verweisen lassen. So wird versucht, die eigene Seite in den Trefferlisten möglichst weit oben zu platzieren.
65 Diese Google-Bombe wurde mittlerweile leider entfernt, funktionierte aber bis vor kurzer Zeit noch. Berücksichtigt wird sie in diesem Buch trotzdem, weil sie zweifellos zu den populärsten GoogleBomben gehörte.
300
Spam und seine Folgen
Abbildung 11.2: Hier ist man nicht sonderlich nett zu George W. Bush.
Google hat mittlerweile allerdings wirksame Maßnahmen getroffen, um Google-Bomben aus seinem Index zu entfernen. Dabei wird ein Verfahren eingesetzt, bei dem die Linkstruktur zwischen Webseiten auf vermutete Google-Bomben hin untersucht wird. Genauere Angaben zum Analyseverfahren sind allerdings nicht bekannt. Konkurrenten mit Google Bowling schaden Einen ähnlichen Ansatz verfolgt das noch recht unbekannte Google Bowling, über das versucht wird, Konkurrenzseiten aus dem Google-Index zu entfernen. Dabei macht man sich zunutze, dass Google mittlerweile extrem allergisch auf Versuche reagiert, über Links in Foren und Gästebüchern die Position einer Seite künstlich zu verbessern. Erkennt Google ein unnatürliches Linkwachstum, wird die Seite abgestraft und im schlimmsten Fall aus dem Index entfernt. Ein Spammer kann nun versuchen, künstlich Links auf die Konkurrenzseite zu erzeugen, um Google dazu zu veranlassen, diese Seite als Spam abzustrafen. Google schaut allerdings zweimal hin, bevor eine Seite aus dem Index entfernt wird. Ein Risiko besteht aber zweifellos. Das gilt vor allem, wenn das Google Bowling professionell betrieben wird.
11.1.4 Unsichtbare Texte (Text-Hidding) Sie wissen längst, dass man beim Betrachten einer Webseite nicht unbedingt das Gleiche sieht wie ein Webcrawler. Ein wirkungsvolles Mittel, um für Suchmaschinen bestimmte Inhalte vor dem normalen Besucher zu verbergen, sind unsichtbare Texte. Bei diesem sogenannten Text-Hidding werden Schlüsselwörter für den Besucher unsichtbar auf der Seite untergebracht.
301
Kapitel 11
Im einfachsten (dafür aber recht antiquierten) Fall wird mithilfe des -Tags die Schriftfarbe mit der Hintergrundfarbe der Seite gleichgesetzt. Ein einfaches Beispiel: #
#
# Code
[...]
normaler Text
Mich sieht man nicht
[...]
Hier wurde der Farbwert #ffffff sowohl als Hintergrund- wie auch als Schriftfarbe verwendet. Der Besucher sieht den mit dem -Tag ausgezeichneten Text also nicht.
Abbildung 11.3: Hier ist nur ein Teil der Seite sichtbar.
Solche Spam-Versuche werden allerdings von den meisten Suchmaschinen erkannt. Dazu wird überprüft, ob Vorder- und Hintergrundfarbe sich zu ähnlich oder gleich sind. Nun könnte man meinen, dass hier vielleicht ein ganz helles Grau weiterhelfen könnte. Aber auch das wird von den meisten Suchmaschinen moniert. Manche Seitenbetreiber kommen wiederum auf die Idee, anstelle von Farbmanipulationen andere Varianten einzusetzen, um den Text »verschwinden« zu lassen. Denkbar wäre es zum Beispiel den Text in sehr kleiner Schrift zu definieren. #
#
# Code
Mich sieht man (fast) nicht
302
Spam und seine Folgen
Auch ein solcher Text wird vom Besucher kaum wahrgenommen. Kombiniert man sehr kleinen Text noch mit einer dem Hintergrund ähnlichen Textfarbe, ist er fast unsichtbar. Viele Webseitenentwickler platzieren auf diese Weise ausgezeichnete Texte in schwer zugänglichen Seitenbereichen, sodass sie vom Besucher zum Beispiel oft erst durch Scrollen gesehen werden können. Eine gute Möglichkeit, sich solche Text dennoch anzeigen zu lassen, besteht auf PCSystemen in der Tastenkombination [Strg]+[A]. Hierdurch wird der gesamte Seiteninhalt markiert, und man erkennt auch vermeintlich unsichtbare Inhalte.
Abbildung 11.4: Der ursprünglich versteckte Text ist jetzt sichtbar.
Spam auf diese plumpe Weise realisieren zu wollen, ist allerdings etwas blauäugig. Denn längst haben sich Suchmaschinen auf solche Manipulationsversuche eingestellt und verwenden eine Formatierungsanalyse. Dabei werden unter anderem das Verhältnis zwischen Schrift- und Hintergrundfarbe sowie die relative Schriftgröße ermittelt. Allerdings haben Suchmaschinen einen entscheidenden Nachteil bei dieser Formatierungsanalyse. Denn bislang können die meisten Crawler ausschließlich normalen HTML-Code analysieren. Regelrecht blind sind sie hingegen, wenn es um CSS-Formatierungen geht. Und genau hier setzen Spammer mit der Manipulation ihrer Seiten an. Dazu wird auf der Seite normaler HTML-Code ohne weitere Formatierungen definiert. #
#
# Code
Normaler Text
Hier stehen ganz viele Suchbegriffe
303
Kapitel 11
Für die Suchmaschinen ist das schöner, sauberer HTML-Code, an dem es nichts auszusetzen gibt. Die Formatierungen werden ausschließlich in einer externen CSS-Datei vorgenommen. #
Durch diese Syntax wird die Überschrift unsichtbar gemacht. Ein Blick in den Browser zeigt, dass ausschließlich der normale
-Absatz angezeigt wird. Von der Überschrift hingegen ist nichts zu sehen.
Abbildung 11.5: Die Überschrift wird nicht mehr angezeigt.
Um den Suchmaschinen das Aufdecken des Spam-Versuchs so schwer wie möglich zu machen, sollte man den CSS-Code auf jeden Fall in eine externe Datei auslagern. Zusätzlich kann diese CSS-Datei dann noch mit einer entsprechenden Anweisung innerhalb der Datei robots.txt vom Indexieren ausgeschlossen werden.
304
Spam und seine Folgen
> >
>
HINWEIS
Es gibt noch zahlreiche andere Möglichkeiten, Text vor den Augen von Benutzern zu verstecken. Hier eine Auswahl: Texte lassen sich hinter Grafiken verbergen. Per JavaScript kann man Texte so konfigurieren, dass sie erst durch Auslösen eines Event-
Handlers aktiviert werden. Auch das alt-Attribut von Grafiken lässt sich zum Verstecken von Texten benutzen.
All diese Methoden funktionieren, werden aber in der Regel von den Crawlern erkannt. Die derzeit effektivste Variante ist daher immer noch das Verstecken von Texten mithilfe von CSS.
11.1.5
Versteckte Links (Hidden-Links)
Man kann nicht nur normalen Fließtext verstecken. Auch Links lassen sich hervorragend vor dem menschlichen Auge verbergen. Diese sogenannten Hidden-Links werden von Suchmaschinen wie normale Links interpretiert. Nun stellt sich natürlich die Frage, warum man Links verstecken sollte. Zunächst einmal stellen Hidden-Links eine gute Möglichkeit dar, die Linkpopularität zu manipulieren. Hidden-Links müssen übrigens keinesfalls immer leer sein. Meistens werden einzelne Zeichen als Links genutzt. Vielen Dank.
Hier ist lediglich der Punkt ein aktiver Hyperlink, der vom Benutzer kaum wahrgenommen und somit auch nicht genutzt wird. Ebenso kann man aber natürlich auch Ein-Pixel-Grafiken oder Ähnliches verwenden. Im Zusammenhang mit versteckten Links muss man übrigens nicht in jedem Fall von Spam sprechen. So gibt es durchaus Webentwickler, die ihre auf Flash basierende Navigation mit Hidden-Links für die Webcrawler aufbereiten.66
11.2 Linkfarmen Man legt 100 Domains an, zum Beispiel pommeranzer-seopard01.de bis pommeranzerseopard100.de. Nun verlinkt man diese Domains allesamt untereinander. Zusätzlich enthält jede Domain einen Link auf die »Hauptdomain« pommeranzer-seopard.de. Durch diese gegenseitige Verlinkung sollen die Seiten jeweils einen hohen PageRank erhalten, der dann auch auf die »Hauptdomain« pommeranzer-seopard.de abfärbt. Im einfachsten Fall werden solche Linkfarmen vom Spammer mithilfe von entsprechender Software automatisch generiert. Das geht denkbar schnell und führt kurzfristig durchaus zu 66 Nun ist das natürlich trotzdem Spam, dieses Mal aber ein »nachvollziehbares Betrügen«. Deswegen kann man es (aus moralischer Sicht) durchgehen lassen.
305
Kapitel 11
einem gewissen Erfolg. Allerdings lässt sich diese Spam-Variante vergleichsweise einfach erkennen. Das liegt vor allem daran, dass die Seiteninhalte automatisch generiert werden und somit dank Mustererkennungsalgorithmen aufgedeckt werden können. TIPP
Diese Probleme kann man nur umgehen, indem man die Seiteninhalte nicht automatisch generiert. Will man Linkfarm-Spamming erfolgreich betreiben, sollte man die Inhalte der Seiten, die auf die Hauptdomain verweisen, manuell erstellen. Dabei ist unbedingt darauf zu achten, dass sich die Inhalte der einzelnen Seiten auch tatsächlich voneinander unterscheiden und die Mustererkennungsalgorithmen der Suchmaschinen ins Leere laufen.
11.2.1
Brückenseiten (Doorway-Pages)
Eine der bekanntesten Methoden zur Manipulation von Suchmaschinen sind sicherlich Doorway-Pages. Diese Brückenseiten werden ausschließlich zu dem Zweck erstellt, ein bestimmtes Schlüsselwort möglichst prominent in den Ergebnislisten der Suchmaschinen zu platzieren. Brückenseiten bieten den Vorteil, dass man mit ihnen Suchmaschinen-Optimierung betreiben kann, ohne dabei die richtige Seite anpassen zu müssen. Meisten werden Doorway-Pages als Willkommen-Seiten getarnt. Der Besucher muss erst einen entsprechenden Link wie Eintreten, Willkommen usw. anklicken, um auf die eigentliche Seite zu gelangen. Ebenso kann der Benutzer aber auch unbemerkt über die Metatag-Angabe redirect oder ein JavaScript weitergeleitet werden. Um von einer Doorway-Page sprechen zu können, müssen die folgenden Kriterien erfüllt sein: Sie enthält spezielle Schlüsselwörter für die Suchmaschinen. Sie dient ausschließlich als Brückenseite zur tatsächlichen Seite. Sie leitet automatisch weiter oder wird per Frame eingebunden. Normalerweise sind Brückenseiten jeweils für ein Schlüsselwort optimiert. Wie eine solche Seite aussehen kann, zeigt folgendes Beispiel: #
#
# Code
Pommeranzer Seopard <meta name="keywords" content="Pommeranzer Seopard Leoparden Zoo Nahrung" /> <meta name="description" content="Hier erfahren Sie mehr über den Pommeranzer Seoparden" />
306
Spam und seine Folgen
Pommeranzer Seopard
Pommeranzer Seopard
POMMERANZER SEOPARD
pommeranzer seopard
Pommeranzer Seopard
Ausführliche Informationen zum Pommeranzer Seoparden finden Sie hier.
Wichtig ist es, dass die Brückenseiten so gestaltet werden, dass sie die Kriterien der Suchmaschinen für ein optimales Ranking erfüllen. Das Layout spielt dabei keine Rolle. Allerdings gehen immer mehr Spammer dazu über, die Doorway-Pages zumindest so zu gestalten, dass sie semantisch korrekt sind. So haben die Seiten heute eine korrekte HTML-Struktur und enthalten echten Inhalt. (Ob der sinnvoll ist, sei einmal dahingestellt.) Es gibt mittlerweile Tools, die Doorway-Pages zu Dutzenden/Hunderten generieren können. Diese Programme werden in vielen Agenturen eingesetzt, um so dem Kunden eine Optimierung seiner Seiten vorzugaukeln. Allerdings taugen solche Tools in der Regel nichts. Stattdessen müssen Brückenseiten von Hand erstellt und immer wieder an die neuen Anforderungen/Algorithmen der Suchmaschinen angepasst werden. Nun sind Doorway-Pages nicht aus jeder Sicht heraus abzulehnen, sondern sind in vielen Bereichen durchaus sinnvoll. Das gilt für Bildergalerien ebenso wie für Seiten, bei denen eine nachträgliche Suchmaschinen-Optimierung das Budget übersteigen würde.
!
!
!
ACHTUNG
Vor dem Einsatz von Doorway-Pages sollten Sie sich allerdings die enormen Risiken vor Augen halten. So wurden die Seiten eines Autobauers aus München im Jahr 2006 aus dem Google-Index geworfen. Die Seiten werden zwar mittlerweile wieder gelistet, dieses Mal allerdings ohne Doorway-Pages.
307
Kapitel 11
11.2.2 Inhalte verschleiern (Cloaking) Cloaking zielt auf das gleiche Ergebnis wie Doorway-Pages. Der tatsächliche Seiteninhalt soll verhüllt werden. Dabei sorgt der Seitenbetreiber dafür, dass dem Crawler eine andere Seite präsentiert wird, als sie der Besucher zu Gesicht bekommt. Dieses »Verschleiern« der tatsächlichen Inhalte ist vergleichsweise einfach möglich. Allerdings steckt auch hier der Teufel im Detail. Und vor allem besteht immer die Möglichkeit, dass das Cloaking erkannt und die Seite aus dem Index der Suchmaschinen entfernt wird. Um echte Besucher von einem Crawler unterscheiden zu können, wird auf die Kennung zurückgegriffen, die bei jedem HTTP-Request automatisch mit gesendet wird. Hier einige typische Kennungen: #
Bei dem ersten Eintrag handelt es sich um einen menschlichen Besucher, der mit dem Internet Explorer die Seiten besucht. Die zweite Zeile beschreibt ebenfalls einen Besucher aus Fleisch und Blut, dieser benutzt allerdings den Opera-Browser. Die letzte Zeile gibt an, dass es sich um den Crawler von Google handelt. Es ist übrigens ganz einfach einer Suchmaschine andere Inhalte als einem »Humanoiden« zu präsentieren. Am einfachsten funktioniert das über die CGI-Umgebungsvariable HTTP_USER_AGENT, in der der User_Agent67 des Clients gespeichert ist. Anhand des User_Agent kann man nun versuchen, dem Crawler eine für ihn optimierte Seite zu präsentieren. Die Sache hat allerdings einen Haken: Immer mehr Crawler »fälschen« ihren User_Agent und übermitteln so bei der Abfrage zum Beispiel den User_Agent eines normalen Browsers. Lösen lässt sich dieses Problem (zumindest teilweise) durch das sogenannte IP-Cloaking. Dabei wird neben dem User_Agent auch gleich noch die IP-Adresse ausgewertet. Dazu muss man eine Liste/Datenbank mit den aktuellen IPAdressen der relevanten Suchmaschinen-Robots führen. Allerdings ist auch diese Variante nicht perfekt. Denn mittlerweile verwenden immer mehr Suchmaschinen die IPAdressen ganz normaler Einwahlprovider. Die Vorteile, die man durch das Cloaking erzielen kann, stehen in keinem Verhältnis zu den möglichen Konsequenzen. Denn Suchmaschinen reagieren äußerst verschnupft auf diese Betrugsform. Sobald Cloaking auf einer Seite enttarnt wird, wird diese Seite
67 Das ist ein im HTTP-Header des Clients übertragener Name des Clients. Das kann ein Browser ebenso wie der Robot einer Suchmaschine sein.
308
Spam und seine Folgen
gesperrt. Die Chance dort wieder aufgenommen zu werden, liegt in aller Regel bei null. Als einziger Ausweg bleibt dann das erneute Anmelden der Seite, dieses Mal allerdings unter einer neuen Domain. Cloaking-Software Wer sich trotz aller Warnhinweise doch einmal am Cloaking probieren möchte, der kann die Software KLoakIT (http://kloakit.com/) verwenden. Mit diesem Tool lässt sich das beschriebene IP-Cloaking betreiben. Vorsichtig sollten Sie hingegen sein, wenn Ihnen kostenlose Cloaking-Skripte angeboten werden. Die funktionieren zwar meistens tadellos, einmal auf dem Server installiert, öffnen sie aber den Server auch noch für andere Dinge, was natürlich in erster Linie den Programmierer des Skripts erfreut. Hier heißt es: Finger weg!
11.2.3 Spam für Flash (Bait-And-Switch) Die Bait-And-Switch-Methode wird meistens auf Flash-Seiten eingesetzt, da diese vergleichsweise geringe Chancen auf eine Top-Platzierung haben. Das Prinzip ist denkbar einfach: Zunächst wird eine optimierte Seite bei den Suchmaschinen angemeldet. Nachdem die Seite indiziert und entsprechend platziert wurde, legt man unter dem gleichen URL die ursprüngliche Flash-Seite ab. Das funktioniert natürlich nur bis die Seite erneut indiziert wird. Für längerfristigen Erfolg der Seite ist diese Methode demnach ungeeignet. Will man seine (Flash-)Seite kurzfristig gut platzieren, ist ihr Einsatz aber natürlich eine Überlegung wert.
> >
>
HINWEIS
Diese Methode verliert immer mehr an Bedeutung, da Crawler die Seiten mittlerweile in immer kürzeren und vor allem nicht vorhersehbaren Intervallen besuchen.
Auch wenn es sich im eigentlichen Sinn um Spam handelt, wird diese Methode von Suchmaschinen nicht geahndet. Denn schließlich kann die Suchmaschine nicht unterscheiden, ob es sich um einen Täuschungsversuch oder eine ganz normale Aktualisierung der Seite handelt.
11.2.4 Meta-Spam Das Meta-Spamming stellt wohl die einfallsloseste aller Spam-Methoden dar. Hier wird versucht anhand der in den Metatags untergebrachten Begriffe ein besseres Ranking zu erzielen. Das »Clevere« dabei: Die eingegebenen Begriffe stimmen nicht mit den tatsächlichen Seiteninhalten überein. Ein typisches Beispiel für Meta-Spam könnte etwa folgendermaßen aussehen:
309
Kapitel 11
#
#
# Code
<meta name="keywords" content="Pommeranzer Seopard Sex Porno" />
Auf der angegebenen Seite geht es um den Pommeranzer Seoparden. Diese Schlüsselwörter sind also völlig korrekt. Um nun auch Besucher auf die Seite zu locken, die nach Sex oder Porno suchen, wurde die Schlüsselwörterliste dahingehend erweitert. So wird versucht auch solche Besucher auf die Seite zu ziehen, denen zwar der Pommeranzer Seopard, nicht aber die Wörter Sex und Porno unbekannt sind.
!
!
!
ACHTUNG
Nun hat diese Sache mehrere Haken: Man ist natürlich nicht der Einzige, der auf diese Methode setzt. Anhand von Meta-Spam gute Platzierungen zu erreichen, ist somit eigentlich ausgeschlossen. Erschwerend kommt zudem hinzu, dass Suchmaschinen Metatags – wenn überhaupt – nur noch minimal in die Bewertung der Seite einfließen lassen. Größere Erfolge erzielt man durch die Optimierung der für die eigenen Seiten tatsächlich relevanten Suchbegriffe.
11.2.5 Domain-Spielereien Viele Seitenbetreiber haben sich für das gleiche Projekt mehrere Domains gesichert. So könnte man für die Seite des Pommeranzer Seoparden zum Beispiel neben http://www.pommeranzer-seopard.de/
zusätzlich die Domain http://www.pommeranzerseopard.de/
registrieren. Meistens werden hinter den unterschiedlichen Domains allerdings identische Inhalte abgelegt. Was die wenigsten Seitenbetreiber wissen: Suchmaschinen mögen diese sogenannten Spiegelseiten (Mirror-Pages) nicht. Das hat den einfach Grund, dass zum Beispiel Google nur zwei Ergebnisse von einer Domain anzeigt, und das selbst dann, wenn noch andere Dokumente von der Domain für die Suchabfrage relevant wären. Durch Spiegelseiten versuchen Seitenbetreiber diese Einschränkung zu umgehen und so öfter in den Trefferlisten aufzutauchen. Eine Domain für die gleiche Seite Beachten Sie, dass das hier beschriebene Phänomen ausschließlich auf zwei oder mehrere voneinander unabhängige Projekte zutrifft. Anders sieht es aus, wenn man mehrere Domains registriert, mit denen man auf die gleiche Seite verweist. Viele Suchmaschinen erlauben mittlerweile solche Mehr-Domains als Alias-Domains.
310
Spam und seine Folgen
Abbildung 11.6: Auch von großen Domains wie heise.de werden nur zwei Seiten angezeigt.
Genau genommen handelt es sich hierbei nicht um Spam. Und genau deswegen reagieren Suchmaschinen auch bei der Entdeckung solcher Spiegelseiten nicht sehr streng. Normalerweise wird bei Entdeckung einer Domain-Dublette nur eine Version behalten, während die andere aus dem Index entfernt wird. Das Erkennen einer Domain-Dublette ist für Suchmaschinen übrigens gar nicht so schwer. Dazu muss lediglich die Checksumme zweier Dokumente verglichen werden. Ist die bei zwei Dokumenten identisch, weiß die Suchmaschine, dass es sich um eine Domain-Dublette handelt. Nun lässt sich die Checksumme eines Dokuments natürlich relativ einfach abändern. Dazu passt man lediglich ein Zeichen an (aus einem Punkt wird zum Beispiel ein Ausrufezeichen). Das wissen natürlich auch die Suchmaschinen und wenden die Prüfung der Checksumme daher auf einzelne Seitenbereiche an. So werden beispielsweise Seitentitel und Metatags, aber auch einzelne Textpassagen überprüft und zwischen den einzelnen Dokumenten verglichen. Wollen Sie mehrere Domains verwenden, müssen Sie dafür sorgen, dass die Checksummen-Prüfung nicht greifen kann. Um auf Nummer sicher zu gehen, sollten Sie zwischen den einzelnen Projekten die folgenden Anpassungen vornehmen: Passen Sie die Verzeichnisstruktur an. Das ist zwar aufwendig, dafür aber ein äußerst probates Mittel. Die Dateinamen sollten ebenfalls variieren. Titel und Metatags müssen angepasst werden.
311
Kapitel 11
Achten Sie darauf, dass sich die Seiteninhalte unterscheiden. Hier genügen meistens kleinere Anpassungen. Normalerweise reicht es, wenn Sie zum Beispiel Texte in eine leicht veränderte Reihenfolge bringen oder ein bis zwei zusätzliche Textzeilen einfügen. Mittlerweile werden immer öfter die IP-Adressen der Domains zur Erkennung von Domain-Dubletten herangezogen. Sie sollten daher dafür sorgen, dass die Projekte auf unterschiedlichen Servern gehostet sind.
11.2.6 Page-Jacking Zugegeben, das Page-Jacking ist im eigentlichen Sinn keine Spam-Methode. Vielmehr handelt es sich um ein Verfahren, sich ungeliebter Konkurrenzseiten zu entledigen. Dabei ist das Page-Jacking nicht eine bestimmte Maßnahme, sondern fasst verschiedene illegale Methoden unter einem Oberbegriff zusammen. Klassischerweise wird einer gut frequentierten Seite mithilfe von JavaScript ein Redirect eingepflanzt. Dadurch werden die Besucher der Originalseiten auf die Seite des Angreifers weitergeleitet. Der Aufwand für den Angreifer ist äußerst gering, da das Skript aus wenigen Zeilen Code besteht. Der angerichtete Schaden ist aber immens, da sich Besucher der Seite möglicherweise getäuscht sehen und die Originalseite nicht mehr besuchen. Erschwerend kommt hinzu, dass die »Seitenentführer« in aller Regel dafür sorgen, dass man die Seite nicht mehr allzu schnell verlassen kann.
11.2.7 Gästebuch-Spam Auch wenn die Methode längst veraltet ist und kaum noch Wirkung zeigt, soll auch das Gästebuch-Spamming kurz vorgestellt werden. Bei dieser Spam-Methode trägt man Grüße oder Ähnliches unter Angabe der URL seiner Seite in die Gästebücher anderer Seitenbetreiber ein. Auf diese Weise erhält man Links auf seine eigene Seite, was zu einer erhöhten Linkpopularität führen soll. Mittlerweile gibt es sogar spezielle Software, die den automatisierten Eintrag in zahllose Gästebücher ermöglicht. So schön das aus Spammer-Sicht klingen mag: Links aus Gästebüchern werden von den Suchmaschinen nicht mehr gewertet. Allerdings hat sich diese Tatsache noch nicht überall herumgesprochen, sodass es immer noch Seitenbetreiber gibt, die weiter eifrig spammen. Um auch denen die letzte Illusion zu nehmen, können Sie Suchmaschinen explizit anweisen, zwar das Gästebuch zu indexieren, die in ihm stehenden Links aber nicht weiterzuverfolgen. Dazu brauchen Sie lediglich das folgende Metatag in den Bereich Ihrer Seite einzufügen:
312
Spam und seine Folgen
#
#
# Code
<meta name="robots" content="index, nofollow" />
Wie bereits beschrieben, ignorieren die meisten Suchmaschinen Gästebuch-Links aber ohnehin.
11.2.8 Links auf fremden Seiten verstecken (Site-Hacking) Immer mehr in Mode kommt das Site-Hacking. Dabei verschafft man sich Zugang zu einem Server beziehungsweise zu einem Redaktionssystem mit dem die Seite gestaltet wird und setzt dort unauffällig Links auf die eigene Seite. Besonders im Bereich der CM-Systeme gibt es genügend Schwachstellen, die Angreifern das Leben leicht machen. Normalerweise werden die Links so geschickt untergebracht, dass sie meist jahrelang unbemerkt auf der Seite bleiben. Sollten sie dann doch entdeckt werden, lässt sich fast nie nachvollziehen, wer sie wann integriert hat. Für den Angreifer/Spammer ist diese Methode sowohl sicher als auch effektiv. Hiergegen hilft nur das Absichern des eigenen Systems durch regelmäßige Aktualisierungen der Software und Kontrollen der Seite. Besonders beliebt sind bei dieser Variante übrigens Seiten gemeinnütziger Organisationen und Institutionen. Denn wer vermutet dort schon einen Angriff?
11.3 Zugriffe künstlich generieren (Log-Spam) Eine besonders »elegante« Variante ist der Log-Spam. Dabei tarnt sich ein Spider als eine zu pushende Seite und generiert künstlich Zugriffe auf Seiten mit einem guten Ranking. Hierdurch gelangt der Link in die Web-Statistik. Da diese Statistiken von Suchmaschinen standardmäßig eingelesen werden68 (das wissen übrigens nur die wenigsten), taucht die Spammer-Seite dann in der Statistik als Link auf. Für den Spammer bedeutet diese Variante allerdings einen enormen Aufwand. Denn um in den Statistiken von wichtigen Seiten aufzutauchen, muss man bereits sehr viel Traffic generieren.
68 Mittlerweile ist davon auszugehen, dass Google Statistiken nicht mehr auswertet, wenn sie als solche erkannt werden.
313
Kapitel 11
Sie selbst sollten Ihre Seiten auf diesen sogenannten Referrer-Spam hin untersuchen. Einige typische Anzeichen für Referrer-Attacken sind: Der Server ist nicht erreichbar, reagiert aber auf ping-Anfragen. Die Traffic-Rechnung des Providers übersteigt den üblichen Rahmen. Ein SSH-Connect dauert sehr lange. Als Webseitenbetreiber ist man solchen Machenschaften übrigens nicht schutzlos ausgesetzt. Die einfachste Möglichkeit ist der Einsatz des rel=»nofollow«-Attributes. Das sorgt dafür, dass solche Links nicht für die Bewertung des PageRanks herangezogen werden. Allerdings geht man mittlerweile davon aus, dass diese Methode keinen effektiven Schutz mehr darstellt. Effektiver ist der Einsatz von .htaccess-Dateien. So wird durch folgende Syntax erreicht, dass beim Auftauchen der beiden als Bad-Word definierten Begriffe versicherung und makler im Referrer der Status 403 Forbidden gesendet wird. #
Diese Variante funktioniert recht zuverlässig, hat allerdings den Nachteil, dass die Bad-Word-Liste manuell gepflegt werden muss.
11.4 Diese Tools helfen beim Spammen Vielleicht wollen Sie sehen, wie professionelle Spammer arbeiten. In diesem Abschnitt lernen Sie einige interessante Tools kennen, die von Spammern gerne genutzt werden. Ebenso sind aber auch Tools dabei, die bei SEO-Interessierten im Einsatz sind, um ihre Seiten auf ganz legale Weise zu optimieren.
!
!
!
ACHTUNG
Vor dem Einsatz der hier gezeigten Software sollten Sie immer auch das Risiko bedenken, dass Ihre Seiten dadurch unter Umständen aus den Indizes verschiedener Suchmaschinen entfernt werden.
Dieses Tool ermöglicht, den Quellcode einer Webseite so zu sehen, wie er zum Beispiel vom Googlebot gesehen wird. Der User_Agent lässt sich dabei beliebig einstellen.
Über ein einfaches Online-Formular können Sie beliebige Webseiten auf Cloaking hin untersuchen.
Fantomas
http://fantomaster.com/
Auf dieser Seite gibt es zahlreiche SEOTools. Hier gilt die Warnung aber ganz besonders, dass der Einsatz der angebotenen Software wohlüberlegt sein will.
CheckLinks
http://www.kso.co.uk/cgi-bin/ checklinks.cgi
CheckLinks überprüft die auf einer Webseite befindlichen Links und zeigt, welche Links von Suchmaschinen gefunden werden.
AntiHijacker
http://www.antihijacker.com/
Der AntiHijacker enttarnt sogenannte URLHijacker-Links und verhindert so, dass Ihre Seiten aufgrund eines URL-Hijackings nicht mehr in den Suchmaschinen gelistet werden.
Über dieses Tool können Sie ganz einfach die Position Ihrer Seite in den internationalen Trefferlisten von Google ermitteln.
Tabelle 11.1: Interessante SEO-Tools im Überblick
11.5 Hier können Sie Spammer melden Es wurde bereits mehrfach darauf hingewiesen, dass Suchmaschinen Spam überhaupt nicht mögen. Wird ein Betrugsversuch erkannt, werden die Seiten in aller Regel zunächst abgemahnt, dann aber blitzschnell aus dem Index entfernt. Aber nicht nur den Suchmaschinen stoßen Spam-Seiten übel auf. Auch seriöse Seitenbetreiber reagieren zunehmend verschnupft auf Spam-Methoden. Denn schließlich wird ihr Ranking durch Spammer verschlechtert, was sich zum Beispiel bei Betreibern von Online-Shops direkt auf den Umsatz auswirkt. Als Seitenbetreiber ist man diesen Machenschaften nicht völlig hilflos ausgesetzt. Denn fast alle Suchmaschinen ermöglichen das manuelle Melden von Webseiten, die Spam-Techniken einsetzen.
315
Kapitel 11
Abbildung 11.7: Auf dieser Seite können Sie Google Spam-Seiten melden.
Wenn Sie einen Spammer enttarnt haben, können Sie ihn beziehungsweise dessen Seite bei den folgenden Adressen melden: Google – http://www.google.de/webmasters/spamreport.html Yahoo! – http://add.yahoo.com/fast/help/de/help/cgi_bug MetaGer – [email protected]?subject=MetaGer-Ranking Abacho – http://www.abacho.de/kontakt/kontakt.html?ctg=lobundtadel Web.de – http://hilfe.web.de/eintragsservice2/Kontakt/ Fireball – [email protected] Wunderdinge sollten Sie sich davon allerdings nicht versprechen. Denn die Suchmaschinen reagieren nur in extremen Fällen. Kleinere »Schummeleien« lässt man oft durchgehen. Einen Vorteil hat das Melden aber auf jeden Fall: Die Suchmaschinen-Entwickler verwenden die auf den gemeldeten Seiten eingesetzten Spam-Methoden, um ihre Algorithmen zur Spam-Erkennung zu verbessern. Nutzlos ist das »Anzeigen« von Spammern also nicht.
316
Spam und seine Folgen
11.6 Einmal gesperrt (nicht) immer gesperrt Wer unlautere Methoden verwendet, um an möglichst prominenter Position gelistet zu werden, der fliegt möglicherweise schneller aus den Indizes der Suchmaschinen, als er ahnt. Wer Glück hat, bekommt eine entsprechende E-Mail zugeschickt, in der er über den Rauswurf informiert wird. Hier eine entsprechende E-Mail von Google: Dear site owner or webmaster of [url], While we were indexing your webpages, we detected that some of your pages were using techniques that were outside our quality guidelines, which can be found here: [link] In order to preserve the quality of our search engine, we have temporarily removed some webpages from our search results. Currently pages from [url removed] are scheduled to be removed for at least 30 days. Specifically, we detected the following practices on your webpages: On [url], we noticed that pages such as [url] redirect to pages such as [url] using JavaScript redirects. We would prefer to have your pages in Google’s index. If you wish to be reincluded, please correct or remove all pages that are outside our quality guidelines. When you are ready, please submit a reinclusion request at [link] You can select »I’m a webmaster inquiring about my website« and then »Why my site disappeared from the search results or dropped in ranking,« click Continue, and then make sure to type »Reinclusion Request« in the Subject: line of the resulting form. Sincerely, Google Search Quality Team
Ist man erst einmal aus dem Index raus, gilt es natürlich, sich so schnell wie möglich um eine Wiederaufnahme zu bemühen. Dazu muss man zunächst seine Seiten so anpassen, dass sie den Richtlinien der Suchmaschine tatsächlich entsprechen. Im nächsten Schritt kann man dann einen Wiederaufnahme-Antrag stellen. Hier die wichtigsten Adressen, bei denen man die erneute Aufnahme seiner Seite beantragen kann:
317
Kapitel 11
Google – Das entsprechende Formular finden Sie unter http://www.google.com/ support/bin/request.py. Yahoo! – Senden Sie eine E-Mail an [email protected] oder verwenden Sie das Formular unter http://add.yahoo.com/fast/help/us/ysearch/ cgi_feedback. Eine Garantie ist ein solcher Antrag aber keinesfalls. Denn die Suchmaschinen-Betreiber behalten sich das Recht vor, Seiten auch dauerhaft aus ihrem Index zu entfernen.
318
12 Ein Blick in die Zukunft Das Merkwürdige an der Zukunft ist wohl die Vorstellung, dass man unsere Zeit einmal die gute alte Zeit nennen wird.
Ernest Hemingway, US-amerikanischer Schriftsteller
Am Ende dieses Buches wird ein Blick in die viel zitierte Kristallkugel gewagt. Denn natürlich kann eine aktuelle Betrachtung des Suchmaschinen-Marktes nur eine Momentaufnahme mit begrenzter Haltbarkeit sein. Viele Aspekte dieses Buches werden sicherlich auch noch in einiger Zeit gültig sein. Andere verlieren an Bedeutung. In diesem Kapitel werden mögliche neue Entwicklungen des SEO-Marktes betrachtet.
12.1 Die personalisierte Suche Eines der wichtigsten Schlagworte für den Suchmaschinen-Markt der Zukunft ist sicherlich die Personalisierung. Denn Menschen haben bekanntermaßen ganz unterschiedliche Vorstellungen, welche Suchergebnisse ihnen angezeigt und wie die Trefferlisten präsentiert werden sollen. Bei einer personalisierten Suche könnte das Such- und Klickverhalten des Nutzers beobachtet und gespeichert werden. Auf diese Weise entsteht ein Nutzerprofil, das bei zukünftigen Suchen für die Eingrenzung der Suchtreffer mit herangezogen werden kann.
Kapitel 12
> >
>
HINWEIS
Die großen Suchdienste arbeiten bereits fieberhaft an Konzepten, um die personalisierte Suche populär zu machen. Am schwierigsten stellt sich für die Suchmaschinen-Industrie dabei das Problem dar, die User davon zu überzeugen, dass sie ihre persönlichen Daten zur Verfügung stellen. Viele Anwender machen das allerdings bereits in Form von Adressbüchern, E-Mail-Accounts und Shopping-Profilen. Die so gesammelten Daten werden dann übrigens nicht nur für die personalisierte Suche verwendet, sie kommen auch im Bereich der Online-Werbung zum Einsatz. Denn auch die soll zukünftig noch mehr auf die Interessen der User abgestimmt werden.
Um sich einen Eindruck davon zu verschaffen, wie eine personalisierte Suche aussehen könnte, muss man übrigens nicht die berühmte Kristallkugel bemühen. Bereits heute gibt es erste Anwendungen, bei denen eine Personalisierung stattfindet. Prominentestes Beispiel dürfte sicherlich wieder einmal Google sein. Zu finden ist die personalisierte Google-Suche unter http://www.google.com/searchhistory/. Um diesen Service nutzen zu können, müssen Sie über ein entsprechendes GMail-Konto verfügen.69 Haben Sie sich auf der Webseite angemeldet, werden die von Ihnen durchgeführten Suchvorgänge gespeichert und nach Datum und Uhrzeit sortiert. Klicken Sie in den Suchergebnissen auf einen Link, werden diese Seiten inklusive Titel, URL und Uhrzeit ebenfalls gespeichert.
Abbildung 12.1: Die personalisierte Suche von Google
69 Wenn Sie AdWords oder AdSense nutzen, können Sie sich mit der dort registrierten E-Mail-Adresse anmelden.
320
Ein Blick in die Zukunft
Über den Kalenderblock im rechten Fensterbereich kann man sich ganz bequem durch die eigene Suchhistorie klicken. Zusätzlich existiert eine Automatikfunktion, durch die versucht wird, die Suchbegriffe und Ergebnisse zu clustern. Allerdings müssen dazu erst einmal einige Abfragen gespeichert worden sein. Möchte man einen abgegebenen Suchbegriff nachträglich aus der Historie entfernen, kann man das problemlos über den Punkt Elemente entfernen tun. Und auch wenn man einmal nicht will, dass das Suchprotokoll die Suchanfragen mitschneidet, gibt es eine entsprechende Option. Dazu muss man nur auf Pausieren klicken. Will man anschließend wieder mit der Protokollierung fortfahren, gelingt das über den Link Fortsetzen. Google zeigt mit dem Suchprotokoll ansatzweise, in welche Richtung sich die personalisierte Suche entwickeln könnte. Noch einen Schritt weiter geht Google mit der Desktopsuche, mit der man nicht nur die Daten im Web, sondern auch den lokalen Rechner durchsuchen kann. Heruntergeladen werden kann die Software unter http://desktop. google.de/de/. Kleiner Wermutstropfen: derzeit ist die Desktopsuche ausschließlich für Windows Vista, Windows XP oder Windows 2000 SP 3+ verfügbar. Macintosh- und Linux-Anwender bleiben außen vor. Außerdem werden momentan fast ausschließlich Microsoft-Formate durchsucht. Dazu zählen zum Beispiel E-Mails aus Outlook und Outlook Express sowie Dateien des Office-Pakets wie Word, Excel und PowerPoint. Darüber hinaus können aber auch Textdateien, der Browser-Cache und Chats aus dem AOL Instant Messenger durchsucht werden. Sicherlich wird Google hier in Zukunft nachlegen und weitere Formate implementieren. Nach erfolgreicher Installation müssen Sie den durchaus langwierigen Indexierungsprozess in Gang setzen. Dabei werden alle Dateien, die später durchsuchbar sein sollen, eingelesen. Je nach vorhandener Datenmenge, kann es sich längere Zeit hinziehen. Sind die Daten allerdings erst einmal indexiert, geht die Suche anschließend umso schneller. Wer als Desktopsuche nur die in früheren Windows-Versionen integrierte Standardsuche kennt, wird von der Geschwindigkeit überrascht sein. Gesucht wird über die bekannte Google-Maske im eingestellten Standard-Browser. Geben Sie in das Eingabefeld den gewünschten Suchbegriff ein und klicken Sie entweder auf Desktop-Suche oder auf Internet durchsuchen. Nun ist Google längst nicht der einzige Anbieter, der auf den Zug der personalisierten Suchtechnologien aufspringen will. Zu Beginn dieses Buches wurde bereits die personalisierte Suche von Yahoo! vorgestellt.
12.2 Soziale Suche (Social Search) Immer wichtiger scheint die soziale Suche zu werden. Denn während klassische Suchmaschinen auf schnöden Algorithmen basieren, die vom Laien kaum nachvollzogen werden können, scheinen sich Suchende immer öfter nach menschelnden Sucherleb-
321
Kapitel 12
nissen zu sehnen. Wie wichtig der menschliche Faktor bei der Suche ist, wird deutlich, wenn man sich spezielle Suchanfragen vor Augen führt. Sucht man in Google nach dem Stichwort Sushi, werden sage und schreibe stolze 34.300.000 Treffer angezeigt. Das klingt mächtig viel und ist es auch. Oftmals möchte ein Suchender allerdings einfach nur wissen, was denn das beste Sushi-Lokal in Berlin ist. Hier helfen dann herkömmliche Suchmaschinen nur bedingt weiter. Um sich solch eine Frage beantworten zu lassen, wenden sich immer mehr Anwender dem Social Search zu. Die soziale Suche soll dabei helfen, eines der großen Probleme klassischer Suchmaschinen zu beheben. Denn gibt man bei einer Suchmaschine einen Suchbegriff ein, bekommt man das gleiche Ergebnis wie ein anderer Benutzer. Allerdings liegen die persönlichen Erwartungen an die Suchergebnisse zwischen den einzelnen Benutzern meistens weit auseinander. Durch die soziale Suche soll jeder Anwender die für ihn optimierten Antworten bekommen. Einer der ersten Versuche, Social Search zu etablieren, wurde von Google bereits im Jahr 2002 gestartet. Zu einer Zeit also, in der Techniken wie RSS und Bookmarking unbekannt und noch keine Rede vom Web 2.0 war. Google Answers war eine Plattform, bei der User Fragen stellten und für deren Beantwortung einen bestimmten Preis auslobten. Das Prinzip klingt durchaus interessant, trotzdem schaffte es Google Answers nie, aus dem Experimentierstatus herauszukommen, und wurde Ende 2006 eingestellt. Die bis zur Schließung eingegangenen Frage-Antwort-Threads können aber nach wie vor unter http://answers.google.com/ eingesehen werden.
Abbildung 12.2: Google Answers wurde mittlerweile eingestellt.
322
Ein Blick in die Zukunft
Die Google-Verantwortlichen gaben als einen der möglichen Gründe für das Scheitern an, dass Google Answers – anders als andere Google-Dienste – kostenpflichtig gewesen ist. Nun wäre Google aber nicht Google, wenn man nicht schon längst wieder an neuen Konzepten arbeiten würde. So steht mit der Custom Search Engine ein Produkt zur Verfügung, mit dem sich jeder seine eigene Suchmaschine ganz nach seinen individuellen Vorstellungen kreieren kann. Einer der prominentesten Vertreter der Social Search ist sicherlich Yahoo! mit seinem Portal Yahoo! Clever. Die unter http://de.answers.yahoo.com/ zur Verfügung stehende Suche ist einer der ersten kommerziellen Versuche, die soziale Suche auch in Deutschland zu manifestieren. Bei Yahoo! Clever kann man Fragen stellen, auf die andere Benutzer per E-Mail oder direkt online antworten.
Abbildung 12.3: Fragen werden von anderen Usern beantwortet.
Nach Jahren sinkender Besucherzahlen verhilft die Social Search nun aber auch Lycos dazu, wieder an Boden zu gewinnen. Lycos IQ ist Wissenscommunity und Plattform für Meinungs- und Sinnfragen in einem. User können bei Lycos IQ beliebige Fragen stellen, auf die andere Benutzer antworten. Die Antworten werden vom Fragesteller bewertet. Ein Punktesystem belohnt den »Experten«, der auf die Frage antwortet. Wobei unter einem Experten ein angemeldeter User verstanden wird. Die können sich in der Expertenhierarchie vom Studenten bis zu Einstein hocharbeiten. Ergebnisse aus Lycos IQ werden auch in die klassische Lycos-Volltextsuche übernommen. Ein Interview mit Thomas Dominikowski, Product Director Search Lycos Europe, zu Lycos IQ finden Sie unter http://www.lycos-europe.com/Index-Deu/G-German-Files/InterviewDominikowski-iQ.html.
323
Kapitel 12
12.2.1 Kritik an der sozialen Suche Das Konzept der sozialen Suche klingt äußerst interessant und ist es auch. Allerdings hat es mehrere Nachteile. Größtes Problem ist zweifellos die Qualität der Antworten. Hat man Glück, bekommt man auf eine Frage durchaus richtige und kompetente Antworten. Sehr oft sind die Antworten allerdings nicht besonders hilfreich oder schlichtweg falsch. Ein schönes Beispiel für die unterschiedliche Qualität von Antworten ist folgende Frage: Gibt es eine Möglichkeit völlig gelöschte doc-Dateien wiederherzustellen?
Eine ganz normale Frage, die verständlich formuliert und auf den Punkt gebracht ist. Umso unverständlicher daher eine der bei Yahoo! Clever abgegebenen Antworten: du koenntest mal schauen ob sie noch in deinem (virtuellen) Muelleimer liegen.. das Symbol ist meistens auf dem Desktop, hier werden geloeschte Dateinen abgelegt....von dort aus einfach markieren, Datei wiederherstellen fertig, du findest sie im Ursprungsordner viel glueck.
Auch wenn man die katastrophale Rechtschreibung einmal außen vor lässt, ist diese Antwort auch noch inhaltlich unsinnig. Denn schließlich hat der Fragesteller explizit danach gefragt, wie er völlig gelöschte DOC-Dateien wiederherstellen könne. Entweder hat sich der antwortende »Experte« die Frage nicht richtig durchgelesen oder er weiß es schlichtweg nicht besser. In beiden Fällen kann man sich dann natürlich die Frage stellen, was ihn dann dazu veranlasst hat, die Frage zu beantworten.70 Auch für eine Moderation muss gesorgt werden, da ansonsten möglicherweise auch illegale Inhalte veröffentlicht werden. Allerdings kommen Moderatoren oft sehr/zu spät und löschen dann mitunter ganz normale Antworten, was dann bereits wieder eindeutig in Richtung Zensur geht. Hier müssen neue Konzepte zur Kontrolle bzw. Selbstkontrolle entwickelt werden.
12.3 Verzeichnisbasierte Suchmaschinen Derzeit setzen die meisten Suchmaschinen noch auf das Open Directory Project (http:// www.dmoz.org/). Allerdings macht sich immer mehr bemerkbar, dass dieses Verzeichnis langsam aber sicher an seine Grenzen stößt. Führt man sich die enorme Anzahl von über 5 Millionen Einträgen in über 700.000 Kategorien vor Augen, verwundert das freilich nicht. Mittlerweile wird immer öfter die mangelnde Aktualität und der hohe Anteil toter Links kritisiert.
70 Es gab auf die Frage übrigens auch richtige Antworten. Die vom Fragesteller als beste gekennzeichnete lautet: „Ja, wenn du glück hast und das Betriebssystem den Datenbereich noch nicht überschrieben hat iss alles noch da. Such mal nach "undelete" im Netz, da gibt es unzählige Tools welche solche Dateien wiederherstellen können.“
324
Ein Blick in die Zukunft
Abbildung 12.4: DMOZ ist das bedeutendste Verzeichnis.
Diese Kritikpunkte werden dazu beitragen, dass das Open Directory Project immer mehr an Bedeutung verlieren wird. An die Stelle solcher unübersichtlichen, schlecht zu handhabenden Verzeichnisse könnten in Zukunft neue Verzeichnisvarianten treten. Denkbar wäre es zum Beispiel, dass Suchmaschinen eigene Verzeichnisse aufbauen und dort nur Webseiten gegen Bezahlung aufnehmen. Gleichzeitig könnten die Unternehmen, deren Einträge aufgenommen werden sollen, dazu verpflichtet werden, diese einmal pro Monat zu kontrollieren und gegebenenfalls zu aktualisieren. So könnte der Datenbestand aktuell gehalten und tote Links vermieden werden. Ob Suchmaschinen eine solche Möglichkeit in Betracht ziehen werden und wie die Seitenbetreiber darauf reagieren werden, darüber lässt sich derzeit allerdings nur spekulieren. Allerdings hätte diese Variante des Suchmaschinen-Eintrags für Unternehmen den Vorteil, dass sie so garantiert an guter Position gelistet werden, ohne dass sie sich erst »ewig« in das Thema Suchmaschinen-Optimierung einarbeiten müssten.
325
Kapitel 12
12.4 Branchen-Portale Totgesagte leben bekanntlich länger. Und so wird es in Zukunft aller Wahrscheinlichkeit nach auch einen Boom der Branchen-Portale geben. Denn in denen steckt ungenutztes Potenzial. Das Ziel (fast) aller Seitenbetreiber ist es, ihre Webseite in den Top Ten der Ergebnislisten zu platzieren. Führt man sich jedoch vor Augen, dass es Milliarden von Webseiten gibt, erkennt man schnell, dass das nicht immer gelingen kann. Was also liegt näher, als solche Webseiten zu nutzen, die bereits eine Top-Platzierung in den Trefferlisten haben? Wirft man einen Blick auf die ersten Treffer in den Ergebnislisten, tauchen dort immer öfter Branchen-Portale auf. Diese bieten viel Inhalt und sind zudem/deswegen innerhalb einer Branche optimal verlinkt. Und eben die beiden Aspekte, Verlinkung und Inhalt, sind einer der Garanten für eine gute Platzierung in den Suchmaschinen. Für Webseitenbetreiber bieten solche Portale enorme Chancen. Denn wenn man es als Seitenbetreiber nicht schafft, seine Seite in die Top Ten der Suchergebnisse zu bringen, kann man doch ganz einfach Webseiten nutzen, die das bereits geschafft haben. Melden Sie Ihre Seiten in entsprechenden Portalen an. Wer es sich leisten kann, sollte dort zusätzlich Werbung buchen und so die Bekanntheit seiner Seite noch weiter steigern. Allerdings sollten Sie darauf achten, dass es sich um ein seriös betriebenes Portal handelt, bei dem der Eintrag Ihrer Seite für Sie auch tatsächlich einen Mehrwert bringt. So sollte ein Portal zumindest die folgenden Funktionen bieten: Eine eigene Branchensuchmaschine Aktuelle Rankings, Analysen und Umsätze aus der Branche Job-Plattform Datenbanken zur Recherche Möglichkeiten, dass Experten ihr Wissen auf der Plattform publizieren können Glossar und Lexikon Derzeit gibt es leider immer noch Vorbehalte gegen Branchen-Portale. Hauptargument der Portal-Gegner ist dabei, dass sie nicht mit Konkurrenzseiten zusammen in einem Portal gelistet sein wollen. Allerdings macht sich langsam die Einsicht breit, dass die Content-Allianzen auf Branchen-Portalen tatsächlich zu einer Win-Win-Situation führen können und somit alle etwas davon haben.
326
Ein Blick in die Zukunft
12.5 Pay-per-Click-Betrug Ein Thema, das in Zukunft die Gemüter der SEO-Experten bewegen wird, ist der Payper-Click-Betrug.71 Denn Online-Werbung wird fast ausschließlich nach ihrem Erfolg bezahlt. Bis vor wenigen Jahren war es noch üblich, die Werbegelder nach Tausenderkontakten zu bezahlen. Besonders reizvoll und ergiebig war das allerdings nicht. Denn die Werbekunden wollen zu Recht handfeste Beweise, dass ihre Anzeigen auch tatsächlich beim Endverbraucher ankommen. Und auch, wenn der PPC-Betrug in diesem Buch im Zukunfts-Kapitel auftaucht, hat er bereits eine vergleichsweise lange Tradition. Begonnen hat alles im Jahr 2004 in Indien, wo sich zahlreiche Werbebanner-Klicker ein wenig Geld dazuverdient haben (http:// www.netzeitung.de/internet/285388.html). Es ist übrigens alles andere als kompliziert, selbst zum PPC-Betrüger zu werden. Denn neben der Standardausrüstung (PC und DSL-Anschluss) benötigt man als angehender Betrüger lediglich Klickbetrugs-Software und eine Liste mit offenen Proxy-Servern. Als Software kommt zum Beispiel das 25 Euro teure Programm WebClicker (http:// www.headstrong.de/software-webclicker.shtml) infrage. Dessen Entwickler weisen zwar ausdrücklich darauf hin, dass man das Tool ausschließlich für Servertests verwenden sollte, es eignet sich aber auch für »Gaunereien«. Im Monatsabo bekommt man praktischerweise auch gleich noch eine Proxy-Liste von http://www.atomintersoft.com/ angeboten, was zum Beispiel für 2.500 Proxys 25 US-Dollar ergibt. Nach der Installation, durch die wie üblich ein Assistent führt, können Klicks problemlos generiert werden. Bevor Sie sich nun aber ins Getümmel des Klickbetrugs begeben, lesen Sie im nächsten Abschnitt, wie Suchmaschinen-Betreiber darauf reagieren und welche Konsequenzen drohen.
12.5.1 Betrug erkennen Die Suchmaschinen-Betreiber ergeben sich natürlich nicht kampflos etwaigen Betrugsversuchen, sondern gehen rigoros dagegen vor. Dabei hat man es im besten Fall mit wenig cleveren Betrügern zu tun. Das sind solche Zeitgenossen, deren Betrügerei schlicht und ergreifend darin besteht, einfach immer mal wieder auf ein Banner zu klicken. Diesen Leuten kann man ganz einfach das Handwerk legen, indem man auf ihren Computern jedes Mal ein Cookie speichert, wenn sie auf das Banner klicken. Erfolgen die Klicks in zu kurzen Intervallen, wird der Besucher gespeichert und seine Klicks werden nicht gewertet. Nun sind Cookies natürlich nicht unumstritten, weswegen sie von immer mehr Anwendern im Browser gesperrt werden.
71 Genau genommen ist PPC-Betrug bereits heute ein Thema, das aber aller Voraussicht nach noch weiter an Bedeutung gewinnen wird.
327
Kapitel 12
Abbildung 12.5: So haben Cookies keine Chance.
Allerdings stellt auch das kein probates Mittel dar, um ungestört Klickbetrug betreiben zu können. Denn in den meisten Fällen werden parallel dazu User Agent und IPAdresse des Besuchers protokolliert. Anhand dieser Informationen lassen sich unliebsame Besucher ebenfalls blocken. Nun gehen natürlich nicht alle Klickbetrüger so primitiv vor und lassen sich so einfach erwischen. Hier muss man schon etwas subtiler vorgehen und die zur Webseite kommenden Datenströme analysieren. Dazu werden zunächst ausschließlich die Benutzer betrachtet, die auf die Seite gekommen sind, ohne auf eines der geschalteten Werbemittel geklickt zu haben. Diese Besucher werden mehrheitlich über folgende Wege auf die Seite kommen: Suchmaschinen Direkte Eingabe der Adresse Links anderer Seiten Bei diesen Besuchern handelt es sich höchstwahrscheinlich um echte Nutzer, die die Seite tatsächlich aus Interesse und eigenem Ansporn heraus aufrufen. Beginnen Sie nun diese Besucher anhand der folgenden Eigenschaften zu analysieren:
328
Ein Blick in die Zukunft
Tageszeit Wochentag Browser Betriebssystem ISP Anhand der gewonnenen Daten lässt sich das sogenannte Nullniveau der Seite ermitteln. Besucher, die sich auf diesem Niveau bewegen bzw. die in dieses Raster passen, sind unverdächtig und echte Besucher. Im nächsten Schritt wendet man sich der Analyse der einzelnen Werbemittel zu. Auch hier wird die zuvor gezeigte Analyse angewendet. Für jedes einzelne Werbemittel wird das ermittelte Niveau mit dem zuvor analysierten Nullniveau der Webseite verglichen. Kommt es bei einem oder mehreren Werbemitteln zu starken Abweichungen, liegt zunächst einmal der Verdacht nahe, dass es dort zu Manipulationen kommt. Darüber hinaus haben sich zum Aufspüren von Klickbetrügern das sogenannte GeoTargeting, die Verweildauer und die Klickpfade bewährt. Maßnahmen, aber kein effektiver Schutz Beachten Sie, dass die vorgestellten Methoden lediglich Anhaltspunkte liefern, um Klickbetrügern auf die Schliche zu kommen. Einen effektiven Schutz gegen Klickbetrug gibt es derzeit allerdings noch nicht.
Auch die Suchmaschinen-Betreiber sind natürlich daran interessiert, Betrüger zu erkennen und aus ihren Programmen zu verbannen. Yahoo! Search Marketing72 gibt dazu Folgendes bekannt. Wir berechnen solche Klicks nicht, die offensichtlich und mit den von Overture eingesetzten Methoden überprüfbar in betrügerischer Absicht erfolgten. Overture setzt eine Reihe von verschiedenen Methoden ein, um mit hoher Wahrscheinlichkeit zu gewährleisten, dass alle Klicks, die auf Ihrem Kontobericht erscheinen, echte Klicks sind.
Ob diese recht allgemein gehaltenen Hinweise Betrüger abschrecken, sei einmal dahingestellt. Google geht schon etwas mehr ins Detail, auch wenn natürlich hier ebenfalls keinerlei Informationen zu den exakten Abläufen auf den Google-Servern bekannt gemacht werden.
72 Im Text steht zwar immer noch Overture, tatsächlich bezieht er sich aber auf Yahoo! Search Marketing. Man hat offensichtlich noch nicht alle vorhandenen Texte auf den neuen Unternehmensnamen umgestellt.
329
Kapitel 12 Erkennungs- und Filtertechniken: Jeder Klick auf eine AdWords-Anzeige wird von unserem System untersucht. Google untersucht zahlreiche Datenpunkte für jeden Klick, z.B. die IP-Adresse, die Uhrzeit des Klicks sowie alle doppelt auftretenden Klicks und zahlreiche weitere Klickmuster. Unser System analysiert dann diese Faktoren, um unzulässige Klicks zu isolieren und herauszufiltern. Erweiterte Überwachungstechniken: Google verwendet zahlreiche einzigartige und innovative Techniken zum Verwalten unzulässiger Klickaktivitäten, die die Standardmethoden umgehen. Details zu dieser Software können wir nicht offenlegen; unser führendes Expertenteam arbeitet jedoch fortwährend daran, unsere Technologie zu erweitern und zu optimieren, um den sich ändernden Trends bei unzulässigen Klicktechniken immer einen entscheidenden Schritt voraus zu sein. Expertenerfahrung: Neben den automatisierten Klickschutztechniken setzen wir ein Team von Experten ein, das spezialisierte Tools und Techniken zur Untersuchung einzelner Vorfälle unzulässiger Klicks verwendet. Dieses Team ist eine Schlüsselkomponente unserer Strategie, Aktivitäten offenzulegen, zu überwachen und zu verfolgen; auf diese Weise wird das absolut höchste Niveau der Klickqualität gewährleistet. Wenn unser System unzulässige Klicks erkennt, untersucht ein Klickschutzexperte das betroffene Konto, um wichtige Daten zu der Quelle der unzulässigen Klicks zu ermitteln. Wir stellen dieses nächste Maß an Service zur Verfügung, damit sichergestellt wird, dass Sie nur für die legitimen Klicks auf Ihre Anzeigen zahlen.
Natürlich sind nicht nur Suchmaschinen-Betreiber daran interessiert, sich vor Klickbetrug zu schützen. Auch Sie selbst können einiges dagegen tun, Opfer dieser Variante des unlauteren Wettbewerbs zu werden. Die folgenden Regeln helfen Ihnen dabei: Niedrig bieten – Ihre Anzeige muss nicht immer an erster Stelle stehen. Wer sich auch mal mit niedrigeren Positionen zufriedengibt, minimiert nicht nur das Risiko Opfer von Klickbetrug zu werden, auch die Kosten lassen sich auf diese Weise im Rahmen halten, wenn Sie wirklich einmal Opfer werden. Konversionsrate beobachten – Kontrollieren Sie, woher die Besucher kommen, die auf Anzeigen klicken. So können Sie normalerweise davon ausgehen, dass Ihnen zum Beispiel Klicks aus Indien zwar Kosten verursachen, aber keine neuen Kunden bringen.73 Die Auswertung, woher die Klicks stammen, nehmen Sie anhand der Log-Dateien vor. Beachten Sie dazu auch die Anmerkungen auf den vorherigen Seiten. Alternative Suchbegriffe – Betrüger gehen in erster Linie immer auf die Top-Keywords. Überlegen Sie sich daher, ob es nicht besser ist, auf einen alternativen Suchbegriff zu setzen. Einen guten Schutz gegen Klickbetrug stellen zum Beispiel Wortphrasen dar. Solche aus mehreren Wörtern zusammengesetzte Keywords bringen zwar weniger Besucher auf die Seiten, locken dafür aber auch weniger Betrüger an.
73 Letztendlich kommt das natürlich darauf an, worauf Ihre Webseite abzielt. Wenn Sie einen indischen Lebensmittelvertrieb besitzen, dann sind Klicks aus Indien natürlich willkommen.
330
Ein Blick in die Zukunft
Konkurrenz beobachten – Sobald Sie den Verdacht haben, dass Sie Opfer von Klickbetrug geworden sind, sollten Sie zunächst überprüfen, ob dahinter möglicherweise ein direkter Konkurrent stecken könnte. Auf AdSense verzichten – Mittlerweile kommt von verschiedenen Seiten vermehrt der Hinweis, dass man darauf verzichten sollte, Werbung auf den entsprechenden Partnerseiten zu platzieren. Nun ist das natürlich zweifellos ein effektiver Weg, um Klickbetrug zu umgehen. Allerdings fällt dadurch natürlich auch eine gute Werbemöglichkeit weg. Um Klickbetrug wirkungsvoll begegnen zu können, müssten neue und innovative Bezahl-Modelle entwickelt werden. Eine Möglichkeit wäre das bereits in einigen Bereichen erfolgreich eingesetzte Pay-per-Lead, bei dem die Bezahlung pro Kundenkontakt erfolgt. Bei diesem Modell wird ein fixer Betrag gezahlt, wenn zum Beispiel durch die Einblendung eines Links oder eines Werbebanners ein Kundenkontakt zustande kommt. Ein solcher Kontakt könnte zum Beispiel das Abonnieren eines Newsletters oder die Bestellung eines Katalogs sein. Mit Perl gegen den Klickbetrug Neben den genannten Maßnahmen können und sollten Sie auch auf technische Hilfsmittel setzen. Unter http://www.datenklause.de/de/software/refererstats.html steht ein kostenloses Perl-Skript zum Download bereit, das Statistiken über Pageviews per Referrer liefert und somit helfen kann, Klickbetrüger zu erkennen.
12.5.2 Affiliate-Betrug Was es mit dem Klickbetrug auf sich hat, haben Sie im vorherigen Abschnitt erfahren. Das ist allerdings bei Weitem nicht die einzige Masche von Betrügern. Groß im Kommen ist derzeit der Affiliate-Betrug, bei dem mittlerweile davon auszugehen ist, dass dessen Bedeutung in Zukunft noch zunehmen wird. Genau genommen ist der Affiliate-Betrug nur eine andere Variante des normalen Klickbetrugs. Hier werden Händler ausgesucht, die ihre Produkte über die verschiedenen Affiliate-Netzwerke vertreiben. Um zu verstehen, wie Affiliate-Betrug funktioniert, muss man zunächst wissen, wie Affiliate-Programme arbeiten. 1. Ein Seitenbetreiber bindet ein Banner, einen Textlink oder ein anderes Werbemittel des Händlers ein. 2. Klickt ein Besucher auf das Werbemittel, wird der Klick vom Affiliate-Programm registriert. 3. Der generierte Umsatz wird dem Betreiber der Seite gutgeschrieben, der die Werbemittel eingebunden hat. 4. Die Bestellung wird an den Händler weitergeleitet.
331
Kapitel 12
Das ist die technische Seite. Am Monatsende geschieht nun Folgendes: 1. Das Affiliate-Netzwerk stellt dem Händler eine Rechnung über die Umsätze, die anhand der registrierten Klicks gemacht wurden. Allerdings tauchen in dieser Rechnung die einzelnen Klicks nicht auf. Dem Händler bleibt hier nur eine pauschale Überprüfung, ob sich die Anzahl der Klicks ungefähr mit den generierten Umsätzen in Einklang bringen lässt. Anschließend zahlt er die sogenannte Ausschöpfungsquote aus. Dadurch zahlt er ausschließlich für nicht stornierte Bestellungen.74 2. Das Affiliate-Netzwerk erhält die Zahlungen und gibt einen Teil an den AffiliatePartner weiter. Für den Affiliate-Betrug muss sich der Betrüger nur bei unterschiedlichen AffiliateNetzwerken anmelden. Bei allen Netzwerken bestellt er anschließend den gleichen Artikel, wodurch er von allen Netzwerken die entsprechende Provision erhält. Da die verschiedenen Affiliate-Netzwerke natürlich nicht untereinander ihre Daten abgleichen, bemerken sie diese Mehrfachbestellung nicht, sondern geben sie als gültigen Klick an den Händler weiter. Der Händler wiederum merkt meistens ebenfalls nichts von der Mehrfachbestellung und liefert die Ware ganz normal aus. Der Betrüger braucht anschließend nur von seinem Rückgaberecht Gebrauch zu machen und kann sich dann über fette Provisionen freuen. Als Händler kann man sich gegen Affiliate-Betrug zwar nur schwer schützen, man kann aber die Gefahr, ein Betrugsopfer zu werden, zumindest einschränken. Nehmen Sie nur an einem Affiliate-Programm teil. Nutzen Sie solche Anbieter, die über das sogenannte Last Cookie Wins Mehrfachbestellungen ausschließen. Vor allem Reiseanbieter verwenden diese Technik. Die effektivste Variante ist natürlich, die Klicks von Anfang bis Ende zu verfolgen. Auf diese Weise können Sie mögliche Betrügereien aufdecken. Das setzt allerdings eine Verknüpfung der IT-Infrastrukturen des Affiliate-Netzwerkes und des Händlers voraus. Gegen Affiliate-Betrug vorzugehen, wäre natürlich in erster Linie Aufgabe der Affiliate-Netzwerke. Denn als Händler kann man erst erkennen, ob man Betrugsopfer ist, wenn die Mehrfachbestellungen storniert werden. Und dafür müsste man alle ankommenden Bestellungen auf Ungereimtheiten hin untersuchen.
74 Wer sich schon immer gewundert hat, warum bei einigen Affiliate-Programmen die Zahlungen erst mit mehreren Wochen Verzögerungen auf dem Konto landen, weiß jetzt also, warum das so ist.
332
Ein Blick in die Zukunft
12.5.3 Click-Spamming In letzter Zeit taucht immer häufiger der Begriff Click-Spamming auf. Diese noch relativ junge Spam-Variante wird meistens von direkten Konkurrenten mithilfe von automatisierten Skripts durchgeführt. Erreicht werden soll dadurch, dass sich die (Werbe-) Kosten der Konkurrenz erhöhen oder deren Tagesbudgets rasch aufgebraucht wird. Betroffen sind vom Click-Spamming alle Verfahren, bei denen klickbasiert abgerechnet wird. Das kann für den Betroffenen Webseitenbetreiber natürlich fatale Folgen haben. Denn stellen Sie sich vor, Sie haben eine AdWords-Anzeige geschaltet und haben ein Tagesbudget von 500 Euro festgelegt. Bedient sich nun einer Ihrer Konkurrenten mithilfe eines Skripts der Click-Spamming-Methode, kann er das gesamte Budget aufbrauchen, ohne dass auch nur ein echter Klick generiert wird. Ebenso ist es aber auch denkbar, dass ein Affiliate von einem Merchant zum Beispiel für Werbeeinblendungen eine bestimmte Vergütung erhält. Der Affiliate kann nun mit einem Skript automatisch für eine höhere Klick-Rate sorgen und so seine Einnahmen illegal maximieren.
!
!
!
ACHTUNG
Egal, welche Variante des Click-Spammings angewendet wird, für den Geschädigten hat es meist fatale Folgen. Dabei spielt übrigens nicht nur der finanzielle Aspekt eine wichtige Rolle. Ebenso negativ wirkt sich die Tatsache aus, dass zum Beispiel die AdWords-Anzeige entfernt wird, wenn das Tagesbudget erschöpft ist. Auf die betroffene Seite werden auf diese Weise demnach keine Zugriffe mehr generiert und die Neukundengewinnung kommt zum Erliegen.
Für den Betroffenen Seitenbetreiber stellt sich zunächst natürlich die Frage, wie er Betrüger erkennen und gegen sie vorgehen kann. Leider ist hier wie so oft das Problem, dass man als Geschädigter nicht weiß, wer der Schädigende ist.75 Um die Identität des Schädigers herausfinden zu können, muss man die IP-Adressen kennen, über die das Click-Spamming durchgeführt wurde. Die kann man aber nur ermitteln, wenn man Einblick in die Log-Dateien des betreffenden ISPs hat. Allerdings dürfen ISPs diese Daten nur an Polizei und Staatsanwaltschaft herausgeben, wenn es der Strafverfolgung dient und richterlich angeordnet wird. Mittlerweile haben sich auch bereits die Gerichte einschlägig mit dem Thema ClickSpamming beschäftigt und festgestellt, dass Click-Spamming gegen § 4 Nr. 10 UWG (gezielte Behinderung von Mitbewerbern) und § 826 BGB (sittenwidrige vorsätzliche Schädigung) verstößt. Allerdings ist diese Betrachtung etwas einseitig und deckt nicht alle Aspekte ab. So kann man davon ausgehen, dass auf jeden Fall unlauterer Wettbewerb vorliegt, wenn ein Affiliate mithilfe eines Skripts seine Klick-Zahlen erhöht und 75 Vermutungen sind zwar meistens da und man liegt mit ihnen auch oft richtig, nur überzeugt das die Behörden leider nicht.
333
Kapitel 12
somit vom Merchant eine bessere Vergütung erreicht. In einem solchen Fall gehen die Gerichte von einer Straftat des Computerbetruges § 263a StGB aus und die ISPs werden zur Herausgabe der notwendigen Informationen an die Staatsanwaltschaft aufgefordert. In anderen Fällen, wie beispielsweise dem skriptgesteuerten Klicken auf Anzeigen eines Konkurrenten, ist die Rechtslage hingegen nicht so eindeutig. Denn hier geht der Click-Spammer lediglich davon aus, seinen Konkurrenten zu schädigen. Einen unmittelbaren Vorteil zieht er daraus allerdings nicht. Außerdem ist zu berücksichtigen, dass der Geschädigte letztendlich nicht der Konkurrent, sondern das Unternehmen ist, das für die Werbeeinblendungen sorgt. (Das ist dann zum Beispiel Google.) Auch wenn die Rechtssprechung nicht eindeutig sein mag, eines ist aber völlig klar. Click-Spamming ist kein Kavaliersdelikt und kann zivilrechtlich schwerwiegende Konsequenzen nach sich ziehen. So hat man als Geschädigter zum Beispiel Anspruch auf Schadenersatz und Unterlassung. An dieser Stelle kann und soll keine vollständige juristische Beratung erfolgen. Dafür gibt es genügend Seiten im Internet, auf denen Ihnen Experten mit Rat und Tat zur Seite stehen. Eine interessante rechtliche Betrachtung des Themas Click-Spamming ist zum Beispiel unter http://rsw.beck.de76 zu finden. Eine weitere interessante Anlaufstelle zu diesem und anderen rechtlichen Themen ist Affiliate & Recht (http:// www.affiliateundrecht.de/).
12.6 Die SEO-Zukunft Sobald sich der Suchmaschinen-Markt ändert, muss man als Seitenbetreiber natürlich auch seine Optimierungsmaßnahmen anpassen. Die Vergangenheit hat allerdings immer wieder gezeigt, dass hier stets die Spammer die Nase vorn haben. Denn während ein normaler Seitenbetreiber sich neben der Suchmaschinen-Optimierung in aller Regel auch noch um Hosting, Content und Kundenbetreuung kümmern muss, können sich Spammer ganz auf die Optimierungsmaßnahmen konzentrieren. Erschwerend kommt hinzu, dass die Suchmaschinen immer intelligenter werden. Dass das so ist, zeigt ein Blick in die Entwicklungen der jüngsten Vergangenheit. So ist zum Beispiel der Google-Algorithmus mittlerweile so ausgefeilt, dass die Optimierungsmaßnahmen zahlreicher Webseitenbetreiber ins Leere gehen. Denken Sie nur an all die Webmaster, die ihre Seiten mit Metatags vollstopfen oder auf plumpe Weise Weiterlei-
76 Hier den genauen URL anzugeben, wäre aufgrund dessen Länge unpraktisch. Allerdings stoßen Sie auf den Artikel, wenn Sie nach dem Begriff Click-Spamming suchen.
334
Ein Blick in die Zukunft
tungen einsetzen und das als Suchmaschinen-Optimierung verstehen. Konnte man mit solchen Maßnahmen früher ein besseres Ranking erzielen, funktioniert das heute nicht mehr. Und genau in diesem Tempo wird es weitergehen. Vor diesem Hintergrund werden professionelle SEO-Dienstleister eine immer größere Rolle spielen. Unternehmen, die im Internet dauerhaft Erfolg haben wollen, werden ein beachtliches Stück ihres Budgets in die Suchmaschinen-Optimierung stecken müssen. Diese weitergehende Professionalisierung des SEO-Sektors wird und muss aber auch zu einer Marktbereinigung führen. Denn leider tummeln sich heute zu viele vermeintliche SEO-Experten, die ihr (Schein-)Wissen teuer verkaufen, dafür aber kaum verwertbare Gegenleistungen liefern. Ein möglicher Ausweg könnten hier zum Beispiel SEO-Zertifikate sein.
12.6.1 Probleme mit dem Web 2.0 Kaum ein Schlagwort hat in der letzten Zeit die Online-Gemeinde so sehr beschäftigt wie das Web 2.0. Kein Wunder, wenn man sich vor Augen führt, dass zum Beispiel Google für die Übernahme der Video-Clip-Seite YouTube 1,3 Milliarden US-Dollar gezahlt hat.
Abbildung 12.6: YouTube ist wohl eine der bedeutendsten Seiten des Web 2.0.
335
Kapitel 12
Webseiten, an denen sich die Nutzer aktiv beteiligen, sind also offensichtlich mehr als eine kurze Mode-Erscheinung. Aufgrund fehlender Erfahrungen mit den neu eingesetzten Techniken (Stichwort AJAX), sind viele Web 2.0-Webseiten kaum oder nur schlecht für Suchmaschinen optimiert. So unterschiedlich die Webseiten auch sein mögen, gibt es dennoch Probleme, die fast überall zu finden sind. Die wichtigsten Faktoren inklusive möglicher Lösungsansätze werden auf den folgenden Seiten vorgestellt.
Inhalte Viele Köche verderben bekanntlich den Brei. Was nahrungsmitteltechnisch fatal ist, stimmt so natürlich auch hinsichtlich der Suchmaschinen-Optimierung. Denn einer der wichtigen Aspekte beim Optimieren von Webseiten ist bekanntermaßen die Abstimmung der Inhalte auf die Suchbegriffe. Erstellen erfahrene Redakteure oder geschulte Mitarbeiter den Content, werden die entsprechenden Richtlinien eingehalten. Das Besondere am Web 2.0 ist aber bekanntlich, dass dort die Inhalte von der Community selbst erstellt werden. Es ist daher wichtig, dass die Nutzer dazu animiert werden, sinnvolle Inhalte zu erstellen, die auch aus SEO-Sicht interessant sind. Am besten funktioniert das, indem Sie der Community feste Muster vorgeben, nach denen Inhalte gestaltet werden sollten. Um dabei keine Nutzer zu gängeln bzw. zu vergraulen, müssen Sie allerdings subtil vorgehen. Geben Sie beispielsweise Teilfragen an, die von den Nutzern beantwortet werden sollen. Auf diese Weise können Sie Inhalte ganz gezielt steuern, ohne dass sich die Community davon in irgendeiner Art und Weise bedrängt fühlt. Nicht in jedem Fall lassen sich Inhalte auf diese Weise steuern. Allerdings können Sie eigentlich immer die wichtigsten Seitenelemente beeinflussen. Dazu gehören zum Beispiel: Seitentitel Überschriften Hyperlinks Diese Elemente können Sie ganz gezielt steuern. So können Sie zum Beispiel den Seitentitel aus dem Hauptthema der Seite generieren. Technisch ist das einfach umzusetzen. Ebenso sollten Sie versuchen zu propagieren, dass die Möglichkeit interner Verlinkungen genutzt werden. Ein schönes Beispiel, wo das perfekt umgesetzt wird, ist Wikipedia. Wichtig ist dabei natürlich vor allem, dass sich eine Verlinkung möglichst einfach realisieren lässt. Auch hier könnte Wikipedia wieder als Vorbild dienen. Dort steht für die Integration von Hyperlinks ein entsprechendes Symbol zur Verfügung.
336
Ein Blick in die Zukunft
Abbildung 12.7: Auf Wikipedia kann jeder zum Autor werden.
Technik Das Web 2.0 ist auch und gerade so interessant, weil es mit neuen77, teilweise verblüffenden Ideen aufwartet. Leider bringen diese neuen Techniken aber auch Probleme für die Suchmaschinen-Optimierung mit. So sehen sich SEO-Experten unter anderem dynamischen URLs, Formularen und JavaScripts ausgesetzt. Eine der am häufigsten eingesetzten Techniken im Zusammenhang mit dem Web 2.0 ist zweifellos AJAX. Die Besonderheit an dieser Technologie ist, dass sich Inhalte einer Seite dynamisch laden lassen, ohne dass dazu die Webseite vom Server nachgeladen werden muss. Mittlerweile wird AJAX erfolgreich auf vielen Webseiten eingesetzt. Sehr oft geschieht das dann im Zusammenhang mit Suchfunktionen. Eine gewisse Vorreiterrolle hat hier wieder einmal Google eingenommen. Unter http://www.google. com/webhp?complete=1&hl=de kann die Beta-Version von Google Suggest getestet werden. Bei dieser Suchmaschine wird dem Anwender die Auswahl relevanter Schlüsselwörter erleichtert. Denn je nach eingegebenem Buchstaben bzw. Buchstabenkombination wechselt die Auswahl in der Vorschlagliste, in der die wahrscheinlichsten Suchbegriffe angezeigt werden.
77 Nun ist allerdings nicht alles neu, was im Zusammenhang mit dem Web 2.0 als neu angepriesen wird. Bestes Beispiel dafür ist AJAX. Denn die dahintersteckende Technik existiert bereits seit mehreren Jahren, wurde aber erst jetzt richtig salonfähig.
337
Kapitel 12
Abbildung 12.8: AJAX ermöglicht es auch Google, neue Wege zu gehen.
Eine AJAX-Anwendung basiert dabei unter anderem auf folgenden Techniken: HTML CSS JavaScript DOM XMLHttpRequest-Objekt Allein diese Liste zeigt, dass es für die Suchmaschinen-Optimierung verschiedene Dinge zu beachten gilt. Dabei muss zunächst untersucht werden, ob die über AJAX ausgetauschten Inhalte aus SEO-Sicht überhaupt interessant sind. Handelt es sich bei den Inhalten beispielsweise um aktuelle Wetterdaten, ist das unkritisch. Werden allerdings solche Inhalte, die für Suchmaschinen relevant sind, per AJAX eingeblendet, wird es problematisch. Denn Suchmaschinen können darauf in aller Regel nicht zugreifen. Warum das so ist, zeigt ein Blick in den Quellcode der betreffenden Webseite. Ruft man zum Beispiel den Code von Google Suggest auf, bekommt man unter anderem Folgendes zu Gesicht:
338
Ein Blick in die Zukunft
#
#
# Code
Wie Sie sehen, finden Sie hier nicht etwa eine umfangreiche Liste aller möglichen Wortvorschläge, sondern einfachen HTML-Code für ein Formular. Und genau hier liegt das Problem. Denn nur das was Sie im Quelltext sehen, sehen auch die Suchmaschinen. Mögen AJAX-Anwendungen für normale Besucher komfortabel sein, für Suchmaschinen sind sie ein Albtraum und ähnlich schwierig zu handhaben wie normale Formulare. Denn ein Suchmaschinen-Spider kann mit Daten, die Formulareingaben benötigen, nicht umgehen. Das liegt einfach daran, dass Suchmaschinen-Spider die Formulare nicht ausfüllen können. (Das gleiche Problem wurde bereits im Zusammenhang mit dem Deep Web vorgestellt.) Lösen lassen sich diese technischen Probleme derzeit nicht. Es ist auch nicht davon auszugehen, dass Suchmaschinen in naher Zukunft AJAX-Anwendungen korrekt indexieren können. Dennoch wird die AJAX-Technologie mittlerweile auf immer mehr Seiten eingesetzt. Verwundern muss das freilich niemanden, schließlich bietet AJAX äußerst interessante Möglichkeiten. Ein Beispiel für den gelungenen Einsatz von AJAX ist jobs.de.
Abbildung 12.9: Auch jobs.de setzt auf AJAX.
339
Kapitel 12
Hier wurden auf der Startseite beide Eingabefelder mit einer AutovervollständigungsFunktion ausgestattet. Auf diese Weise sieht man als Anwender zum Beispiel gleich alternative Job-Bezeichnungen. Suchmaschinen hingegen bekommen von den auf diese Weise angezeigten Begriffen nichts mit. Deswegen gilt auch hier: Die Startseite von jobs.de ist zwar besonders benutzerfreundlich, Suchmaschinen beißen sich an ihr allerdings die Zähne aus.
Verlinkung Für Suchmaschinen spielt die Verlinkung einer Webseite eine große Rolle. Vor allem die auf eine Webseite zeigenden Hyperlinks sind dabei ein wichtiges Kriterium. So werden bei Google nur solche Seiten gut gelistet, auf die möglichst relevante und gute Seiten verlinken. Hinsichtlich der Verlinkung bietet das Web 2.0 durchaus interessante Ansätze und neue Möglichkeiten. Bereitet man die Inhalte seiner Webseite zum Beispiel mit RSS-Feeds auf, können so andere Webseiten leichter auf aktuelle Inhalte verweisen. Bei anderen Seiten des Web 2.0 wird HTML-Code zur Verfügung gestellt, den andere Seitenbetreiber in ihre Seiten integrieren und somit Inhalte entführen können. Ein typisches Beispiel dafür ist YouTube.
Abbildung 12.10: Inhalte von YouTube können ganz einfach »entführt« werden.
Hier werden zu dem Video der URL und ein HTML-Code für dessen Einbettung in die eigene Seite angezeigt.
Interessierte Seitenbetreiber können diesen Code kopieren und somit das Video auf ihrer eigenen Webseite anzeigen. Auf diese Weise erhöht sich natürlich die Anzahl der Seiten, die in diesem Fall auf YouTube verweisen, was zu einem besseren Ranking innerhalb der jeweiligen Suchmaschinen führt. Suchmaschinen bewerten auch die Qualität von ausgehenden Hyperlinks einer Webseite. Hier tut sich allerdings ein Problemfeld auf. Denn auf vielen Seiten des Web 2.0 können User Profile anlegen, in denen sie Links auf ihre »Lieblingsseiten« hinterlegen können. Diese Möglichkeit wird zunehmend auch von Spammern genutzt, um so auf ihre eigenen Webseiten zu verweisen. Die Anzahl der echten Links wird in Zukunft dabei möglicherweise immer weiter abnehmen, während Links auf zwielichtige Angebote zunehmen werden. Suchmaschinen werden deswegen früher oder später dazu übergehen, solche Web 2.0-Seiten als nicht mehr vertrauenswürdig anzusehen. Eine Möglichkeit, dieses Problem zu umgehen, besteht darin, solche Links mit dem Attribut rel=»nofollow« auszustatten. Auf diese Weise gekennzeichnete Hyperlinks werden dann von den Suchmaschinen nicht verfolgt und fließen somit auch nicht in die Analyse mit ein.
Struktur Eines der größten Problemfelder von Web 2.0-Seiten besteht sicherlich darin, dass sie meistens strukturell nicht auf die Anforderungen von Suchmaschinen eingestellt sind. Sucht man in den Suchmaschinen nach einem bestimmten Keyword, kann man davon ausgehen, dass in der Trefferliste kaum Seiten des Web 2.0 auftauchen werden. Sie haben im Verlauf dieses Buches gesehen, wie Webseiten optimiert werden müssen, damit sie an prominenter Stelle in den Trefferlisten auftauchen. Web 2.0-Seiten sind allerdings meistens völlig anders konzipiert. Vor diesem Hintergrund ist es gerade für solche Seiten wichtig, die relevanten Suchbegriffe herauszufinden und dann die Seitenstruktur darauf zu optimieren. Erschwerend kommt der Aspekt der Zugriffsrechte hinzu. Sie erinnern sich sicherlich an die Ausführungen zum sogenannten Deep Web in diesem Buch. Dabei ging es grob gesagt darum, dass bestimmte Inhalte für Suchmaschinen unsichtbar sind. Zu diesen
341
Kapitel 12
unsichtbaren Inhalten gehören vor allem auch solche, die passwortgeschützt sind. Und Sie ahnen beziehungsweise wissen es längst: Viele Web 2.0-Seiten basieren auf dem Prinzip, dass bestimmte Inhalte ausschließlich nach einem Login abgerufen werden können. Den Suchmaschinen bleiben somit wichtige Inhalte verborgen. Lösen lässt sich dieses Problem zum Beispiel, indem man bestimmte Daten öffentlich zugänglich macht und somit den Suchmaschinen zumindest soviel Content bietet, dass sie die Seiten tatsächlich indexieren können. Ein gutes Beispiel für eine Seite, auf der dieses Prinzip konsequent verfolgt wird, ist XING (http://www.xing.com/). XING ist eine Plattform, über die man Kontakte zu anderen Personen verwalten kann. Nachdem man sich registriert hat, gibt man seine persönlichen Daten ein. Daraus wird ein Profil erstellt. Teile dieses Profils sind öffentlich zugänglich und können auch von Suchmaschinen indexiert werden. Detailinformationen wiederum können dann nur registrierte Benutzer abrufen. Auf diese Weise schafft es XING, dass die Seiten – obwohl teilweise passwortgeschützt – durchaus suchmaschinentauglich sind.
12.7 Software für die eigene Suchmaschine Der Erfolg von Google & Co. stachelt möglicherweise den ein oder anderen an, selbst eine Suchmaschine zu betreiben. Mittlerweile gibt es gute Software, die es jedem ermöglicht, eine eigene Suchmaschine zu betreiben. Eine der populärsten Anwendungen dürfte dabei sicherlich Spider MyEngines (http://www.myengines.net/) sein. Für einen vergleichsweise günstigen Preis von 499 Euro kann man mit wenig Aufwand innerhalb kürzester Zeit seine eigene Suchmaschine aufbauen. Geeignet ist Spider MyEngines für all diejenigen, die ohne Programmierkenntnisse eine Suchmaschine aufbauen wollen. Um eine auf Spider MyEngines basierende Suchmaschine zum Laufen zu bringen, müssen die folgenden Voraussetzungen erfüllt sein: Webaccount auf Linux-Server min. 50 MB Webspace 300 MB Webspace, wenn eigener Katalog betrieben wird eigenes »cgi-bin-Verzeichnis« (Perl 5) Ports größer als 1.024 müssen für ausgehende Anfragen frei sein Webspace darf nicht via NFS gemountet sein (Strato) Datenbank mod_rewrite ON (optional)
342
Ein Blick in die Zukunft
Abbildung 12.11: Eine eigene Suchmaschine lässt sich mit MyEngines im Handumdrehen erstellen.
Nun sind 499 Euro für jemanden, der nur mal eben testen will, ob sich mit einer eigenen Suchmaschine tatsächlich Geld verdienen lässt, immer noch viel Geld. Diejenigen können zum Beispiel auch die kostenlose Suchmaschine von Suchmaschineneintrag.com (http://www.express-submit.de/eigene-suchmaschine.htm) testen. Dieses Skript fragt das vom Benutzer eingetragene Wort bei der API von Yahoo! ab. Vorteil dieser Variante: Man braucht weder eine Datenbank noch muss man sich um die Wartung der Daten kümmern. Einziger Schönheitsfehler: Im Footer-Bereich wird ein powered by-Link angezeigt. Wer 130 Euro investiert, kann den allerdings auch entfernen lassen. Sie sind auf den Geschmack gekommen? Dann finden Sie hier noch einige Links zu anderen Suchmaschinen-Skripten: http://www.crawlersoft.de/ – Ideal für allgemeine Webkataloge und spezielle Themensuchmaschinen. In der einfachsten Variante kostet die Software 129 Euro. http://www.aspseek.org/ – Kostenlose Suchsoftware, die auch die Suche nach Phrasen, mit Wildcards und mit Operatoren erlaubt.
343
Kapitel 12
12.7.1
Google Custom Search Engine
Google bietet mit der Custom Search Engine jedem Seitenbetreiber die Möglichkeit, sich seine eigene Suchmaschine binnen weniger Minuten selbst zusammenzustellen. Anmelden kann man sich unter http://www.google.com/coop/cse/.
Abbildung 12.12: Eine eigene Suchmaschine für den Pommeranzer Seoparden
Nach der Registrierung muss man lediglich die Seiten angeben, die von der eigenen Suchmaschine später durchsucht werden sollen. Dabei hat man die Wahl, ob die Suche sich ausschließlich auf die angegebenen Seiten beziehen soll oder ob sie gegenüber normalen Google-Ergebnissen nur bevorzugt behandelt werden sollen. Ebenso lassen sich bestimmte Seiten, zum Beispiel die eines ungeliebten Konkurrenten, auch von der Suche ausschließen. Alles in allem ist die Google Custom Search Engine wohl eine der bequemsten Arten, seine eigene Suchmaschine zu erstellen. Und der größte Vorteil dabei: Man bekommt die bewährte Google-Technologie, inklusive einer möglichen AdSense-Anbindung, kostenlos zur Verfügung gestellt.
Cookies 209 copyright 151 Cost per Click 250 Crawler 28 CSS 132 im head-Bereich 133 in externer Datei 133 Vorteile 132
D>>> Dämpfungsfaktor 53 dalaSTAT-pro 240 Dangling Links 57 Dateinamen 98 mit Bindestrichen 99 mit Unterstrichen 98 David Filo 13 Deep Web 106 description 137 Desktopsuche 321 DMOZ 23, 218 Domain Grabber 114 Domain-Namen 111 finden 112 freie finden 114 Probleme mit neuen 113 Domain-Umzug 119 Doorway-Pages 306 Dublin Core 149
PageRank 49, 51 Algorithmus 51 Dämpfungsfaktor 53 Dangling Links 57 Effekt ausgehender Links 55 Effekt eingehender Links 54 Einflussfaktoren 53 einkaufen 60 Formel 51 iterative Berechnung 52 mit Google-Toolbar ermitteln 59 Random Surfer 51 Vererbung 61 Vorteile des Verfahrens 51 page-topic 152 page-type 152 Paid Listings 250 Paid Placement 250 Paperazzi, für Dateien und Programme 26 Paperball, für Dateien und Programme 26 Parser 28 Passwortschutz 210 Pay for Performance 250 Pay per Click 250, 254 Payed-Inclusion 251 Pay-per-Click-Betrug 327 effektiver Schutz 330 erkennen 327 PDF-Dateien 185 Dokumentinfos 186 Indexierung verhindern 186 Personalisierte Suche 319 PHP 203 Frames ersetzen 203 PICS 148 Platform for Internet Content Selection 148 Position Monitoring 228 PPC 254 PPC-Betrug 327 pragma 152 Private Web 106 Probabilistisches Modell 44
Index
Proprietary Web 107 Proximity-Verfahren 46 publisher 152
Q>>> QualiGo 256
R>>> Random Surfer 51 Ranking 48 anfrageabhängige Faktoren 48 anfrageunabhängige Faktoren 49 RealURL 181 refresh 152 Relative Worthäufigkeit 44 reply to 152 Repository 29 Return on Investments 225 revisit-after 145, 153 Robots 117, 238 Namen der Suchmaschinen 238 robots 140 robots.txt 115 Bildersuche ausschließen 118 Spider ausschließen 116 Verzeichnisse 116 Voraussetzungen 115 ROI 225
S>>> Schlüsselwörter 67 Einzahl und Mehrzahl 74 englische finden 72 Fachbegriffe 80 Fallbeispiele 82 finden 67 für ein Hotel 82 für ein Möbelhaus 83 für einen Anbieter von Städtereisen 84 Getrenntschreibung 75 Groß- und Kleinschreibung 74 in Datenbanken finden 69 in Domainnamen 111
Copyright Daten, Texte, Design und Grafiken dieses eBooks, sowie die eventuell angebotenen eBook-Zusatzdaten sind urheberrechtlich geschützt. Dieses eBook stellen wir lediglich als persönliche Einzelplatz-Lizenz zur Verfügung! Jede andere Verwendung dieses eBooks oder zugehöriger Materialien und Informationen, einschliesslich •
der Reproduktion,
•
der Weitergabe,
•
des Weitervertriebs,
•
der Platzierung im Internet, in Intranets, in Extranets,
•
der Veränderung,
•
des Weiterverkaufs
•
und der Veröffentlichung
bedarf der schriftlichen Genehmigung des Verlags. Insbesondere ist die Entfernung oder Änderung des vom Verlag vergebenen Passwortschutzes ausdrücklich untersagt! Bei Fragen zu diesem Thema wenden Sie sich bitte an: [email protected] Zusatzdaten Möglicherweise liegt dem gedruckten Buch eine CD-ROM mit Zusatzdaten bei. Die Zurverfügungstellung dieser Daten auf unseren Websites ist eine freiwillige Leistung des Verlags. Der Rechtsweg ist ausgeschlossen. Hinweis Dieses und viele weitere eBooks können Sie rund um die Uhr und legal auf unserer Website