Onsite-Optimierung

Onsite-Optimierung

Die Onsite-Optimierung beschäftigt sich mit den Änderungen an den Inhalten und der Struktur der einzelnen Dokumente der Webseite. Das Ziel dieser Maßnahmen ist es, die Dokumente auf die bei der Keyword-Analyse bestimmten Schlüsselwörter zu optimieren, so dass sie bei Suchanfragen mit diesen Keywords eine möglichst hohe Position in den Suchtreffern erzielen. Die angewendeten Verfahren umfassen neben der inhaltlichen und strukturellen Veränderung einer Seite auch die interne Verlinkung sowie die Programmierung und das Design des Webangebotes.

Geeignete Dateiformate

Das Standard-Format zur Erstellung von Webseiten ist derzeit die Hypertext Markup Language (HTML). Zwar können Suchmaschinen auch reine Textdateien, .pdf-Dokumente sowie Microsoft Office-Dokumente analysieren, diese Formate sind jedoch nicht für den strukturierten Aufbau und die Darstellung kompletter Webseiten geeignet. Die Optimierungsempfehlungen der folgenden Kapitel beziehen sich daher auf das HTML-Format.

Analysierbare Dateiformate Analyse möglich Probleme
HTML (.htm, .html, .shtm, .shtml) ja Inhalte von Framesets nicht problemlos analysierbar
Reine Textdateien (.txt, .rtf) ja Keine
MS Office Dokumente (.doc, .xls, .ppt, [.wks, .wri]) ja Keine
Acrobat (Reader) (.pdf) ja Keine
Postscript (.ps) ja Keine
Scriptdateien (.php, .asp, .jsp, .cfm) ja Nicht erfassbar bei dynamischer Generierung
Flash (.swf) teilweise Inhalte bei einem Großteil der Suchmaschinen nicht analysierbar

HTML-Dokumente können auf zwei unterschiedliche Arten erzeugt werden - zum einen in statischer zum anderen in dynamischer Form. Bei einer statisch erstellten HTML-Seite ist sowohl der Programmiercode als auch der für den Nutzer sichtbare Text in einer einzigen Datei abgespeichert. Daher ist die Analyse für IR-Systeme bei solchen Dokumenten leicht möglich. Probleme ergeben sich bei statischen HTML-Sites allerdings durch die Verwendung von Framesets. Bei dynamisch erzeugten HTML-Sites beschreibt der Programmiercode lediglich den strukturellen Aufbau der Seite. Die für den Nutzer sichtbaren Texte werden hierbei mit Hilfe von Skriptsprachen wie beispielsweise PHP, JSP oder ASP aus Datenbanken dynamisch und oft in Abhängigkeit zu bestimmten Usereingaben (z.B. in Suchmasken) zum Zeitpunkt des Seitenabrufs in die Seite geladen und stehen somit in dem Code der Datei noch nicht zur Verfügung. Dadurch ergeben sich Probleme für die Indexierung und Analyse der Seiten durch Suchmaschinen.

Probleme bei dynamischen Inhalten

Besonders Shop-Systeme und Content-Management-Systeme verwenden dynamisch erzeugte HTML-Seiten. Dies erleichtert sowohl die Erzeugung als auch Verwaltung der Inhalte, da inhaltliche Änderungen keines Eingriffs in den Programmiercode bedürfen, sondern separat z.B. in der dahinter stehenden Datenbank vorgenommen werden können.

Gelangt ein Benutzer auf die Webseite eines Produktkatalogs, so kann er Produkte beispielsweise über ein Eingabefeld suchen. Daraufhin wird dann die gesuchte Produkt-Site bzw. eine Ergebnissite mit relevanten Produkten dynamisch generiert. Die Robots der Suchmaschinen sind jedoch nicht in der Lage, alle möglichen Suchanfragen automatisch zu generieren, so dass die dynamisch erzeugten Produktseiten für Suchmaschinen unsichtbar bleiben und nicht erfasst werden können.

Mithilfe technischer Anpassungen ist es dennoch möglich und sinnvoll, dynamisch erzeugte Webseiten für die Robots sichtbar zu machen. Aufgrund der Funktionsweise von Robots folgen diese den internen Links eines Dokumentes. Daher ist es wichtig, dass die Parameter, die den Skripten bei der dynamischen Generierung von HTML-Seiten übergeben werden, nicht im Augenblick der Nutzerinteraktion erstellt werden, sondern dass diese schon vorher im Programmiercode verankert sind. So kann z.B. für die Auswahl eines Produktes bei Produktkatalogen eine Auswahlliste genutzt werden, über die der Nutzer den gesuchten Produktnamen auswählen kann. Im Programmiercode selbst verlinkt der Listeneintrag zur dynamischen Produktseite. Die Parameter sind hierbei nicht durch die Nutzeraktion erstellt, sondern schon im Code integriert.

Weitere Probleme entstehen bei Datenbank-basierten Webseiten häufig durch die vorhandenen Sonderzeichen wie "&", "%" oder "$". Erkennen Robots bei der URL-Analyse diese Sonderzeichen oder ein CGI-Verzeichnis (in der URL als Ordner /cgi-bin/ vorhanden), werden die Dokumente aus der URL-DB gelöscht und nicht indexiert. Mittels Softwarelösungen oder entsprechender Server-Konfiguration müssen die Sonderzeichen daher unterdrückt bzw. umgewandelt werden, um eine Indexierung der Seiten zu ermöglichen.

Neben der technischen Anpassung der Internetseite ermöglichen auch einige CMS- und Shop-Systeme die Publizierung dynamischer Seiten als statische Dokumente. Eine weitere Möglichkeit der Indexierung dynamischer Seiten bietet Google durch das Sitemap-Programm. Hierbei übergibt der Webseite-Betreiber eine z.B. im XML-Format verfasste Sitemap-Datei, in der alle Seiten des Webangebotes verzeichnet sind. Der Dienst ist somit insbesondere für Betreiber großer Webseiten interessant, deren Verlinkung und dynamische Struktur es den Robots erschwert, alle Seiten problemlos und zeitnah zu erfassen. Die Übergabe einer Sitemap ersetzt zwar nicht die Indexierung der Webseiten und eine Indexierung wird von Google auch trotzdem nicht garantiert, dennoch können so zusätzliche Informationen, wie z.B. dynamisch generierte Dokumente oder auch die Mitteilung, dass am Webangebot eine Änderung vorgenommen wurde, an Google übergeben werden. Google bietet den Programmnutzern im Gegenzug Informationen, wie diese Webseite interpretiert wurde. So werden beispielsweise Probleme, die ggf. beim Crawling-Prozess aufgetreten sind, dem Webseite-Betreiber mitgeteilt.

Probleme bei Flash

Besonders Kreativagenturen greifen bei der Erstellung ihres Webangebotes und bei Kundenprojekten häufig auf die von Adobe (früher: Macromedia) publizierte Software Flash zurück. Die in Flash erzeugten Dateien ermöglichen durch die integrierte Animiertechnik neue Designmöglichkeiten im Internet. Die erstellte Flash-Datei wird meist auf der Startseite (index.html) eines Webangebotes eingebunden. Durch den HTML-Überbau können Suchmaschinen Flash-Seiten daher zwar indexieren, eine Analyse der Inhalte ist jedoch meist nicht möglich, da in Flash eingebundener Text nicht als solcher wahrgenommen wird. Neuere, auf der Search Engine SDK von Adobe basierende Entwicklungen versprechen, dass zukünftig auch Texte in Flash-Dateien von IR-Systemen ausgewertet werden können. Suchmaschinen-intern erfolgt hierbei eine Umwandlung der Flash-Datei in reines Textformat. Suchmaschinen, welche die Inhalte aus Flash-Dateien extrahieren können, sind jedoch derzeit noch die Ausnahme und bei diesen werden auch nur Teile der enthaltenen Textinformationen als solche erkannt. Der Großteil der Suchmaschinen kann Flash-Inhalte derzeit nicht analysieren.

Dennoch existieren einige praktikable Methoden, die das Ranking eines auf Flash basierenden Webangebotes ermöglichen. Eine Möglichkeit besteht darin, neben der Flash-Variante eine alternative HTML-Variante zu entwickeln. Ist die gesamte Site in Flash erstellt, kann alternativ das HTML-Angebot neben der Flash-Variante auf der Startseite angeboten werden. Bei einer Flash-Umsetzung der Navigationsstruktur ist eine weitere Menüstruktur in HTML nötig, da die verlinkten Dokumente sonst für Suchmaschinen nicht sichtbar und daraus resultierend auch nicht indexierbar sind.

Eine weitere Möglichkeit besteht in der Einbindung des Flash-Files über JavaScript-Funktionen und die Bereitstellung relevanter Inhalte über das <noscript>-Tag im HTML-Code. Da Suchmaschinen JavaScript-Code meist nicht analysieren, wird alternativ das <noscript>-Tag ausgewertet und eine Erfassung der Inhalte ermöglicht. Allerdings wird dort angegebener Content bei weitem nicht als so relevant eingestuft, wie dies im Rumpf (Body) der Webseite der Fall wäre. Dort stehende Links werden jedoch von den Robots der Suchmaschinen weiterverfolgt. Auch die Verwendung der Meta-Tags zur Bereitstellung relevanter Informationen ist zu empfehlen, wenn auch die derzeitige Gewichtung bei der Relevanzbewertung umstritten ist.

Probleme bei Framesets

Onsite-optimierung

Mit Framesets kann der Aufbau einer Webseite in verschiedene, frei definierbare Segmente aufgeteilt werden. So werden mit Framesets oftmals zentrale Navigationsbereiche definiert, über deren Links HTML-Dokumente in ein anderes Seitensegment geladen werden. Der Vorteil liegt hierbei in der Trennung von Navigation und Inhalt, so dass nur die jeweils angeforderten HTML-Seiten neu geladen werden müssen und der Navigationsbereich bestehen bleibt. Im Bild ist exemplarisch der Code einer einfachen Webseite dargestellt, die ein Frameset beinhaltet. In diesem Beispiel werden zwei Frames definiert, von denen einer die Navigation zum Inhalt hat (navi.html) und der andere eine HTML-Datei namens inhalt.html einbindet.

HTML-Seiten, die Framesets verwenden, sind generell von Suchmaschinen indexierbar. Allerdings zeigt das oben dargestellte Beispiel, dass die gesamte Datei keinerlei Text beinhaltet, den Suchmaschinen zur inhaltlichen Auswertung verwenden können. Der relevante Text befindet sich in den über das source-Tag (<src>) der Frames eingebundenen Dateien. Da Suchmaschinen jedoch lediglich den über das <a href>-Tag eingebundenen Links folgen, sind die Inhalte für Suchmaschinen unsichtbar und können daher auch nicht indexiert und analysiert werden.

Als die meisten Internet-Nutzer noch mit langsamen Modems im Internet surften, stellten Framesets eine Möglichkeit zum Vermeiden langer Ladezeiten dar. Da jedoch die Bandbreite in den letzten Jahren um ein Vielfaches gestiegen ist, hat sich die Bedeutung der Framesets zunehmend verringert. In Hinsicht auf die Erfassbarkeit der Inhalte durch Suchmaschinen sollte möglichst ganz auf den Einsatz von Frames verzichtet werden. Ist dies nicht möglich, z.B. weil die technische Überarbeitung der gesamten Webseite ein nicht verfügbares Budget erfordert, muss die das Frameset beinhaltende HTML-Seite mit relevanten Inhalten versehen werden. Neben dem Titel des Dokumentes und den im <head>-Tag verwendeten Seiteninformationen eignen sich für Beschreibungstexte insbesondere die Meta-Tags.

Das <noframes>-Tag, das bei Interpretationsproblemen der Browser einen alternativen Anzeigebereich definiert, ist hierzu nur bedingt geeignet. Das Tag wurde oftmals verwendet, um den Suchmaschinen häufig genutzte Keywords bereitzustellen, so dass die Seiten hoch gerankt wurden. Auf der eigentlichen Seite waren die beschriebenen Inhalte jedoch nicht zu finden. Daher gewichten Suchmaschinen die Inhalte des <noframes>-Tags heutzutage nicht mehr sehr hoch.

Probleme bei JavaScript, AJAX, DHTML und JavaApplets

JavaScript ist eine Skriptsprache, die die Funktionalität einer Webseite durch selbst erstellbare Funktionen um ein Vielfaches steigert. Der JavaScript-Code wird in den HTML-Code eingebunden und erst beim Abruf eines Nutzers in dessen Browser ausgeführt. Suchmaschinen können JavaScript-Code nicht analysieren, so dass sowohl dort angegebene Inhalte als auch Links nicht verfolgt und somit auch nicht indexiert werden. Daher ist bei der Verwendung von JavaScript darauf zu achten, dass relevante Inhalte und Links nicht im JavaScript-Code eingebettet werden.

Das gleiche gilt für die im Rahmen der Web2.0-Entwicklung immer häufiger eingesetzte Technik AJAX. AJAX ermöglicht die Realisierung interaktiver und optisch ansprechender Seiten, bei denen aufgrund von User-Interaktionen bzw. bei Bedarf weitere Inhalte dargestellt werden können, ohne die Seite erneut laden zu müssen. AJAX basiert auf JavaScript und XML und somit sind Texte oder Bilder, die erst bei einer Interaktion über JavaScript-Funktionen hinzugefügt werden, für Suchmaschinen in der Regel nicht sichtbar.

  Siemers empfiehlt bei Verwendung von JavaScript oder anderen Skriptsprachen die Einbettung von im Skript stehenden Inhalten und Links in das <noscript>-Tag. Dieses Tag dient im eigentlichen Sinne der Definition eines alternativen Bereiches, der nur angezeigt wird, wenn eine auf der Site verwendete Script-Sprache nicht verfügbar und das Script somit nicht ausführbar ist. Ob die Benutzung des Tags jedoch zum gewünschten Erfolg führt, ist in Frage zu stellen, da es in der Vergangenheit - wie auch das <noframes>-Tag - häufig zur Irreführung der Suchmaschinen benutzt wurde und daher als weniger relevant eingestuft wird.

JavaScript aber auch das dynamische HTML (DHTML) werden ebenfalls häufig für nicht-statische Navigationsstrukturen wie z.B. aufklappbare Navigationsmenüs genutzt. Auch hier können Suchmaschinen die integrierten Links nicht interpretieren, so dass u.U. eine Vielzahl von Dokumenten des Webangebotes nicht erfasst wird. Hinzu kommt, dass je nach Analyse ein durchaus beträchtlicher Teil aller Internetnutzer JavaScript in den Browsereinstellungen deaktiviert hat. Bei der Verwendung von JavaScript oder DHTML ist daher in jedem Fall eine alternative HTML-Struktur anzulegen.

JavaApplets sind kleine, in Java programmierte Computerprogramme, die in eine Webseite eingebunden werden können. Einfache Online-Games werden beispielsweise häufig als JavaApplet programmiert. Suchmaschinen können die Inhalte von JavaApplets generell nicht lesen. Beinhaltet das Applet relevante Inhalte, so sollten diese redundant auch als HTML-Text in die Seite eingebunden werden, damit sie von der Suchmaschine interpretiert werden können.

Dokumenttitel

Der Dokumenttitel entspricht dem Text, der im Head-Bereich der HTML-Codes im <title>-Tag angegeben ist. Für den Nutzer ist er die einzige sichtbare Meta-Information, da er im Kopf des Browsers ausgegeben wird. So erscheint beispielsweise der im <title>-Tag angegebene Dokumenttitel <title>Hotel Hamburg - Nähe Elbe</title> als dargestellte Text im Browserkopf. Fügt der Nutzer die Webseite zu seinen Favoriten im Browser (den "Bookmarks") hinzu, wird die URL unter dem angegebenen Dokumenttitel abgespeichert. Ein aussagekräftiger und selbsterklärender Titel kann daher erheblich dazu beitragen, dass Nutzer die Seite erneut aufsuchen.

Der Dokumenttitel stellt auch für die Suchmaschinen-Optimierung einen äußerst relevanten Faktor dar. Im Allgemeinen entspricht der verlinkte Titel eines Sucheintrags den im <title>-Tag angegebenen Dokumenttitel, der in den SERPs sowohl größer als auch farblich hervorgehoben dargestellt wird. Er ist somit der Teil eines Sucheintrags, dem die Aufmerksamkeit eines Nutzers als erstes zufällt. Die Wahl des Dokumenttitels ist daher in Bezug auf die Nutzer besonders relevant. Der Titel muss so formuliert sein, dass ein Nutzer seine Suchanfrage optimal beantwortet sieht und zu einem Klick auf den Eintrag motiviert wird. Der Titel hat somit besonderen Einfluss auf die Click Popularity, wenn eine Suchmaschine dieses Kriterium berücksichtig): Je höher die Klickrate des Eintrags ist, desto höher wird sie bei Anwendung des Click Popularity-Verfahrens in der Relevanzbewertung gewichtet. Im Gegensatz dazu führt eine niedrige Klickrate zu einer Abwertung des entsprechenden Dokumentes.

Auch aus Sicht der IR-Systeme von Suchmaschinen entspricht die Wahl des Dokumenttitels einem außerordentlich wichtigen Erfolgsparameter bei der Suchmaschinen-Optimierung. Im Rahmen der Ranking-Verfahren, wird zu jedem Keyword eines Dokumentes neben der Häufigkeit auch die Position vermerkt, an der das Keyword im Text erscheint. Je höher diese ist, desto stärker wird das Keyword bei der Relevanzbewertung gewichtet. Bei der Wahl des Dokumenttitels ist es daher wichtig, dass die Keywords, auf die der Text optimiert werden soll, bereits im Titel des Dokumentes verwendet werden.

Wahl des Dokumenttitels

Da der Titel eines Dokumentes für IR-Systeme eine Vorschau auf den zu erwartenden Inhalt darstellt, sollten die bei der Keyword-Analyse bestimmten Schlüsselwörter nicht nur im Titel, sondern auch im Inhalt des Dokumentes auftreten. Dies erfordert die individuelle Betitelung jedes einzelnen Dokumentes. Besondere Aufmerksamkeit und Anpassungen sind insbesondere dann erforderlich, wenn die Titel automatisiert durch ein Content Management System generiert werden.

Die Länge des angezeigten Titels eines Suchtreffers ist je nach Suchmaschine unterschiedlich begrenzt. Während Glöggler Glöggler Michael Buchautor - Suchmaschinen im Internetden zur Verfügung stehenden Platz auf 80-200 Buchstaben beziffert, empfiehlt Siemers als Obergrenze die Verwendung von maximal sieben Wörtern. Die Semantik des Titels ist hierbei irrelevant: Der Titel "Hotel in Hamburg an der Elbe" sieht zwar schöner als "Hotel Hamburg Elbe", aber Stoppwörter in einer Suchanfrage (wie z.B. "in", "an" und "der") werden im Allgemeinen bei der Erstellung der Ergebnisliste nicht berücksichtigt. Daher ist es sinnvoll, gänzlich auf diese zu verzichten und den begrenzten Platz für relevante Wörter zu nutzen. Empfehlenswert ist hierbei die Verwendung von Substantiven, welche die am häufigsten gesuchten Wörter sind. Wichtig ist u.U. auch die Unterscheidung zwischen Singular- und Plural-Formen, da nicht jede Suchmaschine Word Stemming durchführt.

Ein weiterer Grund, auf Füllwörter wie "in", "und" o.ä. zu verzichten, ergibt sich durch das Kriterium der Keyword Proximity (Keyword-Nähe zueinander). Dies sei an einem Beispiel verdeutlicht: Angenommen es existieren zwei Dokumente unterschiedlicher Bio-Märkte in Hamburg. Der Titel von Markt A entspricht

<title>Bio-Markt Hamburg - Ökologisch und günstig leben</title>

während Supermarkt B den Titel

<title>Ökologisch leben - Bio-Markt der Stadt Hamburg</title>

verwendet. Bei einer Suchanfrage nach "Bio-Markt Hamburg" wird zweifelsohne der Eintrag von Markt A vor dem Eintrag von Markt B erscheinen, da die Reihenfolge der Keywords von Eintrag und Suchanfrage bei Markt A absolut identisch ist. Anders sähe das Ergebnis bei der Suchanfrage "Ökologisch leben" aus: Die Worte bei Markt A sind durch "und günstig" voneinander getrennt, so dass hier der Eintrag von Markt B höher gewichtet würde.

Zwei Faktoren bei der Keyword-Proximity werden sehr kontrovers diskutiert: Zum einen die Frage, ob die absoluten Positionen innerhalb des Titels Einfluss auf die Gewichtung haben (also z.B. das Wort 1 höher gewichtet wird als Wort 2 etc.) - zum anderen, ob Füllwörter zwischen zwei Keywords einen relevanten Unterschied bei der Bewertung ausmachen (also ob "Bio-Markt in Hamburg" weniger relevant ist als "Bio-Markt Hamburg"). Aufgrund der unterschiedlichen Gewichtungsverfahren der Suchmaschinen kann diese Frage nicht allgemeingültig beantwortet werden. Daher sei an dieser Stelle empfohlen, die Schlüsselwörter ohne Füllwörter nach Wichtigkeit zu sortieren.

Ein weiterer, erstmals von Glöggler erwähnter Tipp kann die Entscheidung der Wahl des Dokumenttitels erleichtern:

Die Berücksichtigung des Namens des Anbieters im Titel ist in Hinblick auf den Erfolg einer intuitiven Suche nur dann von Relevanz, wenn er einen so hohen Bekanntheitsgrad besitzt, dass man konkret nach ihm sucht.

Daraus folgt, dass beispielsweise ein Schlüsseldienst bei der Titelwahl nicht den Firmennamen sondern die Branche und den Standort als Keywords verwenden sollte (zumindest an erster Stelle). In den meisten Fällen wird nach einem schnell verfügbaren, lokalen Schlüsseldienst gesucht - der Firmenname ist eher zweitrangig bzw. häufig gar nicht bekannt. Im Gegensatz dazu sollten bekannte Unternehmen den Marken- bzw. Firmennamen in den Dokumenttitel aufnehmen - ebenso sollte der exakte Name eines Produktes bei ausreichender Bekanntheit bereits im Titel der Produktinformationsseite verwendet werden.

Meta-Tags

Meta-Tags sind im Header des HTML-Codes einfügbare Tags, die (für den Nutzer unsichtbare) komprimierte Informationen über das Dokument bereitstellen. Ursprünglich wurden diese vor allem im Bibliothekswesen zur Strukturierung des Datenbestandes genutzt. Meta-Tags wurden häufig missbraucht, um den Traffic einer Site durch die Angabe weit verbreiteter Suchbegriffe zu erhöhen, obwohl die verwendeten Angaben den eigentlichen Inhalt des Dokumentes nicht beschrieben. Daher werden die meisten Meta-Daten bei der Relevanzbewertung entweder gar nicht oder nur sehr niedrig gewichtet. Dennoch sei auf vier spezielle Meta-Tags hingewiesen, die auch heute noch eine Rolle bei der Suchmaschinen-Optimierung spielen.

Das description-Meta-Tag wird von vielen Suchmaschinen zur Angabe des kurzen Beschreibungstextes eines Sucheintrags genutzt. Da diese Vorabinformation dem Nutzer eine Vorschau auf den zu erwartenden Inhalt der Seite gibt, muss das Interesse des Nutzers mit Hilfe einer aussagekräftigen Formulierung geweckt werden. Des Weiteren können die im description-Tag angegebenen Inhalte unterstützend auf die Relevanzbewertung wirken, wenn die inhaltliche Ausrichtung des Dokumentes mit den dort gemachten Angaben übereinstimmt. Das description-Tag wird im Header der HTML-Datei in Form der folgenden Formulierung eingefügt:

<meta name="description" content= "...">

Die Anführungszeichen der Content-Angabe sind mit dem gewünschten Inhaltsangaben zu füllen und sollten mit Hilfe der Keywords möglichst exakt den Inhalt des Dokumentes beschreiben. Da der Beschreibungstext meist in der Länge begrenzt ist, sollten die wichtigsten Angaben 200 (nach Glöggler) bzw. 250 (nach Alby/Karzauninkat) Zeichen nicht überschreiten.

Ein weiterer, immer noch weit verbreiteter Meta-Tag ist das keywords-Meta-Tag:

<meta name="keywords" content="...">

In den Anführungszeichen der Content-Angabe werden - durch Kommata getrennt - die den Text beschreibenden Keywords angegeben. Dieses Tag stellte die Hauptquelle für den Missbrauch der Meta-Daten dar und wird daher von fast keiner Suchmaschine bei der Relevanzbewertung als besonders relevant betrachtet. Soll er dennoch benutzt werden, sollte berücksichtigt werden, dass jedes Keyword nur ein einziges Mal angegeben wird. Hierbei ist wichtig, dass die angegebenen Keywords mit dem Inhalt des Dokumentes tatsächlich übereinstimmen. Ein Verstoß gegen diese Regel kann als Täuschungsversuch im Sinne einer Spamming-Methode gewertet werden und zur Abwertung bzw. zum Ausschluss aus dem Index der Suchmaschine führen.

Für lokale Suchanwendungen rücken zunehmend Geo-Meta-Tags in den Vordergrund. Beispielsweise lassen sich Stadtname, Land, Postleitzahl, Region und schließlich auch Informationen zu Längen- und Breitengrad eines Standortes im Header des HTML-Codes hinterlegen. So kann der Webseite-Betreiber verlässliche lokale Standortinformationen bereitstellen, die von Suchmaschinen automatisch gecrawlt und für die Darstellung lokaler Suchergebnisse genutzt werden können. Im WWW gibt es neben dem bekannten Google Maps eine Vielzahl von Hilfsprogrammen, die bei der Generierung von Geo-Meta-Tags hilfreiche Dienste leisten.

Als letzter Meta-Tag sei der robots-Meta-Tag erwähnt. Mithilfe des robots-Tags:

<meta name="robots" content="...">

der im Header des HTML-Codes der Datei eingefügt wird, kann der Webseite-Betreiber die Indexierung des Dokumentes steuern bzw. verbieten. Die Anführungszeichen der content-Angabe können mit fünf unterschiedlichen Inhalten gefüllt werden:

index
erlaubt dem Robot die Indexierung des Dokumentes
noindex
verbietet dem Robot die Indexierung der Seite
follow
erlaubt dem Robot die Verfolgung der auf der Seite integrierten Links und der Erfassung der dort angegebenen Inhalte
nofollow
verbietet dem Robot die Weiterverfolgung der integrierten Links
all
erlaubt dem Robot ausdrücklich die Indexierung der Inhalte sowie die Verfolgung der integrierten Links

So kann man den Suchmaschinen-Robots beispielsweise durch die Kombination:

<meta name="robots" content="index, nofollow">

mitteilen, dass die Seiteninhalte zwar indexiert, die integrierten Links jedoch nicht verfolgt werden sollen. Im Gegensatz zu den oben erwähnten Meta-Tags wird das Robot-Tag von allen Suchmaschinen befolgt. Es ist allerdings zu beachten, dass die Angaben "index" und "follow" nicht zur Folge haben, dass das Webangebot indexiert wird. Dem Robot wird lediglich mitgeteilt, dass die Erfassung des Seiteninhaltes sowie die Nachverfolgung der Links erwünscht ist. Die Entscheidung wann, und vor allem ob ein Dokument indexiert wird, beruht weiterhin auf der Systematik der Suchmaschinen-Robots. Das robot-Tag bezieht sich immer nur auf das Dokument, in dem die Meta-Tags eingebunden sind und maximal alle weiteren, durch Verweise erreichbaren Dateien. Erweiterte Indexierungsanweisungen sind mit der robots.txt-Datei möglich, die im folgenden Kapitel beschrieben wird.

robots.txt

Mit Hilfe der robots.txt-Datei können zentrale Indexierungsanweisungen für das gesamte Webangebot definiert werden. Durch entsprechende Angaben wird den Robots mitgeteilt, welche Verzeichnisse, Verzeichnisbäume und Dokumente ausgelesen werden dürfen und welche nicht. Innerhalb der Angaben kann zwischen den verschiedenen Robots unterschieden werden, so dass individuelle, suchmaschinen-spezifische Anweisungen formuliert werden können. Dafür ist allerdings die Kenntnis des Robot-Namens der Suchmaschine wichtig - was bei der mittlerweile sehr hohen Anzahl von suchmaschineneigenen Robots gar nicht so einfach ist. So heißt einer dieser Robots bei Yahoo! beispielsweise "slurp", MSN verwendet unter anderem den Namen "msnbot" und einer von Googles Robots ist unter dem Namen "googlebot" bekannt. Eine umfangreiche Liste mit unterschiedlichsten Robot-Bezeichnungen findet sich auf der Webseite von   robotstxt.org.

Die robots.txt-Datei ist eine reine Textdatei. Sie kann zwei unterschiedliche Anweisungen beinhalten, die jedoch (mit einigen Einschränkungen) beliebig oft angegeben sein dürfen. Die Funktionsweise soll zur besseren Verständlichkeit an einigen Beispielen erläutert werden (Kommentare sind jeweils durch das einleitende Gatterzeichen "#" markiert):

# 1. Alle Robots dürfen alle Dateien und Verzeichnisse indexieren
User Agent: *
Disallow: /

# 2. Indexierungsgebot des gesamten Webangebotes für alle Robots
User Agent: *
Disallow: /

# 3. Der im Verzeichnis /internes liegende Ordner /projekte darf
# ebenso wie die projekte.shtml-Datei von keinen Robots indexiert
# werden
User-Agent: *
Disallow: /internes/projekte/
Disallow: /projekte.shtml

# 4. Der Googlebot und Yahoo!s slurp darf die genannten .gif- und
# .jpeg-Dateien nicht indexieren, alle anderen Robots schon
User-Agent: googlebot
User-Agent: slurp
Disallow: /geschaeftsbericht.gif
Disallow: /mitarbeiter.jpeg

Die Angabe "alle Robots" wird über das Wildcard-Zeichen "*" gelöst. Nach der Verwendung darf keine weitere "User Agent"-Angabe erfolgen. Bei der "Disallow"-Anweisung ist die Wildcard hingegen nicht erlaubt. Werden die gleichen Indexierungsverbote für unterschiedliche Robots ausgesprochen, muss jede "User Agent"-Angabe in einer eigenen Zeile erfolgen. Verzeichnisse müssen jeweils mit einem Schrägstrich abgeschlossen werden, da sonst beispielsweise in Bsp. 3 auch eine im /internes-Ordner liegende Datei namens projekte.html von der Indexierung ausgeschlossen wäre. Sollen suchmaschinen-spezifische Angaben verwendet werden, so muss zwischen der "Disallow"-Anweisung des ersten und der "User-Agent"-Angabe des zweiten Robots eine Leerzeile eingefügt werden.

Fehler in der Syntax einer robots.txt-Datei können im schlimmsten Fall dazu führen, dass die gesamte Seite nicht indexiert wird. Daher ist es sinnvoll, die Datei durch einen Syntax-Checker prüfen zu lassen. Diese finden sich kostenlos im Internet.

Bei der Verwendung der robots.txt-Datei ist es wichtig, dass diese unter der exakten Schreibweise "robots.txt" im Wurzelverzeichnis des Webangebotes der Domain abgelegt wird, da sie ansonsten von Suchmaschinen-robots nicht gefunden werden kann. Wenn der Domainname meinedomain.de lautet, muss die Datei auf oberster Ebene abgelegt werden, in dem meist auch die entsprechende Startseite liegt. Die URL würde also http://www.meinedomain.de/robots.txt lauten. Probleme ergeben sich hierbei, wenn das Webangebot nicht über ein eigenes Wurzelverzeichnis verfügt, sondern als Homepageverzeichnis auf einem Webspace-Server liegt, wie es z.B. bei der fiktiven Domain www.webspace.de/meinedomain der Fall ist. An dieser Stelle (www.webspace.de/meinedomain/robots.txt) kann die robots.txt-Datei von den Robots nicht gefunden werden.

Verzeichnistiefe

Über den Einfluss der Verzeichnistiefe auf die Indexierung von Suchmaschinen herrscht große Uneinigkeit. Glöggler, der den Einfluss als sehr relevant einstuft, stützt seine Einschätzung auf die Ergebnisse empirischer Untersuchungen zur Verzeichnistiefe. Diese besagen, dass aktuelle Inhalte einer Webseite in der Ordnerstruktur relativ weit oben abgelegt werden, während veraltete oder irrelevante Dokumente meist in die Tiefen der Verzeichnisstruktur verschoben werden. Diese Erkenntnisse nutzen laut Glöggler auch Suchmaschinen für die Systematik des Indexierungsprozesses: Da das Ziel von Suchmaschinen die Erfassung relevanter Informationen ist, bevorzugen die Robots bei der Aktualisierung des Datenbestandes insbesondere die Dokumente des Webangebotes, die hierarchisch gesehen eher in oberen Ordnern abgelegt sind. Die dort befindlichen Inhalte werden nach Glögglers Ansicht nicht nur höher gewertet, sondern auch schneller vom Robot erfasst bzw. häufiger auf Änderungen überprüft.

Dem widersprechen bekannte SEO-Hilfeseiten sowie allgemeine Web-Foren zur Suchmaschinen-Optimierung. Die dort vorherrschende Meinung besagt, dass der entscheidende Faktor nicht die Verzeichnistiefe, sondern die Anzahl der Klicks ist, die ausgehend von der Startseite bis zum Erreichen einer Unterseite benötigt wird. Dieser Weg sollte möglichst kurz gehalten werden.

Auch Siemers unterstützt diese Ansicht und empfiehlt als Richtwert eine Linkstruktur, bei der max. drei bis vier Klicks zu jeder Unterseite erforderlich sind.

Alby/Karzauninkat dfn>Tom Alby - Stefan Karzauninkat - Buchautoren - Suchmaschinen-Optimierung hingegen sehen keinen Widerspruch in den zwei Meinungen und greifen daher beide Ansichten als Handlungsempfehlungen auf. Sie empfehlen neben einer einfachen und klaren Linkstruktur eine möglichst flache Ordnerstruktur, die nicht nur für Suchmaschinen sondern auch für Nutzer hilfreich ist:

Der Vorteil eines völligen Verzichts auf lange Schachtelungen von Verzeichnissen sind eine kurze, leicht zu merkende URL und die Chance, dass Suchmaschinenroboter solche flachen Verzeichnisbäume sehr gut spidern können.

Benennung von Verzeichnissen und Dateien

Die Anforderung einer für Nutzer leicht merkbaren URL beinhaltet die Notwendigkeit von aussagekräftigen Verzeichnis- und Dateinamen. Die Benennung ist jedoch nicht nur aus Nutzersicht relevant, sondern stellt insbesondere für die Suchmaschinen-Optimierung einen nicht zu vernachlässigenden Faktor dar. Da die URL einen wichtigen Anteil bei der Gewichtung eines Dokumentes beträgt, sollten relevante Keywords nicht nur erwähnt im Dokumenttitel erscheinen, sondern ebenfalls im Verzeichnis- und Dateinamen verwendet werden. Auch hier sollte insbesondere bei der Verwendung oder Auswahl eines Content Management Systems große Aufmerksamkeit walten, denn diese erstellen Datei- und Verzeichnisnamen oft automatisiert.

Bei der Benennung der Verzeichnisse und Dateien ist außerdem darauf zu achten, dass einzelne Keywords durch Bindestriche voneinander getrennt werden, da Unterstriche nicht von allen Suchmaschinen als Trennzeichen erkannt werden. So wird z.B. der Dateiname aktuelle_news.html von Suchmaschinen als "aktuellenews" ausgelesen, während die Keywords der Datei aktuelle-news.html korrekt getrennt als "aktuelle news" erkannt werden.

Wie in diesem Beispiel zu sehen ist, werden relevante Keywords der Produktkategorien bereits in der Ordnerstruktur aufgegriffen. So ist ein Verzeichnis www.schuhfirma.de/sportschuhe/fussball/ aussagekräftiger als die eher kryptische Benennung www.schuhfirma.de/sps/fb/. Bei der Verwendung der Keywords ist jedoch darauf zu achten, dass diese nicht übertrieben häufig verwendet werden. Ein solcher Versuch kann als Keyword-Stuffing bewertet werden und führt schlimmstenfalls zum Ausschluss von der Indexierung. So ist beispielsweise die Verwendung der URL www.schuhfirma.de/schuhe/schuh/schuh.html als kritisch einzustufen.

Interne Links

Für die in der Verzeichnisstruktur liegenden Dokumente ist - wie bereits erläutert - die von der Startseite ausgehende Erreichbarkeit in maximal vier Klicks für die Relevanzbewertung von besonderer Bedeutung. Die beste Möglichkeit zum Aufbau einer optimalen Linkstruktur mit kurzen Wegen zu den Dokumenten bietet die Navigationsstruktur des Webangebotes. Diese sollte für Suchmaschinen, aus Usability-Gründen aber auch für die Nutzer, kategorisch sinnvoll gestaltet sein.

Bei Webseiten, die mehrere hundert Dokumente beinhalten, ist der Aufbau einer Linkstruktur, bei der max. vier Klicks zum Erreichen der Dokumente benötigt werden, häufig nur schwer möglich. In diesem Fall bietet sich die Verwendung einer Sitemap an. Sitemaps geben alle Seiten des Webangebotes - meist hierarchisch geordnet - wieder und bieten den Suchmaschinen ebenso wie den Nutzern einen schnellen Überblick über die Seitenstruktur. Da die angegeben Seitennamen mit einem Link zum Dokument selbst versehen sind, können Suchmaschinenrobots hierüber alle Dokumente der Webseite erreichen. Es bietet sich an, den Link zur Sitemap an einer wenig störenden Stelle permanent zu integrieren, z.B. am unteren Rand der Webseite. In diesem Zusammenhang sei wiederum auf das Sitemap-Programm bzw. die Webmaster Tools von Google verwiesen, das Webseite-Betreibern die Übermittlung der Sitemap des Webangebotes ermöglicht, um alle Dokumente erfassen zu können.

Neben der Verlinkung der Dokumente über die Navigation sollten jedoch auch thematisch zusammenhängende Dokumente miteinander verlinkt werden. Verlinkungen, die über die seiteneigene Navigation oder über die Dateiinhalte vorgenommen werden, werden als interne Links bezeichnet. Die Verwendung interner Links hat zwei Gründe: Zum einen führt eine gute Verlinkung zur Auffindbarkeit aller Dokumente - sowohl für die Suchmaschinenrobots als auch die Nutzer. Zum anderen hat auch die Link Popularity, also die Anzahl der Links auf ein Dokument, Einfluss auf die Gewichtung des Dokumentes. So erhält eine Seite, die über alle Dokumente des Webangebotes verlinkt ist, ein besseres Ranking als wenn sie nur von ein paar Unterseiten verlinkt wird. Es ist jedoch zu beachten, dass internen Links auf ein Dokument im Gegensatz zu einer von externen Dokumenten ausgehenden Verlinkung wesentlich weniger Gewicht bei der Link Popularity zukommt.

Am Beispiel der Linkstruktur des oben eingeführten Beispiels der Schuhfabrik wird die Vorgehensweise bei der inhaltlichen Verlinkung verdeutlicht:

  • Von der Startseite des Webangebotes führen Links zu den jeweiligen Hauptkategorien:
    Inhaltlich wird die Produktpalette vorgestellt; die Kategorienamen Kinder-, Damen-, Herren- und Sportschuhe führen über den Textlink zu den jeweiligen Hauptseiten der Kategorien
  • Ausgehend von jeder Hauptseite werden die einzelnen Unterseiten der Kategorie verlinkt:
    Auf der Kinderschuh-Seite ist eine Übersicht aller Kinderschuhe integriert, die jeweils über Links zu den entsprechenden Produkt-Detailseiten führen. Verfügt die Hauptseite wiederum über weitere Unterkategorien, wie z.B. bei den Damenschuhen, dann setzt sich die Übersicht der Kategorien rekursiv fort.
  • Von Unterseiten gelangt man über einen Link wieder zur übergeordneten Seite:
    Von der Produkt-Detailseite einer Sandale gelangt der Nutzer wieder zur Übersicht aller Sandalen.
  • Thematisch zusammengehörige Dokumente einer Unterseite werden miteinander verlinkt:
    Einer der Kinderschuhe hat aufgrund seiner außergewöhnlichen Produktionsweise sehr viele Detailangaben, die auf mehrere Seiten verteilt sind. Die Seiten sind chronologisch untereinander verlinkt - Seite 1 verlinkt zu Seite 2 usw.
  • Ähnliche Dokumente können miteinander verlinkt werden:
    Häufig ähneln sich Produkte in Bezug auf Eigenschaften oder Produktionsweise und können somit für den Nutzer ebenfalls interessant sein. Wenn ein weiterer Kinderschuh ähnliche Eigenschaften aufweist, kann es sinnvoll sein, zu dessen Produkt-Detailseite zu verlinken.
  • Aktuelle Meldungen werden bereits auf der Startseite angekündigt:
    Die Entwicklung eines innovativen Herrenschuhs, der Geruchsbildung gänzlich verhindert, wurde gerade abgeschlossen. Aufgrund des baldigen Markteintritts wird der Schuh bereits auf der Startseite angekündigt. Über einen Link gelangt der Nutzer zur Detailseite, die wiederum unter Herrenschuhe zu finden ist.

Über die interne Verlinkung der Dokumente wird sichergestellt, dass alle Unterseiten des Webangebotes für Suchmaschinen auffindbar sind. Wie das obige Beispiel verdeutlicht, ist eine inhaltliche Verlinkung jedoch nicht nur für die Suchmaschinen-Optimierung relevant, sondern resultiert vor allem für den Nutzer in einer logischen Führung durch das Webangebot.

Was für einen Besucher Sinn macht, bereichert auch die Webseite und liefert Futter für die Robots, was für Nutzer verwirrend ist, kann (von der Suchmaschine) als Manipulationsversuch ausgelegt werden.

Daher sollte darauf geachtet werden, dass Seiten nicht wahllos miteinander verknüpft werden, sondern dass der thematische Zusammenhang immer gegeben ist.

In Bezug auf die interne Verlinkung ist neben deren tatsächlichen Funktionstüchtigkeit auch die Benennung der Links von großer Bedeutung. Hier sollte möglichst das Keyword verwendet werden, das für die inhaltliche Beschreibung des verlinkten Dokumentes am relevantesten ist. So sollte auf der Startseite der Schuhfirma aus obigem Beispiel für die Verlinkung zur Hauptkategorie "Damenschuhe" auch möglichst dieses Schlüsselwort genutzt werden.

Textgestaltung und inhaltliche Ausrichtung

Die IR-Systeme der Suchmaschinen analysieren ein Dokument mit dem Ziel, die Schlüsselwörter zu identifizieren, die den Inhalt des Dokumentes am besten repräsentieren. Mit Hilfe der unterschiedlichen Gewichtungs-Verfahren wird daraufhin die Relevanz des Dokumentes ermittelt. Je relevanter ein Dokument in Bezug zur Suchanfrage eines Nutzers ist, desto öher wird es in den Ergebnisseiten positioniert. Bei der inhaltlichen Optimierung des Webangebotes müssen daher die bei der Keyword-Analyse gefundenen Schlüsselwörter so in die Inhalte der einzelnen Dokumente integriert werden, dass sie die Gewichtungsfaktoren der Suchmaschine möglichst optimal berücksichtigen.

Ein weit verbreiteter Fehler ist die Optimierung eines Dokumentes auf möglichst viele unterschiedliche Keywords. Diese Vorgehensweise trägt nicht zur besseren Auffindbarkeit bei. Aufgrund der Systematik der IR-Systeme werden gerade die Dokumente hoch bewertet, die ein Thema oder einige wenige Themen zum Schwerpunkt haben. Daher erreicht ein Dokument tendenziell eher dann ein gutes Ranking, wenn es nur auf wenige Keywords hin optimiert wurde. Erfahrungsgemäß sollte die Anzahl der Keywords, auf die ein Dokument optimiert wird, zwischen drei bis fünf liegen. Da auch innerhalb eines thematischen Kontextes mehrere inhaltliche Schwerpunkte möglich sind, sollten diese ggf. auf mehrere Dokumente verteilt werden. So erhält jede Seite ein Hauptthema, dass sich mit wenigen Keywords beschreiben lässt. Insbesondere bei häufig verwendeten Keywords eines wettbewerbsstarken Branchenumfeldes sollte ein Dokument auf lediglich ein bis zwei Keywords optimiert werden.

Wie bereits erwähnt wurde, beeinflussen verschiedene Gewichtungsfaktoren die Relevanzbewertung eines Dokumentes. Diese müssen bei der Optimierung berücksichtigt werden. Den größten Einfluss auf die inhaltliche Relevanzbewertung eines Dokumentes haben die nachfolgend aufgelisteten Kriterien:

  • Keyword-Identity (Keyword-Identität)
  • Keyword-Density (Keyword-Dichte)
  • Keyword-Proximity (Keyword-Nähe)
  • Keyword-Lage

Das Alt-Attribut

Auch Grafiken werden oftmals in Dokumente integriert. Sie dienen z.B. zur Verdeutlichung des Inhaltes oder werden anstelle der Textlinks zur internen Verlinkung anderer Dokumente verwendet. Um eine Benennung der Grafiken vorzunehmen, steht das alt-Attribut des <img>-Tags zur Verfügung. Ursprünglich wurde dies genutzt, um den Anwendern im Fall einer nicht möglichen Anzeige durch den Browser Beschreibungen zum Bildinhalt zu geben. Die alt-Attribute sichern auch den verständlichen Zugriff auf Webseiten mittels Screenreadern, die insbesondere blinden Personen einen Zugang zum Internet verschaffen. Auch Suchmaschinen analysieren die Inhalte der alt-Attribute und berücksichtigen sie bei der Relevanzbewertung. Daher sollten diese zur inhaltlichen Beschreibung der Grafiken genutzt werden. An dieser Stelle bewahrheitet sich die von Usability- und SEO-Experten immer wieder vorgetragene Erfahrung, dass suchmaschinenfreundliche Seiten zugleich auch barrierefreie Seiten sind und vice versa.

Insbesondere bei internen Links kann das alt-Attribut verwendet werden, um Keywords unterzubringen, die aufgrund des fehlenden Textes sonst nicht positioniert werden können. Da Suchmaschinen Bilder zwar indexieren, inhaltlich jedoch (noch) nicht analysieren können, werden diese bei der Bildsuche einer Suchmaschine hauptsächlich durch die inhaltliche Beschreibung in den alt-Attributen sowie anhand des Dateinamens für Nutzer auffindbar. Daher ist ebenfalls auf eine aussagekräftige Dateibezeichnung zu achten. So kann z.B. das Produktfoto eines Computers mit dem bereits populären Namen "SuperBlaster" unter sinnvoller Dateibezeichnung und Verwendung des alt-Attributes über das folgende: <img>-Tag im HTML-Code integriert werden.

<img src="superblaster.jpeg" alt="SuperBlaster Produktfoto">