Wie nutze ich richtig die robots.txt

Was ist eine Robots.txt

Es herrschen einige Mythen und widersprüchliche Aussagen über die Verwendung und Wirkung von der robots.txt. Ich halte es für wichtig, einige der Mythen mal zu beleuchten und Licht ins Dunkle zu bringen.

Das robots exclusion protocol (REP) oder auch einfach gesagt die robots.txt, ist eine Textdatei. Diese gibt den Suchmaschinen-Robotern ( kurz robots, crawler oder spider genannt ) Einschränkungen oder Anweisungen, wie sie sich im Webspace der Domain zu verhalten haben. Das heisst: Anweisungen für spezifische, oder alle Robots, werden dort ausgewertet, bevor ein Suchmaschinen-Roboter die gesamte Seite einmal absucht und für den Suchindex mit aufnimmt. Man kann diese Textdatei auch für SEO (Search Engine Optimization) nutzen, dadurch dass die robots bestimmte Verzeichnisse aufsuchen dürfen und andere wieder nicht.

Eine robots.txt dient NICHT dazu, einem Spider/Crawler/Robot (alles ähnliche Automatismen) der Suchmaschine und anderen Crawlern mitzuteilen, welche Seiten sie sehen und sammeln dürfen, sondern primär dazu, welche Seiten (und Verzeichnisse) sie NICHT sehen und sammeln dürfen. Das bedeutet jedoch nicht im Umkehrschluss, dass ich nicht explizit Verzeichnisse und Seiten erlauben kann. Dadurch wird die Seite aber im Ranking nicht nach oben rutschen, man kann aber verhindern dass sie unter Umständen vom Ranking abfällt. Oder man kann verhindern das die Seite nicht mehr aufrufbar ist, da der Webserver durch die Suchmaschinen-Roboter (nachfolgend Robots) zu viel zu tun hat.

Es gibt einige Gründe, die für das Benutzen einer robots.txt sprechen.

  1. Nicht alle Robots, die Ihre Seite besuchen, haben gute Absichen! Es gibt viele, viele,viele, ja sehr viele Robots, deren einziger Zweck im Scannen Ihrer Webseite besteht. Einige extrahieren Ihre E-Mailadresse zum Zwecke von Spam! Andere suchen Schwachstellen oder versuchen durch das durchsuchen von Kalendern bis in das Jahr XXXXX (stellen Sie sich eine utopisch große Zahl vor) , den Webserver extrem zu belasten und das normale Besuchen der Seite unmöglich zu machen. Eine Liste der „schlechten“ Robots folgt später noch.
  2. Möglicherweise haben Sie Ihre Webseite noch nicht fertig erstellt oder sie beinhaltet bestimmte, zu schützende Teile. Ich habe zum Beispiel alle Robots vor jeder Seite meiner Website ausgeschlossen, solange ich die Seiten noch designte. Ich wollte nicht, dass eine halb-fertige, nicht optimierte Seite mit einer unvollständigen Linkstruktur indiziert wird. Dies hätte dann ein schlechtes Licht auf mich und meine Arbeit geworfen. Als die Website dann fertig war, erhielten die Robots auch Zugriff. Dieses Vorgehen gilt im Übrigen auch für die Zeit des Relaunches einer Website.
  3. Sie besitzen einen Mitgliedsbereich, der nicht im Google Cache auftauchen soll. Dem Robot den Zutritt zu verweigern stellt einen Weg dar, dies zu realisieren. Oder sie wünschen den Zugriff nur ein einen bestimmten Bereich? Zum Beispiel wenn Sie eine Events-Seite haben, und nur die Seite mit bestätigten Events auflisten lassen möchten? Auch das ist möglich.
  4. Es gibt Dinge, die Sie privat halten möchten. Das Indizieren von Profilen in Foren aus Gründen des Datenschutzes zu unterbinden kann ein Beispiel sein. Einige Webmaster blockieren den Robots auch den Zugriff auf ihr cgi-bin oder den Grafikverzeichnissen (cgi-bin Verzeichnisse gibt es bei uns nicht).
  5. Lassen Sie uns nun eine sehr einfache robots.txt Datei analysieren.

Wofür und wie nutze ich die robots.txt

Wenn alles geblockt werden soll, und das von jedem Robot:

User-agent: *
Disallow: /

Das ist die einfachste Variante einer robots.txt. Ich sprach sie bereits in Punkt 2 des vorhergehenden Absatz an.
Wenn ein Robot sich zu erkennen gibt, dann nennt er seinen Agent, zum Beispiel: Googlebot.

User-agent: *
Disallow: /
User-agent: Googlebot
Disallow: /no-google/

Jetzt haben wir allen Bots (Kurzform von Robots) alles verboten, außer dem Googlebot, der darf jedoch das Unterverzeichnis /no-google/ nicht sehen.
Nutze dieses Vorgehen mit Vorsicht!
Das folgende Beispiel verbietet den Zugriff auf den Ordner-mit-sonstwas-drin, und allem was darin ist, inklusive weitere Unterordner und Dateien.

Disallow: /Ordner-mit-sonstwas-drin/

Weiterhin kann ich auch allen den Zugriff auf eine Seite verbieten, aber einem auch den Zugriff gestatten!

User-agent: *
Disallow: /no-bots/blocke-alle-ausser-google.html
User-agent: Googlebot
Allow: /no-bots/blocke-alle-ausser-google.html

Interessant ist auch der sitemap-Parameter. Die sitemap.xml enthält alle finalen Seiten (URL’s). Googlebot kann diese für Suchanfrage somit besser auswerten.

User-agent: *
Disallow: /
User-agent: Googlebot
Allow: Sitemap: http://www.meineSeitezumBeispiel.de/irgendeinOrt/sitemap.xml

Es gibt auch die Möglichkeit begrenzt reguläre Ausdrücke zu nutzen. Das bedeutet, man kann Platzhalter nutzen um Inhalte und Dateien mit speziellen Endungen, wie zum Beispiel die folgende Anweisung, die Powerpoint-Dateien verbietet:

Disallow: *.ppt$

Am besten liegt die robots.txt in dem Hauptverzeichnis der Domain, zum Beispiel: http://www.meineSeitezumBeispiel.de/robots.txt
Nutze die robots.txt, aber nutze sie weise. Sie ist wie die Vorschlaghammer-Methode. Subtil, aber wirkungsvoll.
Es gibt für SEO-Methoden bessere Optionen, wie zum Beispiel meta robots tags usw. Nützliche Informationen findest du dazu zum Beipiel direkt bei Google.

Nun zu ein paar Mythen:

„Suchmaschinen daran zu hindern bestimmte Verzeichnisse auszulesen, hindert sie daran doppelten Inhalt festzustellen. Zum Beispiel wenn man „Druckversionen“ von bestimmten Seiten zur Verfügung stellt. Die Suchmaschinen sollten nur den Onlineinhalt sehen dürfen, nicht die optimierten Seiten für den Nutzer.“
Falsch. Die robots.txt ist dafür der falsche Ort. Es gibt bessere Varianten um solche Szenarien zu verarbeiten. Denn durch das Ausschlussverfahren (disallow) wird auch alles darunter Liegende verboten.

„Benutze keine Kommentare in deiner robots.txt.“
Falsch! Man sollte immer wenn möglich Kommentare nutzen, es gibt keinen Grund dies nicht zu tun. Es ist als ob man Quelltext, Programmcode, oder allgemein Einträge kommentiert. Einfach machen!

„Es gibt kein „allow“ Kommando in der robots.txt. Also brauchst du das auch nicht in die Datei zu schreiben.“
Falsch! Es ist sogar recht sinnvoll dies zu nutzen. Habe ich einen Ordner den ich verbiete, aber ein Unterordner, und nur diesen, möchte ich erlauben, dann nutze ich exakt dieses Kommando:

User-agent: *
Allow: /verbotenerordner/erlaubterordner/
Disallow: /verbotenerordner/

Zusätzliche Info beim CMS WordPress

Diese Information gilt auch für andere CMS (Content-Management-Systeme, Webseitensysteme), wie Joomla oder Drupal.
Es kann sein, das zum Beispiel Google meldet: „Aufgrund der robots.txt dieser Website ist keine Beschreibung für dieses Ergebnis verfügbar.“ (A description for this result is not available because of this site’s robots.txt).Jedoch beim genauer Hinsehen wird keine robots.txt gefunden. Des Rätsels Lösung war dann recht einfach:
„WordPress erstellt eine virtuelle robots.txt, die kontrolliert wird von der Option “Search Engine Visibility” in /…/wp-admin/options-reading.php.“
Auch andere Webseiten-Systeme wie Joomla oder Drupal bieten solche Möglichkeiten. Wenn man also an einer robots.txt arbeitet, sollte beachtet werden, dass vielleicht unter Umständen schon eine existent ist. Bitte lesen Sie dazu die Hilfe oder Anleitungen für das entsprechende CMS.

„Die robot.txt schützt mich vor allen bösen Robots, Crawlern und Spidern!“
FALSCH! Sie schützt nur vor den aktuell bekannten, die auch die robots.txt lesen. Leider gibt es auch viele die einfach darauf verzichten die robots.txt zu lesen und zu beachten. Diese verursachen zwar nicht viel Last, können aber lästig werden. Sie lesen gerne E-Mailadressen aus und spammen dann die gefundenen Adressen zu. Unsere Kunden sind durch uns recht gut geschützt, aber auch jeder Andere kann sich dort selbst helfen. Hier greift dann der sogenannte .htaccess-Schutz.  Eine andere Möglichkeit ist ein E-Mailpostfach oder die ganze Webseite mit Postfächern bei uns zu hosten.

Interesse? Dann schaut doch mal vorbei. :)

Eine Beispiel-robots.txt mit aktuell bekannten Bösewichtern findet ihr hier.
robotsbeispiel

  • 23. August 2013

  • I. Heinlein

  • Keinen Kommentar


Kommentar abgeben

Sie müssen eingeloggt sein um zu kommentieren.