robots.txt für WordPress

Gepostet am: 09-10-2011 von Kaycosmic

Die robots.txt enthält Anweisungen für Robots(Webcrawler) von Suchmachinen. Mit ihr kann man diesen Robots mitteilen, welche Verzeichnisse sie durchsuchen bzw. nicht durchsuchen dürfen. Diese Datei muss im Hauptverzeichnis der Domain abgelegt werden. Weiterhin darf sie nicht umbenannt werden, sonst wird sie nicht erkannt von den Robots. Falls ihr euer WordPress so wie ich meins in einem Unterverzeichnis liegen habt, müsst ihr natürlich dieses Unterverzeichnis mit angeben. Dies ist im Beispiel nicht berücksichtigt.

Damit das ganz klar ist, durch die Anweisungen könnt ihr nichts von eurer Webseite vor den Robots verstecken. Eigentlich dient es dazu den Aufwand der Robots, eure Seite zu crawlen, zu minimieren. D.h. Robots können die robots.txt auch ignorieren, denn es gibt nicht nur gute Arten von Robots, sondern auch die Bösen. Die robots.txt kann mit jedem Texteditor bearbeitet werden.

Wie im Beispiel unten zu sehen, gibt es drei Befehle: „User-agent“, „Disallow“ und „Allow“. Bei „User-agent“ gibt man an für welchen Robot die Regeln gelten sollen. Ein * heisst dabei, dass die Regel für alle Robots gelten sollen. Der Befehl „Disallow“ ermöglicht es den Robots zu sagen welche Verzeichisse nicht durchsucht werden sollen. Hingegen der Befehl „Allow“ genau das Gegenteil besagt, also das der Robot das angegebene Verzeichnis durchsuchen darf. „Allow“ wurde später erst eingeführt von der IETF und wird eventuell nicht von allen Robots verarbeitet.

# Datei robots.txt im Hauptverzeichnis der Domain ablegen
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads

# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*

# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*

# Internet Archiver Wayback Machine
User-agent: ia_archiver
Disallow: /

# digg mirror
User-agent: duggmirror
Disallow: /

# Falls eine sitemap.xml erzeugt wurde Hinweis wo sie liegt
Sitemap: http://www.beispiel-domain.de/sitemap.xml

Hinterlasse einen Kommentar

I accept that my given data and my IP address is sent to a server in the USA only for the purpose of spam prevention through the Akismet program.More information on Akismet and GDPR.