Crawler, Spider, Robots und Bots sperren.

Unliebsame Besucher per robots.txt oder .htaccess sperren.

Erstellt am Samstag, 04. Oktober 2014 15:30 Uhr



Mit starken und themenrelevanten Backlinks sind Top Positionen auf Google möglich. Jetzt aktuelle Informationen zu unserem Angebot Backlinks kaufen lesen!

Oft werde ich von Kunden gefragt, welche Möglichkeiten es gibt, um Crawler / Bots jeglicher Art zu sperren und somit die eigenen Webinhalte nicht für Dritte (außer Google) sichtbar zu machen.

Es gibt zwei Möglichkeiten: Entweder über die Datei robots.txt oder über die Datei .htaccess. Am zuverlässigsten ist die .htaccess Variante. Ich möchte in diesem Artikel beide Varianten vorstellen.

Was ist ein Crawler?

Ein Crawler (auch Spider, Robot oder Bot) ist ein Computerprogramm, welches fortlaufend Daten über Domains und Webinhalte sammelt. Der Datenbestand wird beispielswiese im Rahmen von SEO Dienstleistungen kostenpflichtig und manchmal auch kostenlos zur Verfügung gestellt.

Anhand dieser Daten können Webmaster beispielswiese den Sichtbarkeits­verlauf, die ausgehenden Links oder die Keyworddichte Ihrer Webseite/Domain ein­sehen. Um den Zugriff eines Crawlers auf die eigene Website zu verhindern, ist die Erstellung der Datei robots.txt oder der Datei .htaccess notwendig.


Welche Crawler sollten ausgeschlossen werden?

Grundsätzlich liegt diese Entscheidung natürlich immer im Ermessen des Webseiteninhabers. Sie sollten jedoch in jedem Fall darauf achten, keinesfalls den Googlebot auszusperren. ;-)

Das Sperren der Webcrawler hat zur Folge, dass keine Daten über Ihre Domain in den Datenbestand aufgenommen werden. Ihre Konkurrenz kann somit nicht mehr nachvollziehen, welche ausgehenden Links Ihre Website hat oder wie sich die Sichtbarkeit Ihrer Domain im Laufe der Zeit verändert hat. Des Weiteren werden durch diese Maßnahme auch System­ressourcen Ihres Servers geschont, was letztlich auch im Interesse Ihres Hosters sein dürfte.


Wie könnte die robots.txt & .htaccess aussehen?

Ich möchte hier für alle interessierten Webmaster meine Version der Datei robots.txt & .htaccess zur Verfügung stellen. Durch den Einsatz dieser Datei(en) werden die meisten SEO Crawler, wie zum Beispiel Sistrix, Xovi, SEOkicks, Open Site Explorer (MOZ), SEOprofiler / OpenLinkProfiler oder auch Searchmetrics gesperrt. Die Datei(en) müssen im root Verzeichnis (Hauptverzeichnis) Ihres Servers liegen. Innerhalb dieser Datei(en) kann nun festgelegt werden, welche Crawler gesperrt werden sollen.

Inhalt der Datei robots.txt. (61 Webcrawler / 08.10.14)



Inhalt der Datei .htaccess. (61 Webcrawler / 08.10.14)



Die folgenden Webcrawler werden gesperrt:
SEOkicks: seokicks.de
Sistrix: sistrix.de
MajesticSEO: majesticseo.com
BacklinkCrawler: backlinktest.com
Xovi: xovi.de
MJ12bot: majestic12.co.uk
spbot: seoprofiler.com
Searchmetrics: searchmetrics.com
search17: search17.com
AhrefsBot: ahrefs.com
ia_archiver: archive.org
TurnitinBot: turnitin.com
SlySearch: slySearch.com
findlinks: wortschatz.uni-leipzig.de/findlinks/
magpie-crawler: brandwatch.net
Pixray-Seeker: pixray.com
008: 80legs.com
DotBot: opensiteexplorer.org (moz.com)
lb-spider: linkbutler.de
WBSearchBot: warebay.com
psbot: picsearch.com
HuaweiSymantecSpider: huaweisymantec.com
EC2LinkFinder: unbekannt
htdig: htdig.org
SemrushBot: semrush.com
discobot: discoveryengine.com
linkdex: linkdex.com
SeznamBot: fulltext.sblog.cz
EdisterBot: edister.com
SWEBot: swebot-crawler.net
picmole: picmole.com
Yeti: naver.com
PagePeeker: pagepeeker.com
CatchBot: catchbot.com
yacybot: yacy.net
netEstate: sengine.info
SurveyBot: domaintools.com
COMODO SSL Checker: sslanalyzer.comodoca.com
gonzo2: suchen.de
Crawler schrein: schrein.nl
Afilias Web Mining Tool 1.0: afilias.info
suggybot: suggy.com
bdbrandprotect/BPImageWalker: bdbrandprotect.com
Updownerbot: updowner.com
lex: lexcrawler.blogspot.de
Content Crawler: unbekannt
DCPbot: domains.checkparams.com
KaloogaBot: kalooga.com
MLBot: metadatalabs.com
iCjobs: icjobs.de
oBot: filterdb.iss.net
webmastercoffee: webmastercoffee.com
Qualidator: qualidator.com
Webinator Scooter: thunderstone.com
larbin: unbekannt
OpidooBOT: unbekannt
ips-agent: verisign.de (Quelle: wetena.com)
TinEye: tineye.com
UnisterBot: unister.de
ReverseGet: reverseget.com
Ezooms: moz.com


Anregungen, Fragen & Kritik


Knothe Media News

04.08.2017
Gastartikel veröffentlichen
19.06.2017
SEO Tool: Wise SEO Suite
16.04.2017
Responsive Formulare
05.04.2017
Wichtige SEO Maßnahmen
29.12.2016
SEO im Jahr 2017
11.10.2016
Privates Blog Netzwerk aufbauen
06.10.2016
Mobile Webseite erstellen
23.08.2016
Presse aktualisiert
14.07.2016
Wird SEO überbewertet?
15.03.2016
Referenzen aktualisiert
24.10.2015
Knothe Media goes mobile!
18.09.2015
Expired Domains finden & kaufen

Google Updates

23.09.2016
Penguin Update 4.0 (Real-time)
12.05.2016
Mobile-friendly 2 Update
08.01.2016
Google Core Update
26.10.2015
RankBrain Update 1.0
17.07.2015
Panda Update 4.2
13.05.2015
Google Phantom Update
17.10.2014
Penguin Update 3.0
25.09.2014
Panda Update 4.1
20.05.2014
Panda Update 4.0