Crawler, Spider, Robots und Bots sperren.
Unliebsame Besucher per robots.txt oder .htaccess sperren.
Erstellt am Samstag, 04. Oktober 2014 15:30 Uhr
Oft werde ich von Kunden gefragt, welche Möglichkeiten es gibt, um Crawler / Bots jeglicher Art zu sperren und somit die eigenen Webinhalte nicht für Dritte (außer Google) sichtbar zu machen.
Es gibt zwei Möglichkeiten: Entweder über die Datei robots.txt oder über die Datei .htaccess. Am zuverlässigsten ist die .htaccess Variante. Ich möchte in diesem Artikel beide Varianten vorstellen.
Was ist ein Crawler?
Ein Crawler (auch Spider, Robot oder Bot) ist ein Computerprogramm, welches fortlaufend Daten über Domains und Webinhalte sammelt. Der Datenbestand wird beispielswiese im Rahmen von SEO Dienstleistungen kostenpflichtig und manchmal auch kostenlos zur Verfügung gestellt.
Anhand dieser Daten können Webmaster beispielswiese den Sichtbarkeitsverlauf, die ausgehenden Links oder die Keyworddichte Ihrer Webseite/Domain einsehen. Um den Zugriff eines Crawlers auf die eigene Website zu verhindern, ist die Erstellung der Datei robots.txt oder der Datei .htaccess notwendig.
Welche Crawler sollten ausgeschlossen werden?
Grundsätzlich liegt diese Entscheidung natürlich immer im Ermessen des Webseiteninhabers. Sie sollten jedoch in jedem Fall darauf achten, keinesfalls den Googlebot auszusperren. ;-)
Das Sperren der Webcrawler hat zur Folge, dass keine Daten über Ihre Domain in den Datenbestand aufgenommen werden. Ihre Konkurrenz kann somit nicht mehr nachvollziehen, welche ausgehenden Links Ihre Website hat oder wie sich die Sichtbarkeit Ihrer Domain im Laufe der Zeit verändert hat. Des Weiteren werden durch diese Maßnahme auch Systemressourcen Ihres Servers geschont, was letztlich auch im Interesse Ihres Hosters sein dürfte.
Wie könnte die robots.txt & .htaccess aussehen?
Ich möchte hier für alle interessierten Webmaster meine Version der Datei robots.txt & .htaccess zur Verfügung stellen. Durch den Einsatz dieser Datei(en) werden die meisten SEO Crawler, wie zum Beispiel Sistrix, Xovi, SEOkicks, Open Site Explorer (MOZ), SEOprofiler / OpenLinkProfiler oder auch Searchmetrics gesperrt. Die Datei(en) müssen im root Verzeichnis (Hauptverzeichnis) Ihres Servers liegen. Innerhalb dieser Datei(en) kann nun festgelegt werden, welche Crawler gesperrt werden sollen.
Inhalt der Datei robots.txt. (61 Webcrawler / 08.10.14)
Inhalt der Datei .htaccess. (61 Webcrawler / 08.10.14)
Die folgenden Webcrawler werden gesperrt:
SEOkicks: seokicks.de
Sistrix: sistrix.de
MajesticSEO: majesticseo.com
BacklinkCrawler: backlinktest.com
Xovi: xovi.de
MJ12bot: majestic12.co.uk
spbot: seoprofiler.com
Searchmetrics: searchmetrics.com
search17: search17.com
AhrefsBot: ahrefs.com
ia_archiver: archive.org
TurnitinBot: turnitin.com
SlySearch: slySearch.com
findlinks: wortschatz.uni-leipzig.de/findlinks/
magpie-crawler: brandwatch.net
Pixray-Seeker: pixray.com
008: 80legs.com
DotBot: opensiteexplorer.org (moz.com)
lb-spider: linkbutler.de
WBSearchBot: warebay.com
psbot: picsearch.com
HuaweiSymantecSpider: huaweisymantec.com
EC2LinkFinder: unbekannt
htdig: htdig.org
SemrushBot: semrush.com
discobot: discoveryengine.com
linkdex: linkdex.com
SeznamBot: fulltext.sblog.cz
EdisterBot: edister.com
SWEBot: swebot-crawler.net
picmole: picmole.com
Yeti: naver.com
PagePeeker: pagepeeker.com
CatchBot: catchbot.com
yacybot: yacy.net
netEstate: sengine.info
SurveyBot: domaintools.com
COMODO SSL Checker: sslanalyzer.comodoca.com
gonzo2: suchen.de
Crawler schrein: schrein.nl
Afilias Web Mining Tool 1.0: afilias.info
suggybot: suggy.com
bdbrandprotect/BPImageWalker: bdbrandprotect.com
Updownerbot: updowner.com
lex: lexcrawler.blogspot.de
Content Crawler: unbekannt
DCPbot: domains.checkparams.com
KaloogaBot: kalooga.com
MLBot: metadatalabs.com
iCjobs: icjobs.de
oBot: filterdb.iss.net
webmastercoffee: webmastercoffee.com
Qualidator: qualidator.com
Webinator Scooter: thunderstone.com
larbin: unbekannt
OpidooBOT: unbekannt
ips-agent: verisign.de (Quelle: wetena.com)
TinEye: tineye.com
UnisterBot: unister.de
ReverseGet: reverseget.com
Ezooms: moz.com
Anregungen, Fragen & Kritik
Knothe Media News
- 15.06.2022
- Responsive Formulare
- 13.05.2021
- Privates Blog Netzwerk aufbauen
- 12.09.2020
- Referenzen aktualisiert
- 20.05.2020
- Referenzen aktualisiert
- 16.07.2019
- Referenzen aktualisiert
- 01.07.2018
- Erste Buchveröffentlichung
- 16.01.2018
- SEO Stammtisch Bremen
- 07.01.2018
- SEO im Jahr 2018
- 04.08.2017
- Gastartikel veröffentlichen
- 19.06.2017
- SEO Tool: Wise SEO Suite
- 05.04.2017
- Wichtige SEO Maßnahmen
- 06.10.2016
- Mobile Webseite erstellen
- 23.08.2016
- Presse aktualisiert
- 14.07.2016
- Wird SEO überbewertet?
- 15.03.2016
- Referenzen aktualisiert
- 24.10.2015
- Knothe Media goes mobile!
Google Updates
- 23.09.2016
- Penguin Update 4.0 (Real-time)
- 12.05.2016
- Mobile-friendly 2 Update
- 08.01.2016
- Google Core Update
- 26.10.2015
- RankBrain Update 1.0
- 17.07.2015
- Panda Update 4.2
- 13.05.2015
- Google Phantom Update
- 17.10.2014
- Penguin Update 3.0
- 25.09.2014
- Panda Update 4.1
- 20.05.2014
- Panda Update 4.0
Kategorien
SEO Themen
- SEO kostenlos
- Wichtige SEO Maßnahmen
- Kostenlose SEO Tools
- Rankingverlust durch Penalty
- Crawler/Spider/Bots sperren
- Was ist der Pagerank?
- GoDaddy: 60 Tage Sperre
- SEO im Jahr 2018
- Expired Domains finden
- Einen SEO Contest gewinnen
- Wird SEO überbewertet?
- Privates Blog Netzwerk (PBN)
- SEO Tool: Wise SEO Suite
Webmaster Themen
- Mobile Webseite erstellen
- HTML Umlaute/Sonderzeichen
- Responsive iFrames
- Responsive Formulare
- Wörter und Zeichen zählen