Die robots.txt, oder "Wie wehre ich nicht-menschliche Benutzer ab?"

Bei der robots.txt handelt es sich um eine einfache Textdatei, die sich im Hauptverzeichnis des Webspace befindet. Aufgabe dieser Datei ist es, sogenannte "Spider" oder "Robots" davon abzuhalten, auf bestimmte Verzeichnisse/Dateien zuzugreifen. Damit könnte man beispielsweise Suchmaschinen davon abhalten, die letzten Urlaubsbilder zu indizieren.
Leider gibt es ein kleines Problem: Robots sind nicht zwangsläufig an die Anweisungen in der robots.txt gebunden. Gerade bösartige Vertreter ignorieren die Anweisungen oder fragen sie gar nicht erst ab. Gegen sie hilft effektiv nur ein Aussperren der IP-Adresse mittels .htaccess-Datei.

Links zu diesem Thema:
http://www.searchcode.de/artikel/robotstxt.php - Artikel mit umfangreichen Informationen zur robots.txt
http://www.robotstxt.org/ - Englische Seite rund um robots.txt
http://www.abakus-internet-marketing.de/f...73.html - "Eine kleine Robots Einführung für Neulinge" mit viel Wissenswertem

In der Badlist sind eben solche Spider zu finden, die die robots.txt ignorieren und daher über die .htaccess ausgesperrt werden sollten. Aus dieser Liste ergibt sich folgender Inhalt für die .htaccess:
# htaccess-Eintraege generiert aus der badlist von browser-statistik.de

## Mozilla/4.0 (compatible; MSIE 5.0; Windows NT)
deny from 193.30.232.1


## Mozilla/4.0 (compatible; MSIE 5.0; Windows NT)
deny from 194.88.255.225


## Mozilla/4.0 (compatible; MSIE 5.0; Windows NT)
deny from 194.95.179.129


## Mozilla/4.0 (compatible; MSIE 5.0; Windows NT)
deny from 203.114.137.66


## Mozilla/4.0 (compatible; MSIE 5.0; Windows NT)
deny from 203.94.169.125


## Mozilla/4.0 (compatible; MSIE 5.0; Windows NT)
deny from 208.31.86.62


## Mozilla/5.0 (compatible; Konqueror/2.2-11; Linux)
deny from 209.8.20.194


## Java/1.4.2_03
deny from 212.241.211.180


## Mozilla/4.0 (compatible; MSIE 5.0; Windows NT)
deny from 213.153.56.129


## libwww-perl/5.805
deny from 64.92.199.12


## Java/1.6.0_01
deny from 77.249.25.96


## Microsoft URL Control - 6.00.8862
deny from 80.253.81.67


## Java/1.5.0_06
deny from 81.182.29.45


## Java/1.4.1_04
deny from 82.78.87.81


## MJ12bot/v1.0.8 (http://majestic12.co.uk/bot.php?+)
deny from 84.79.187.59


## Java/1.6.0_02
deny from 85.192.233.66