Schutz vor Scraperseiten, Plagiate & Datenklau

Mit den Verdienstmöglichkeiten, die Adsense & Co mit sich brachten, kam es, oh große Überraschung, zu immer illegaleren und frecheren Methoden User und Suchmaschinen-Bots auf Webseiten zu lenken, deren einziger Zweck ist, Geld mit Werbung zu verdienen und den unbedarften User durch geschicktes Webdesign und Platzieren von Werbung fast dazu zu “zwingen” auf Werbung zu klicken. Neben dem fünf milliardsten Linkverzeichnis (Über deren Sinn man von Fall zu Fall diskutieren kann) kamen besonders schlaue Köpfe darauf, den einfachsten Weg zu gehen… Warum selbst mühsam Inhalte schreiben und warten, wenn man doch einfach alles klauen und kopieren kann.

Scraperseiten, Content Grapper & Co

Wie Schwammerln (dt. Pilze) schießen solche Seiten aus dem Internet-Boden. So quasi das gesamte (ungeschützte) Internet wird geparst und kopiert, Links ersetzt und natürlich überall Werbung platziert. Im Prinzip kämpfen Webmaster nun mit dem gleichen Problem, dass die Kleidungsindustrie oder Automobilindustrie ja schon seit Jahren hat… der oft hoffnungslose Kampf gegen Plagiate. Die übrigens oft auch aus den gleichen Regionen unserer schönen Welt kommen, wie ihre “realen” Vorbilder. Und genau das ist auch eine Möglichkeit des Schutzes. Beispiel: Ein rein österreichisches Unternehmen, das auch nur regional tätig ist, kann somit getrost “Besucher” aus Russland, China und Co wegsperren. Auch auf die Gefahr hin, mögliche russische Oligarchen auf Einkaufstour auszuschließen ;-) Aber die können ja auch im Strabag oder Magna IPs herumsurfen, oder?

Die freudige Nachricht ist übrigens, dass mehrere große Grapper Seiten, wie webwarper.net, oder gizliweb.com  von Google endlich aus dem Index genommen wurden.

LAMP Webseiten:

(php, mysql, apache umgebung)
 
.htaccess – Datei:

htaccess Dateien sind Konfigurationsdateien, um eben u.a. Verzeichnisschutz, Url-Rewrite, oder auch PHP-Einstellungen zu steuern. Je nach Provider und Serverkonfiguration gibt es unterschiedlichste Möglichkeiten für Webmaster auf die Datei zuzugreifen. Am Besten einfach beim Provider nachfragen.

Für das manuelle Aussperren von unerwünschte Usern oder Bots, ist der Befehl “deny from” von zentraler Bedeutung.

Beispiel 1: mit deny from .cn oder deny from .ru können z.B. User, die über chinesische oder russische Provider surfen ausgesperrt werden.

Beispiel 2: um einzelne Webseiten auszusperren: deny from webwarper.net

Probleme:

Natürlich will man keine echten User, potentielle Kunden oder gar den Google-Bot aussperren. Durch das Anlegen von adaptieren Fehlerdokumenten, kann man das elegant umgehen und gegebenfalls einen Grund für den Ausschluss und die Möglichkeit einer Kontaktaufnahme anbieten, um ungewollten Ausschluss zu vermeiden.

Einfach die Zeile in die htaccess einfügen:  ErrorDocument 403 /403.html.html

Andere Lösungen:

Sehr zu empfehlen ist das Projekt Bot-Trap: http://www.bot-trap.de/ Das auch Schutz gegen Spam in Gästebüchern oder Foren durch Spambots bietet. Eine genaue Anleitung und Beschreibung gibt’s auf der Webseite.

Windows/IIS:

Leider hab ich noch kein vergleichbares Projekt, wie Bottrap für den IIS gefunden.

Ein recht gutes Beispiel für manuellen Schutz gibt’s hier:

http://www.waag.ch/chris/authoring/robots-banned.asp

Fazit

Einen wirklichen 100% Schutz gibt es, wie überall, natürlich nicht. Aber wenn man die Augen offen hält, kann man es den Warzen zumindest schwer machen.

Ein Gedanke zu “Schutz vor Scraperseiten, Plagiate & Datenklau

  1. Pingback: Webmaster Blog » Blog Archiv » Double Content

Hinterlasse eine Antwort

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

*

Du kannst folgende HTML-Tags benutzen: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>