Proxy Sperre
powered bei DOMAINUNION
home

proxy test 
beschreibung
proxy melden
download
FAQ
 

impressum
 

 

Scraper & Proxies – Das Sorgenkind von Goolge

Schon seit Jahren sind Scraper und Proxy Seiten, die Content anderer Portale duplizieren und veröffentlichen sowohl für Google als auch für Webmaster ein großes Problem.

Content Farmen kopieren automatisch Inhalte, die bestimmte Suchbegriffe enthalten und veröffentlichen diese ebenfalls automatisch auf ihren Seiten um Adsense Einkommen zu generieren.

In den meisten Fällen ranken diese Kopien nicht in Google, doch immer wieder passiert es, dass eine legitime Webseite mit originellen Inhalten fälschlicherweise als Duplikat aus den Suchergebnissen gefiltert wird und stattdessen der Scraper rankt.

Auch mit (angeblich) 500 Algorithmus Updates pro Jahr ist es Google noch nicht gelungen den Ursprung eines Inhalts zweifelsfrei feststellen zu können.

Ein Hintergrund dafür ist die Latenz mit der das Web von Google gecrawled wird. Selbst wenn die eigene originelle Version zuerst indexiert wird ist das noch keine Garantie, dass Google erkennt, wem der Content eigentlich gehört. Mit gewissen Tricks können Scraper versuchen ihre Kopien in Google zu indexieren, noch bevor das Original indexiert wurde.

Ein anderer Grund ist, dass Google nicht immer das Original ranken möchte. John Müller hat in seinem letzten Google Webmaster Hangout bestätigt, dass lokale Inhalte oft Vorzug haben, selbst wenn es sich dabei um ein Duplikat handelt. Ein deutscher Scraper hätte also gute Chancen einen im Ausland gehosteten deutschen Inhalt aus den Rankings zu werfen.

Eine lange Zeit wurde von Google empfohlen interne Links auf Artikel zu setzten um den Ursprung des Inhalts zu signalisieren, denn viele Scraper kopieren das gesamte HTML inklusive aller darin enthaltenen Links. Wenn dann mehrere Scraper zu der Originalversion verlinken, erkennt Google die Autorität des Originals. Eine positive Nebenwirkung ist, dass dadurch Backlinks zum Original entstehen, was den Positionen in Google hilft. So war es jedenfalls bis 2012 als das Penguin Update von Google Live ging.

Obwohl diese Methode offiziell von Google als Schutzmaßnahme gegen Scraper empfohlen wird, kann das bei den neuesten Linkbezogenen Updates und Abstrafungen zu unvorhersehbaren Konsequenzen führen.

Ein Paradebeispiel dafür ist die Abstrafung der BBC für unnatürliche Links. Da sehr viele Scraper die Artikel der BBC kopieren und veröffentlichen, samt internen Links, wurde ein Spamfilter bei Google ausgelöst. Obwohl die BBC richtigerweise (und wie von Google empfohlen) Artikel mit internen Links versetzt, wurde die Seite abgestraft!

Die neue Empfehlung von Google lautet Authorship Markup in Artikel zu integrieren, um den Urheber des Inhalts anzuzeigen.

Doch wie lange wird es sein bis Google Webmaster des Authorship Spammings beschuldigt?

Methoden die tatsächlich funktionieren

Wer sich vor Scrapern und Proxies schützen will (oder muss) sollte zentrale Maßnahmen setzten. Anstatt mit Ticks zu versuchen über den Scrapern zu ranken, wäre es besser, wenn die Scraper erst gar nicht auf die Seite gelangen können.

Hierzu gibt es verschiedene Ansätze. Man kann auffällige Bots per User Agent aus der HTACCESS heraus blockieren. Dazu muss man allerdings ständig das Serverlog analysieren, was aufwendig und mühsam ist. Nützlich ist auch das kostenlose Proxy Sperrungstool, das diese Aufgabe übernimmt.

Hierbei sollte man beachten, dass der eigene Hoster auch htaccess anbietet. Wichtig ist auch, dass PHP auf der aktuellen Version läuft und auch nicht via CGI installiert ist. Damit haben nämlich die meisten HTACCESS Skripte Probleme. Das ist eine Frage der Einstellungen und sollte normalerweise nicht extra kosten. Bei easyname erfüllen sogar die billigsten Pakete alle notwendigen Voraussetzungen. So ist es auch bei den meisten anderen Hostern, wichtig ist aber, dass man sich informiert.

Eine Alternative dazu ist es ganze IP Adressenbereiche zu sperren. Große Hoster wie Bluehost oder Godaddy werden gerne von Spammern missbraucht, da dort manuelle Maßnahmen gegen einzelne Kunden eher ungewöhnlich sind. Da nur Bots von einer Hosting IP kommen können, liegt es nahe IP Ranges die von bestimmten Hostern genutzt werden zu sperren. Normale User sind davon nicht betroffen, denn die würden Ihre Webseite nicht über einen Server aufrufen, sondern über einen Browser.

Bei dieser Methode ist allerdings Vorsicht geboten! Sehr schnell kann man die falschen IPs blockieren und damit menschlichen Usern den Zugang zur eigenen Seite verweigern.