
Schon im vergangenen Jahr berichteten wir, dass Cloudflare ein kostenloses Tool in seinen Cloud-Service integriert hat, das KI-Bots identifizieren und blockieren soll. Diese Bots sammeln Daten von Websites für das Training von KI-Modellen, oft ohne Erlaubnis der Websitebetreiber. Laut einem frisch veröffentlichten Bericht steht der Vorwurf im Raum, dass das Unternehmen Perplexity eine grundlegende Regel des Internets bricht, um an Daten zu gelangen: das Ignorieren der robots.txt.
Jene Datei ist eine Art digitale Hausordnung von Webseiten-Betreibern. Mehrere solcher Betreiber meldeten laut dem Bericht jedoch, dass Perplexity diese Anweisungen zu ignorieren scheint. Selbst als man die bekannten Crawler des Dienstes per Firewall blockierte, arbeitete die KI einfach einen neuen Plan aus.
Um das zu überprüfen, haben Sicherheitsexperten abgeschottete Test-Webseiten geschaffen, die für die Öffentlichkeit und normale Suchmaschinen komplett unsichtbar waren. Die digitale Tür wurde doppelt verriegelt: durch eine strikte robots.txt-Datei und zusätzliche Firewall-Regeln. Das Ergebnis des anschließenden Tests war folgendes: Fragte man Perplexity nach den Inhalten dieser eigentlich unzugänglichen Seiten, lieferte die KI präzise Antworten.
Die Analyse des Zugriffsverhaltens enthüllte eine interessante Taktik. Perplexity agiert demnach in zwei Schritten:
- Der offizielle Versuch: Zuerst klopft der offizielle Crawler Perplexity-User an. Er ist transparent und gibt sich zu erkennen.
- Der getarnte Zugriff: Wird dieser erste Versuch blockiert, wechselt das System zu einem zweiten, undokumentierten Crawler. Dieser tarnt sich als gewöhnlicher Webbrowser (Chrome auf einem Mac) und verschleiert seine Herkunft.
Dieser „Schatten-Crawler“ nutzt dann nicht die offiziellen IP-Adressen von Perplexity, sondern wechselt permanent seine IPs und sogar die Netzwerkanbieter (ASNs). Dieses Vorgehen sei kein Versehen, sondern eine bewusste Strategie zur Umgehung von Schutzmaßnahmen, so Cloudflare weiter. Das Vorgehen von Perplexity ist problematisch, da es das Vertrauen zwischen Webseiten-Betreibern und Datensammlern untergräbt. Wenn die einfachsten Regeln ignoriert werden, sind Betreiber gezwungen, technisch immer weiter aufzurüsten.
Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir eine kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.

5 months ago
6


