Kapitel 17. Vermeiden von Scraping-Fallen
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Es gibt nur wenige Dinge, die frustrierender sind, als eine Website zu scannen, die Ausgabe zu betrachten und die Daten nicht zu sehen, die in deinem Browser so deutlich sichtbar sind. Oder ein Formular abzuschicken, das eigentlich in Ordnung sein sollte, aber vom Webserver abgelehnt wird. Oder wenn deine IP-Adresse von einer Website aus unbekannten Gründen blockiert wird.
Diese gehören zu den am schwierigsten zu lösenden Fehlern, nicht nur, weil sie so unerwartet auftreten können (ein Skript, das auf einer Website einwandfrei funktioniert, kann auf einer anderen, scheinbar identischen Website überhaupt nicht funktionieren), sondern auch, weil sie absichtlich keine verräterischen Fehlermeldungen oder Stack Traces enthalten. Du wurdest als Bot identifiziert und zurückgewiesen und weißt nicht, warum.
In diesem Buch habe ich über viele Möglichkeiten geschrieben, wie man knifflige Dinge auf Websites erledigen kann, z. B. das Absenden von Formularen, das Extrahieren und Bereinigen schwieriger Daten und das Ausführen von JavaScript. Dieses Kapitel ist eine Art Auffangbecken, denn die Techniken stammen aus einer Vielzahl von Themen. Sie haben jedoch alle etwas gemeinsam: Sie zielen darauf ab, ein Hindernis zu überwinden, das nur zu dem Zweck errichtet wurde, das automatisierte Scraping einer Website zu verhindern. ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access