Kapitel 14. Vermeiden von Scraping-Fallen
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Kaum etwas ist frustrierender, als eine Website zu scannen, die Ausgabe zu betrachten und die Daten nicht zu sehen, die in deinem Browser so deutlich zu sehen sind. Oder ein Formular abzuschicken, das eigentlich in Ordnung sein sollte, aber vom Webserver abgelehnt wird. Oder deine IP-Adresse von einer Website aus unbekannten Gründen blockiert wird.
Diese gehören zu den am schwierigsten zu lösenden Fehlern, nicht nur, weil sie so unerwartet auftreten können (ein Skript, das auf einer Website einwandfrei funktioniert, kann auf einer anderen, scheinbar identischen Website überhaupt nicht funktionieren), sondern auch, weil sie absichtlich keine verräterischen Fehlermeldungen oder Stack Traces enthalten. Du wurdest als Bot identifiziert, zurückgewiesen und weißt nicht, warum.
In diesem Buch habe ich über viele Möglichkeiten geschrieben, wie man knifflige Dinge auf Websites erledigen kann (Formulare übermitteln, schwierige Daten extrahieren und bereinigen, JavaScript ausführen usw.). Dieses Kapitel ist eine Art Auffangbecken, denn die Techniken stammen aus einer Vielzahl von Themen (HTTP-Header, CSS und HTML-Formulare, um nur einige zu nennen). Sie haben jedoch alle etwas gemeinsam: Sie zielen darauf ab, ein Hindernis zu überwinden, das nur zu dem Zweck errichtet wurde, automatisches Web Scraping einer Website ...
Get Web Scraping mit Python, 2. Auflage now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.