Kapitel 6. Schweres Scraping mit Scrapy

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Wenn deine Scraping-Ziele ehrgeiziger werden, kann das Hacken von Lösungen mit Beautiful Soup und Anfragen sehr schnell unübersichtlich werden. Die Verwaltung der gescrapten Daten wird knifflig, wenn Anfragen weitere Anfragen nach sich ziehen, und wenn deine Anfragen synchron erfolgen, werden die Dinge schnell langsamer. Eine ganze Reihe von Problemen, mit denen du wahrscheinlich nicht gerechnet hast, machen sich bemerkbar. An diesem Punkt solltest du dich an eine leistungsstarke, robuste Bibliothek wenden, die all diese Probleme und noch mehr löst. Und genau hier kommt Scrapy ins Spiel.

Während Beautiful Soup ein sehr praktisches kleines Taschenmesser für schnelles und schmutziges Scraping ist, ist Scrapy eine Python-Bibliothek, die mit Leichtigkeit große Datenmengen scrapen kann. Sie bietet alles, was du erwartest, wie z. B. eingebautes Caching (mit Verfallszeiten), asynchrone Anfragen über das Twisted-Webframework von Python, User-Agent-Randomisierung und vieles mehr. Der Preis für all diese Möglichkeiten ist eine ziemlich steile Lernkurve, die wir in diesem Kapitel anhand eines einfachen Beispiels glätten wollen. Ich denke, Scrapy ist eine leistungsstarke Ergänzung für jedes Dataviz-Toolkit und eröffnet wirklich neue Möglichkeiten für die Datenerfassung im Web.

In "Scraping Data" ist es uns gelungen, einen ...

Get Datenvisualisierung mit Python und JavaScript, 2. now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.