Kapitel 5. Scrapy

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Im vorigen Kapitel wurden einige Techniken und Muster für den Aufbau großer, skalierbarer und (ganz wichtig!) wartbarer Webcrawler vorgestellt. Das ist zwar einfach genug, um es von Hand zu machen, aber viele Bibliotheken, Frameworks und sogar GUI-basierte Tools erledigen das für dich oder versuchen zumindest, dir das Leben ein bisschen leichter zu machen.

In diesem Kapitel wird eines der besten Frameworks für die Entwicklung von Crawlern vorgestellt: Scrapy. Als ich die erste Ausgabe von Web Scraping with Python geschrieben habe, war Scrapy noch nicht für Python 3.x veröffentlicht worden und wurde nur in einem einzigen Abschnitt vorgestellt. Inzwischen wurde die Bibliothek aktualisiert und unterstützt Python 3.3+, zusätzliche Funktionen wurden hinzugefügt, und ich freue mich, diesen Abschnitt zu einem eigenen Kapitel auszubauen.

Eine der Herausforderungen beim Schreiben von Webcrawlern ist, dass du oft immer wieder die gleichen Aufgaben ausführst: alle Links auf einer Seite finden, den Unterschied zwischen internen und externen Links auswerten, neue Seiten aufrufen. Diese grundlegenden Muster sind nützlich, um sie zu kennen und von Grund auf zu schreiben, aber die Scrapy-Bibliothek übernimmt viele dieser Details für dich.

Natürlich ist Scrapy kein Gedankenleser. Du musst immer noch Templates für die Seiten definieren, ihm Orte ...

Get Web Scraping mit Python, 2. Auflage now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.