Kapitel 16. Paralleles Crawling im Web

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Das Crawlen der Website ist schnell. Zumindest ist es in der Regel viel schneller, als ein Dutzend Praktikanten anzuheuern, die Daten per Hand aus dem Internet kopieren! Natürlich verlangen der technologische Fortschritt und die hedonistische Tretmühle, dass auch das ab einem bestimmten Punkt nicht mehr "schnell genug" ist. Das ist der Punkt, an dem die Leute im Allgemeinen anfangen, sich für verteiltes Rechnen zu interessieren.

Im Gegensatz zu den meisten anderen Technologiebereichen lässt sich das Webcrawling oft nicht einfach dadurch verbessern, dass man "mehr Zyklen auf das Problem wirft". Ein Prozess ist schnell, zwei Prozesse sind nicht unbedingt doppelt so schnell. Wenn du drei Prozesse laufen lässt, kann es passieren, dass du von dem entfernten Server, den du mit all deinen Anfragen behelligst, ausgeschlossen wirst!

In manchen Situationen kann paralleles Web-Crawling oder das Ausführen von parallelen Threads/Prozessen aber trotzdem von Vorteil sein:

  • Sammeln von Daten aus mehreren Quellen (mehreren Remote-Servern) statt nur aus einer einzigen Quelle

  • Durchführen langer/komplexer Operationen an den gesammelten Daten (z. B. Bildanalyse oder OCR), die parallel zum Abrufen der Daten durchgeführt werden können

  • Das Sammeln von Daten von einem großen Webdienst, bei dem du für jede Abfrage bezahlst oder ...

Get Web Scraping mit Python, 2. Auflage now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.