Kapitel 12. Fortgeschrittenes Web Scraping: Screen Scraper und Spider

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Du hast mit der Entwicklung deiner Web-Scraping-Fähigkeiten begonnen, indem du in Kapitel 11 gelernt hast, was, wie und wo du scrapen kannst. In diesem Kapitel werfen wir einen Blick auf fortgeschrittenere Scraper, wie browserbasierte Scraper und Spider, um Inhalte zu sammeln.

Wir werden auch lernen, wie man häufige Probleme mit fortgeschrittenem Web-Scraping behebt und einige der ethischen Fragen behandeln, die sich beim Scraping im Web stellen. Zu Beginn werden wir uns mit dem browserbasierten Web-Scraping beschäftigen: Wir verwenden einen Browser direkt mit Python, um Inhalte aus dem Web zu scrapen.

Browser-basiertes Parsing

Manchmal verwendet eine Website viel JavaScript oder anderen Post-Page-Load-Code, um die Seiten mit Inhalten zu füllen. In diesen Fällen ist es fast unmöglich, einen normalen Web Scraper zu verwenden, um die Seite zu analysieren. Das Ergebnis ist dann eine sehr leer aussehende Seite. Das gleiche Problem hast du, wenn du mit den Seiten interagieren willst (d.h. wenn du auf eine Schaltfläche klicken oder einen Suchtext eingeben musst). In beiden Fällen musst du herausfinden, wie die Seite am Bildschirm lesen kann. Bildschirmlesegeräte funktionieren, indem sie einen Browser verwenden, die Seite öffnen und sie lesen und mit ihr interagieren, nachdem sie im ...

Get Data Wrangling mit Python now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.