Kapitel 7. Dokumente lesen

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Es ist verlockend, das Internet in erster Linie als eine Ansammlung von textbasierten Websites zu betrachten, die mit neumodischen Web 2.0-Multimedia-Inhalten durchsetzt sind, die für die Zwecke des Web Scraping weitgehend ignoriert werden können. Dabei wird jedoch außer Acht gelassen, was das Internet im Grunde genommen ist: ein inhaltsunabhängiges Medium zur Übertragung von Dateien.

Obwohl es das Internet in der einen oder anderen Form schon seit den späten 1960er Jahren gibt, wurde HTML erst 1992 eingeführt. Bis dahin bestand das Internet hauptsächlich aus E-Mails und der Übertragung von Dateien; das Konzept von Webseiten, wie wir es heute kennen, gab es noch nicht. Mit anderen Worten: Das Internet ist keine Sammlung von HTML-Dateien. Es ist eine Sammlung vieler Arten von Dokumenten, wobei HTML-Dateien oft als Rahmen verwendet werden, um sie zu präsentieren. Wenn wir nicht in der Lage sind, eine Vielzahl von Dokumenttypen wie Text, PDF, Bilder, Videos, E-Mails und mehr zu lesen, entgeht uns ein großer Teil der verfügbaren Daten.

In diesem Kapitel geht es um den Umgang mit Dokumenten, egal ob du sie in einen lokalen Ordner herunterlädst oder sie liest und Daten extrahierst. Du wirst auch einen Blick auf den Umgang mit verschiedenen Arten der Textkodierung werfen, die es sogar ermöglichen, fremdsprachige HTML-Seiten ...

Get Web Scraping mit Python, 2. Auflage now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.