Kapitel 2. Fortgeschrittenes HTML-Parsing

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Als Michelangelo gefragt wurde, wie er ein so meisterhaftes Kunstwerk wie seinen David formen konnte, soll er gesagt haben: "Das ist ganz einfach. Du musst nur den Stein weghauen, der nicht wie David aussieht."

Obwohl Web Scraping in vielerlei Hinsicht anders ist als Marmorbildhauerei, musst du eine ähnliche Einstellung haben, wenn es darum geht, die gesuchten Informationen aus komplizierten Webseiten zu extrahieren. Du kannst viele Techniken anwenden, um den Inhalt abzutragen, der nicht wie der gesuchte Inhalt aussieht, bis du die gesuchten Informationen gefunden hast. In diesem Kapitel lernst du, wie du komplizierte HTML-Seiten parsen kannst, um nur die Informationen zu extrahieren, die du suchst.

Du brauchst nicht immer einen Hammer

Wenn du mit einem gordischen Knoten von Tags konfrontiert wirst, kann es verlockend sein, gleich loszulegen und mehrzeilige Anweisungen zu verwenden, um deine Informationen zu extrahieren. Bedenke jedoch, dass die in diesem Abschnitt vorgestellten Techniken zu einem schwer zu debuggenden oder anfälligen Code führen können - oder zu beidem. Bevor wir loslegen, wollen wir uns einige Möglichkeiten ansehen, wie du fortgeschrittenes HTML-Parsing ganz vermeiden kannst!

Nehmen wir an, du hast einen Zielinhalt. Vielleicht ist es ein Name, eine Statistik oder ein Textblock. Vielleicht ...

Get Web Scraping mit Python, 2. Auflage now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.