Kapitel 5. PDFs und Problemlösung in Python

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Daten nur in PDFs zu veröffentlichen ist kriminell, aber manchmal hast du keine anderen Möglichkeiten. In diesem Kapitel lernst du, wie du PDFs parsen kannst und wie du Fehler in deinem Code beheben kannst.

Außerdem werden wir uns damit beschäftigen, wie man ein Skript schreibt, beginnend mit einigen grundlegenden Konzepten wie Importen, und dann etwas komplexer werden. In diesem Kapitel lernst du verschiedene Möglichkeiten kennen, wie du über Probleme in deinem Code nachdenken und sie angehen kannst.

Vermeide die Verwendung von PDFs!

Die in diesem Abschnitt verwendeten Daten sind dieselben wie im vorherigen Kapitel, allerdings im PDF-Format. Normalerweise sucht man nicht nach Daten in schwer zu lesenden Formaten, aber für dieses Buch haben wir das getan, weil die Daten, mit denen du arbeiten musst, vielleicht nicht immer im idealen Format vorliegen. Das PDF, das wir in diesem Kapitel verwenden, findest du im GitHub-Repository des Buches.

Es gibt ein paar Dinge, die du beachten musst, bevor du mit dem Parsen von PDF-Daten beginnst:

  • Hast du versucht, die Daten in einer anderen Form zu finden? Wenn du sie online nicht finden kannst, versuche es per Telefon oder E-Mail.

  • Hast du versucht, die Daten aus dem Dokument zu kopieren und einzufügen? Manchmal kannst du ganz einfach Daten aus einer PDF-Datei auswählen, ...

Get Data Wrangling mit Python now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.