Kapitel 8. Reinigung deiner schmutzigen Daten

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Bisher hast du in diesem Buch das Problem schlecht formatierter Daten ignoriert, indem du allgemein gut formatierte Datenquellen verwendet und Daten, die von deinen Erwartungen abwichen, ganz verworfen hast. Aber beim Web Scraping darfst du oft nicht zu pingelig sein, wenn es darum geht, woher du deine Daten bekommst oder wie sie aussehen.

Aufgrund von fehlerhafter Zeichensetzung, inkonsistenter Großschreibung, Zeilenumbrüchen und Rechtschreibfehlern können unsaubere Daten im Web ein großes Problem darstellen. In diesem Kapitel werden einige Tools und Techniken vorgestellt, mit denen du das Problem an der Quelle vermeiden kannst, indem du die Art und Weise, wie du deinen Code schreibst, änderst und die Daten bereinigst, nachdem sie in der Datenbank gespeichert wurden.

Reinigung im Code

So wie du Code schreibst, um mit offenen Ausnahmen umzugehen, solltest du auch defensiven Code schreiben, um mit dem Unerwarteten umzugehen.

In der Linguistik ist ein n-Gramm eine Folge von n Wörtern, die in einem Text oder einer Rede verwendet werden. Bei der Analyse natürlicher Sprache kann es oft hilfreich sein, einen Text aufzuschlüsseln, indem man nach häufig verwendeten n-Grammen oder wiederkehrenden Wortgruppen sucht, die oft zusammen verwendet werden.

In diesem Abschnitt geht es darum, richtig formatierte n-Gramme ...

Get Web Scraping mit Python, 2. Auflage now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.