Skip to Content
Praktisches Python Data Wrangling und Datenqualität
book

Praktisches Python Data Wrangling und Datenqualität

by Susan E. McGregor
September 2024
Intermediate to advanced
416 pages
13h 8m
German
O'Reilly Media, Inc.
Book available
Content preview from Praktisches Python Data Wrangling und Datenqualität

Kapitel 4. Arbeiten mit dateibasierten und feedbasierten Daten in Python

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In Kapitel 3 haben wir uns auf die vielen Merkmale konzentriert, die zur Datenqualität beitragen - von der Vollständigkeit, Konsistenz und Klarheit der Datenintegrität bis hin zur Zuverlässigkeit, Gültigkeit und Repräsentativität der Datenanpassung. Wir haben über die Notwendigkeit gesprochen, Daten zu "bereinigen" und zu standardisieren sowie sie durch die Kombination mit anderen Datensätzen zu ergänzen. Aber wie erreichen wir diese Dinge in der Praxis?

Natürlich ist es unmöglich, die Qualität eines Datensatzes zu beurteilen, ohne seinen Inhalt zu prüfen - aber das ist manchmal leichter gesagt als getan. Jahrzehntelang war die Datenverarbeitung eine hochspezialisierte Angelegenheit, die Unternehmen und Organisationen dazu veranlasste, eine ganze Reihe verschiedener (und manchmal auch geschützter) digitaler Datenformate zu entwickeln, die auf ihre besonderen Bedürfnisse zugeschnitten waren. Oft hatten diese Formate ihre eigenen Dateierweiterungen - einige davon kennst du vielleicht: xls, csv, dbf und spss sind alles Dateiformate, die typischerweise mit "Daten"-Dateien in Verbindung gebracht werden.1 Auch wenn ihre spezifischen Strukturen und Details variieren, sind alle diese Formate dateibasiert, d.h.sie enthalten (mehr oder weniger) historische Daten in statischen Dateien, ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Python lernen, 5. Auflage

Python lernen, 5. Auflage

Mark Lutz
High Performance Python, 2. Auflage

High Performance Python, 2. Auflage

Micha Gorelick, Ian Ozsvald
Blaupausen für Textanalyse mit Python

Blaupausen für Textanalyse mit Python

Jens Albrecht, Sidharth Ramachandran, Christian Winkler

Publisher Resources

ISBN: 9781098194512Supplemental Content