Kapitel 6. Bewertung der Datenqualität
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Auf haben wir uns in den letzten beiden Kapiteln darauf konzentriert, verschiedene Datenformate an unterschiedlichen Orten zu identifizieren und darauf zuzugreifen - von Tabellenkalkulationen bis hin zu Websites. Aber (potenziell) interessante Daten in die Hände zu bekommen, ist erst der Anfang. Der nächste Schritt ist eine gründliche Qualitätsprüfung, um herauszufinden, ob das, was wir haben, nützlich, verwertbar oder einfach nur Müll ist.
Wie du vielleicht schon in Kapitel 3 gelesen hast, ist die Erstellung von Qualitätsdaten eine komplexe und zeitaufwändige Angelegenheit. Der Prozess besteht zu etwa gleichen Teilen aus Forschung, Experimenten und Beharrlichkeit. Am wichtigsten ist, dass du bereit bist, viel Zeit und Energie in die Datenqualität zu investieren - und auch bereit bist, alles hinzuschmeißen und neu anzufangen, wenn deine Daten trotz aller Bemühungen nicht ausreichen.
Wenn es darauf ankommt, ist dieses letzte Kriterium wahrscheinlich genau das, was eine wirklich hochwertige und sinnvolle Arbeit mit Daten wirklich schwierig macht. Wie du hoffentlich schon gemerkt hast, sind die technischen Fertigkeiten zwar mühsam zu erlernen, aber mit genügend Übung durchaus zu erreichen. Die Recherchefähigkeiten sind etwas schwieriger zu dokumentieren und zu vermitteln, aber die Arbeit an den Beispielen in diesem ...
Get Praktisches Python Data Wrangling und Datenqualität now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.