book

Praktisches Python Data Wrangling und Datenqualität

Name: Praktisches Python Data Wrangling und Datenqualität
Author: Susan E. McGregor
ISBN: 9781098194512

by Susan E. McGregor

September 2024

Intermediate to advanced

416 pages

13h 8m

German

O'Reilly Media, Inc.

Read now

Unlock full access

Vorwort
Wer sollte dieses Buch lesen?Wer sollte dieses Buch nicht lesen?Was du von diesem Band erwarten kannstIn diesem Buch verwendete KonventionenCode-Beispiele verwendenO'Reilly Online LearningWie du uns kontaktierstDanksagungen
1. Einführung in Data Wrangling und Datenqualität
Was ist "Data Wrangling"?Was ist "Datenqualität"?DatenintegritätDaten "Fit"Warum Python?VielseitigkeitZugänglichkeitLesbarkeitGemeinschaftPython-AlternativenSchreiben und "Ausführen" von PythonArbeiten mit Python auf deinem eigenen GerätErste Schritte mit der KommandozeileInstallation von Python, Jupyter Notebook und einem Code-EditorArbeiten mit Python OnlineHallo Welt!Mit Atom eine eigenständige Python-Datei erstellenJupyter verwenden, um ein neues Python-Notizbuch zu erstellenGoogle Colab zum Erstellen eines neuen Python-Notizbuchs verwendenHinzufügen des CodesIn einer eigenständigen DateiIn einem NotizbuchDen Code ausführenIn einer eigenständigen DateiIn einem NotizbuchDokumentieren, Speichern und Versionieren deiner ArbeitDokumentierenSparenVersionierungFazit
2. Einführung in Python
Die Programmierung der "Parts of Speech"Substantive ≈ VariablenVerben ≈ FunktionenKochen mit benutzerdefinierten FunktionenBibliotheken: Benutzerdefinierte Funktionen von anderen Programmierern ausleihenDie Kontrolle übernehmen: Schleifen und KonditionaleIn der SchleifeEine Bedingung...Verstehen von FehlernSyntax SnafusLaufzeitumgehungLogikverlustMit den Citi Bike Daten auf die Straße gehenMit Pseudocode beginnenMaßstab suchenFazit
3. Datenqualität verstehen
Bewertung der DatenanpassungGültigkeitVerlässlichkeitRepräsentativitätBewertung der DatenintegritätErforderlich, aber nicht ausreichendWichtigErreichbarVerbesserung der DatenqualitätDatenbereinigungDatenerweiterungFazit
4. Arbeiten mit dateibasierten und feedbasierten Daten in Python
Strukturierte versus unstrukturierte DatenArbeiten mit strukturierten DatenDateibasierte, tabellenartige Daten - Abgrenzen ist angesagtMit Python tabellenartige Daten verarbeitenReal-World Data Wrangling: Die Arbeitslosigkeit verstehenXLSX, ODS und der ganze RestSchließlich: Feste BreiteFeed-basierte Daten-Web-gesteuerte Live-UpdatesVerarbeitung von Feed-Type-Daten mit PythonMit unstrukturierten Daten arbeitenBildbasierter Text: Zugriff auf Daten in PDFsPDFs mit Python bearbeitenZugriff auf PDF-Tabellen mit TabulaFazit
5. Zugang zu webbasierten Daten
Zugriff auf Online-XML und JSONEinführung von APIsGrundlegende APIs: Das Beispiel einer SuchmaschineSpezialisierte APIs: Hinzufügen der BasisauthentifizierungEinen FRED-API-Schlüssel erhaltenDeinen API-Schlüssel zur Datenabfrage verwendenLesen der API-DokumentationSchutz deines API-Schlüssels bei der Verwendung von PythonErstellen deiner "Credentials"-DateiVerwendung deiner Anmeldedaten in einem separaten SkriptErste Schritte mit .gitignoreSpezialisierte APIs: Arbeiten mit OAuthBeantragung eines Twitter Entwickler-KontosErstellen deiner Twitter "App" und deiner AnmeldedatenVerschlüsselung deines API-Schlüssels und GeheimnissesAnfordern eines Zugangstokens und von Daten von der Twitter APIAPI-EthikWeb Scraping: Die Datenquelle der letzten InstanzVorsichtiges Kratzen der MTABrowser-Inspektionswerkzeuge verwendenDie Python-Lösung für Web Scraping: Schöne SuppeFazit
6. Bewertung der Datenqualität
Die Pandemie und die PPPBewertung der DatenintegritätIst die Abstammung bekannt?Ist es zeitgemäß?Ist es vollständig?Ist es gut annotiert?Ist es ein hohes Volumen?Ist es konsistent?Ist es multivariat?Ist es atomar?Ist das klar?Ist es dimensional strukturiert?Bewertung der DatenanpassungGültigkeitVerlässlichkeitRepräsentativitätFazit
7. Bereinigen, Umwandeln und Ergänzen von Daten
Auswahl einer Teilmenge der Citi Bike-DatenEin einfacher SplitReguläre Ausdrücke: Überlegene String-ÜbereinstimmungEin Datum festlegenEntkrustung von DatendateienExcel-Daten entschlüsselnEchte CSV-Dateien aus Daten mit fester Breite generierenKorrektur von Unstimmigkeiten bei der RechtschreibungDer umständliche Weg zu "einfachen" LösungenDie Gefahren, die dich erwischen werden!Deine Daten erweiternFazit
8. Strukturierung und Refaktorierung deines Codes
Benutzerdefinierte Funktionen überdenkenWirst du es mehr als einmal benutzen?Ist es hässlich und verwirrend?Hasst du die Standardfunktionalität?Umfang verstehenFestlegen der Parameter für die Funktion "Zutaten"Was sind deine Optionen?In Streit geraten?RückgabewerteKlettern auf dem "Stapel"Refactoring für Spaß und ProfitEine Funktion zur Identifizierung von WochentagenMetadaten ohne das ChaosDokumentiere deine eigenen Skripte und Funktionen mit pydocDas Argument für BefehlszeilenargumenteWo Skripte und Notizbücher auseinanderklaffenFazit
9. Einführung in die Datenanalyse
Der Kontext ist allesGleich und doch andersWas ist typisch? Bewertung der zentralen TendenzWas bedeutet das?Nimm den Median anAnders denken: Ausreißer identifizierenVisualisierung für die DatenanalyseWie sind unsere Daten geformt? Histogramme verstehenDie Bedeutung der SymmetrieZählen von "Clustern"Die 2-Millionen-Dollar-FrageProportionale ReaktionFazit

10. Präsentieren deiner Daten
Grundlagen für visuelle BeredsamkeitDeine Datenerklärung abgebenDiagramme, Schaubilder und Karten: Oh Mann!KreisdiagrammeBalken- und SäulendiagrammeLiniendiagrammePunktediagrammeKartenElemente für ansprechendes BildmaterialDie "pikanten" Details machen wirklich einen UnterschiedVertraue deinen Augen (und den Experten)Auswahl der SkalenFarben wählenVor allem: Kommentiere!Von einfach zu schön: Anpassen einer Visualisierung mit seaborn und matplotlibMehr als die GrundlagenFazit
11. Jenseits von Python
Zusätzliche Tools für die DatenüberprüfungTabellenkalkulationsprogrammeOpenRefineZusätzliche Tools zum Teilen und Präsentieren von DatenBildbearbeitung für JPGs, PNGs und GIFsSoftware zur Bearbeitung von SVGs und anderen VektorformatenNachdenken über EthikFazit
A. Weitere Ressourcen zur Python-Programmierung
Offizielle Python-DokumentationInstallation von Python-RessourcenWo du nach Bibliotheken suchen kannstDamit deine Werkzeuge scharf bleibenWo du mehr erfährst
B. Ein bisschen mehr über Git
Du führst git push/pull aus und landest in einem seltsamen TexteditorDein git push/pull Befehl wird abgelehntGit Pull ausführenGit Schnellreferenz
C. Daten finden
Datenarchive und APIsFachexpertenFOIA/L-AnfragenBenutzerdefinierte Datenerfassung
D. Ressourcen für Visualisierung und Informationsdesign
Grundlegende Bücher über InformationsvisualisierungDie Schnellreferenz, nach der du greifen wirstQuellen der Inspiration
Index
Über den Autor

Content preview from Praktisches Python Data Wrangling und Datenqualität

Kapitel 4. Arbeiten mit dateibasierten und feedbasierten Daten in Python

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In Kapitel 3 haben wir uns auf die vielen Merkmale konzentriert, die zur Datenqualität beitragen - von der Vollständigkeit, Konsistenz und Klarheit der Datenintegrität bis hin zur Zuverlässigkeit, Gültigkeit und Repräsentativität der Datenanpassung. Wir haben über die Notwendigkeit gesprochen, Daten zu "bereinigen" und zu standardisieren sowie sie durch die Kombination mit anderen Datensätzen zu ergänzen. Aber wie erreichen wir diese Dinge in der Praxis?

Natürlich ist es unmöglich, die Qualität eines Datensatzes zu beurteilen, ohne seinen Inhalt zu prüfen - aber das ist manchmal leichter gesagt als getan. Jahrzehntelang war die Datenverarbeitung eine hochspezialisierte Angelegenheit, die Unternehmen und Organisationen dazu veranlasste, eine ganze Reihe verschiedener (und manchmal auch geschützter) digitaler Datenformate zu entwickeln, die auf ihre besonderen Bedürfnisse zugeschnitten waren. Oft hatten diese Formate ihre eigenen Dateierweiterungen - einige davon kennst du vielleicht: xls, csv, dbf und spss sind alles Dateiformate, die typischerweise mit "Daten"-Dateien in Verbindung gebracht werden.¹ Auch wenn ihre spezifischen Strukturen und Details variieren, sind alle diese Formate dateibasiert, d.h.sie enthalten (mehr oder weniger) historische Daten in statischen Dateien, ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9781098194512

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Praktisches Python Data Wrangling und Datenqualität

by Susan E. McGregor

Kapitel 4. Arbeiten mit dateibasierten und feedbasierten Daten in Python

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.