book

Praktisches Python Data Wrangling und Datenqualität

Name: Praktisches Python Data Wrangling und Datenqualität
Author: Susan E. McGregor
ISBN: 9781098194512

by Susan E. McGregor

September 2024

Intermediate to advanced

416 pages

13h 8m

German

O'Reilly Media, Inc.

Read now

Unlock full access

Vorwort
Wer sollte dieses Buch lesen?Wer sollte dieses Buch nicht lesen?Was du von diesem Band erwarten kannstIn diesem Buch verwendete KonventionenCode-Beispiele verwendenO'Reilly Online LearningWie du uns kontaktierstDanksagungen
1. Einführung in Data Wrangling und Datenqualität
Was ist "Data Wrangling"?Was ist "Datenqualität"?DatenintegritätDaten "Fit"Warum Python?VielseitigkeitZugänglichkeitLesbarkeitGemeinschaftPython-AlternativenSchreiben und "Ausführen" von PythonArbeiten mit Python auf deinem eigenen GerätErste Schritte mit der KommandozeileInstallation von Python, Jupyter Notebook und einem Code-EditorArbeiten mit Python OnlineHallo Welt!Mit Atom eine eigenständige Python-Datei erstellenJupyter verwenden, um ein neues Python-Notizbuch zu erstellenGoogle Colab zum Erstellen eines neuen Python-Notizbuchs verwendenHinzufügen des CodesIn einer eigenständigen DateiIn einem NotizbuchDen Code ausführenIn einer eigenständigen DateiIn einem NotizbuchDokumentieren, Speichern und Versionieren deiner ArbeitDokumentierenSparenVersionierungFazit
2. Einführung in Python
Die Programmierung der "Parts of Speech"Substantive ≈ VariablenVerben ≈ FunktionenKochen mit benutzerdefinierten FunktionenBibliotheken: Benutzerdefinierte Funktionen von anderen Programmierern ausleihenDie Kontrolle übernehmen: Schleifen und KonditionaleIn der SchleifeEine Bedingung...Verstehen von FehlernSyntax SnafusLaufzeitumgehungLogikverlustMit den Citi Bike Daten auf die Straße gehenMit Pseudocode beginnenMaßstab suchenFazit
3. Datenqualität verstehen
Bewertung der DatenanpassungGültigkeitVerlässlichkeitRepräsentativitätBewertung der DatenintegritätErforderlich, aber nicht ausreichendWichtigErreichbarVerbesserung der DatenqualitätDatenbereinigungDatenerweiterungFazit
4. Arbeiten mit dateibasierten und feedbasierten Daten in Python
Strukturierte versus unstrukturierte DatenArbeiten mit strukturierten DatenDateibasierte, tabellenartige Daten - Abgrenzen ist angesagtMit Python tabellenartige Daten verarbeitenReal-World Data Wrangling: Die Arbeitslosigkeit verstehenXLSX, ODS und der ganze RestSchließlich: Feste BreiteFeed-basierte Daten-Web-gesteuerte Live-UpdatesVerarbeitung von Feed-Type-Daten mit PythonMit unstrukturierten Daten arbeitenBildbasierter Text: Zugriff auf Daten in PDFsPDFs mit Python bearbeitenZugriff auf PDF-Tabellen mit TabulaFazit
5. Zugang zu webbasierten Daten
Zugriff auf Online-XML und JSONEinführung von APIsGrundlegende APIs: Das Beispiel einer SuchmaschineSpezialisierte APIs: Hinzufügen der BasisauthentifizierungEinen FRED-API-Schlüssel erhaltenDeinen API-Schlüssel zur Datenabfrage verwendenLesen der API-DokumentationSchutz deines API-Schlüssels bei der Verwendung von PythonErstellen deiner "Credentials"-DateiVerwendung deiner Anmeldedaten in einem separaten SkriptErste Schritte mit .gitignoreSpezialisierte APIs: Arbeiten mit OAuthBeantragung eines Twitter Entwickler-KontosErstellen deiner Twitter "App" und deiner AnmeldedatenVerschlüsselung deines API-Schlüssels und GeheimnissesAnfordern eines Zugangstokens und von Daten von der Twitter APIAPI-EthikWeb Scraping: Die Datenquelle der letzten InstanzVorsichtiges Kratzen der MTABrowser-Inspektionswerkzeuge verwendenDie Python-Lösung für Web Scraping: Schöne SuppeFazit
6. Bewertung der Datenqualität
Die Pandemie und die PPPBewertung der DatenintegritätIst die Abstammung bekannt?Ist es zeitgemäß?Ist es vollständig?Ist es gut annotiert?Ist es ein hohes Volumen?Ist es konsistent?Ist es multivariat?Ist es atomar?Ist das klar?Ist es dimensional strukturiert?Bewertung der DatenanpassungGültigkeitVerlässlichkeitRepräsentativitätFazit
7. Bereinigen, Umwandeln und Ergänzen von Daten
Auswahl einer Teilmenge der Citi Bike-DatenEin einfacher SplitReguläre Ausdrücke: Überlegene String-ÜbereinstimmungEin Datum festlegenEntkrustung von DatendateienExcel-Daten entschlüsselnEchte CSV-Dateien aus Daten mit fester Breite generierenKorrektur von Unstimmigkeiten bei der RechtschreibungDer umständliche Weg zu "einfachen" LösungenDie Gefahren, die dich erwischen werden!Deine Daten erweiternFazit
8. Strukturierung und Refaktorierung deines Codes
Benutzerdefinierte Funktionen überdenkenWirst du es mehr als einmal benutzen?Ist es hässlich und verwirrend?Hasst du die Standardfunktionalität?Umfang verstehenFestlegen der Parameter für die Funktion "Zutaten"Was sind deine Optionen?In Streit geraten?RückgabewerteKlettern auf dem "Stapel"Refactoring für Spaß und ProfitEine Funktion zur Identifizierung von WochentagenMetadaten ohne das ChaosDokumentiere deine eigenen Skripte und Funktionen mit pydocDas Argument für BefehlszeilenargumenteWo Skripte und Notizbücher auseinanderklaffenFazit
9. Einführung in die Datenanalyse
Der Kontext ist allesGleich und doch andersWas ist typisch? Bewertung der zentralen TendenzWas bedeutet das?Nimm den Median anAnders denken: Ausreißer identifizierenVisualisierung für die DatenanalyseWie sind unsere Daten geformt? Histogramme verstehenDie Bedeutung der SymmetrieZählen von "Clustern"Die 2-Millionen-Dollar-FrageProportionale ReaktionFazit

10. Präsentieren deiner Daten
Grundlagen für visuelle BeredsamkeitDeine Datenerklärung abgebenDiagramme, Schaubilder und Karten: Oh Mann!KreisdiagrammeBalken- und SäulendiagrammeLiniendiagrammePunktediagrammeKartenElemente für ansprechendes BildmaterialDie "pikanten" Details machen wirklich einen UnterschiedVertraue deinen Augen (und den Experten)Auswahl der SkalenFarben wählenVor allem: Kommentiere!Von einfach zu schön: Anpassen einer Visualisierung mit seaborn und matplotlibMehr als die GrundlagenFazit
11. Jenseits von Python
Zusätzliche Tools für die DatenüberprüfungTabellenkalkulationsprogrammeOpenRefineZusätzliche Tools zum Teilen und Präsentieren von DatenBildbearbeitung für JPGs, PNGs und GIFsSoftware zur Bearbeitung von SVGs und anderen VektorformatenNachdenken über EthikFazit
A. Weitere Ressourcen zur Python-Programmierung
Offizielle Python-DokumentationInstallation von Python-RessourcenWo du nach Bibliotheken suchen kannstDamit deine Werkzeuge scharf bleibenWo du mehr erfährst
B. Ein bisschen mehr über Git
Du führst git push/pull aus und landest in einem seltsamen TexteditorDein git push/pull Befehl wird abgelehntGit Pull ausführenGit Schnellreferenz
C. Daten finden
Datenarchive und APIsFachexpertenFOIA/L-AnfragenBenutzerdefinierte Datenerfassung
D. Ressourcen für Visualisierung und Informationsdesign
Grundlegende Bücher über InformationsvisualisierungDie Schnellreferenz, nach der du greifen wirstQuellen der Inspiration
Index
Über den Autor

Content preview from Praktisches Python Data Wrangling und Datenqualität

Kapitel 9. Einführung in die Datenanalyse

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Bisher hat sich dieses Buch vor allem auf die Logistik der Datenbeschaffung, -auswertung, -umwandlung und -erweiterung konzentriert. Wir haben uns damit beschäftigt, wie man Code schreibt, der Daten aus dem Internet abruft, sie aus unfreundlichen Formaten extrahiert, ihre Vollständigkeit bewertet und Inkonsistenzen berücksichtigt. Wir haben sogar darüber nachgedacht, wie wir sicherstellen können, dass die Werkzeuge, die wir für all diese Aufgaben verwenden - unsere Python-Skripte - für unsere Bedürfnisse optimiert sind, sowohl jetzt als auch in Zukunft.

An diesem Punkt ist es jedoch an der Zeit, das Warum dieser Arbeit zu überdenken. In meinem Beitrag "Was ist Datenverarbeitung?" habe ich beschrieben, dass der Zweck der Datenverarbeitung darin besteht, "rohe" Daten in etwas umzuwandeln, das zur Gewinnung von Erkenntnissen und Bedeutung genutzt werden kann. Aber wenn wir nicht zumindest ein gewisses Maß an Analyse durchführen, können wir nicht wissen, ob unsere Datenmanipulation ausreichend war - oder welche Erkenntnisse sie bringen könnte. In diesem Sinne wäre es so, als würdest du deine Datenverarbeitungsarbeit in der Phase der Erweiterung/Umwandlung beenden und dann aus der Küche gehen. Du verbringst nicht Stunden damit, Gemüse vorzubereiten und Zutaten abzumessen, wenn du nicht kochen willst. Und genau ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9781098194512

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Praktisches Python Data Wrangling und Datenqualität

by Susan E. McGregor

Kapitel 9. Einführung in die Datenanalyse

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.