Vorwort

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Herzlich willkommen! Wenn du dieses Buch in die Hand nimmst, gehörst du wahrscheinlich zu den vielen Millionen Menschen, die sich für die Prozesse und Möglichkeiten rund um "Daten" interessieren - diese unglaubliche, schwer fassbare neue "Währung", die die Art und Weise verändert, wie wir leben, arbeiten und sogar miteinanderin Kontakt treten. Die meisten von uns sind sich zum Beispiel vage der Tatsache bewusst, dass Daten - die von unseren elektronischen Geräten und anderen Aktivitäten gesammelt werden - dazu verwendet werden, um zu bestimmen, welche Werbung wir sehen, welche Medien uns empfohlen werden und welche Suchergebnisse als erstes erscheinen, wenn wir online nach etwas suchen. Was viele Menschen nicht wissen, ist, dass die Werkzeuge und Fähigkeiten, um auf Daten zuzugreifen, sie umzuwandeln und daraus Erkenntnisse zu gewinnen, für sie leicht verfügbar sind. Dieses Buch soll diesen Menschen helfen - dir, wenn du willst - genau das zu tun.

Daten sind nicht nur für große Unternehmen oder staatliche Zahlenjongleure nützlich. Die Fähigkeit, auf Daten zuzugreifen, sie zu verstehen und Erkenntnisse aus ihnen zu gewinnen, ist eine wertvolle Fähigkeit, egal ob du ein Datenwissenschaftler oder eine Tagespflegeperson bist. Die Werkzeuge, die du brauchst, um Daten effektiv zu nutzen, sind leichter zugänglich als je zuvor. Du kannst nicht nur mit kostenloser Software und Programmiersprachen wichtige Datenarbeit leisten, sondern brauchst nicht einmal einen teuren Computer. Alle Übungen in diesem Buch wurden zum Beispiel auf einem Chromebook entwickelt und ausgeführt, das weniger als 500 Dollar kostet. Du kannst sogar einfach kostenlose Online-Plattformen über die Internetverbindung in deiner örtlichen Bibliothek nutzen.

Das Ziel dieses Buches ist es, Datenneulingen die Anleitung und das Vertrauen zu geben, das sie brauchen, um die Welt der Daten zu erkunden - zuerst durch den Zugang zu den Daten und dann durch die Bewertung ihrer Qualität. Wenn diese Grundlagen vorhanden sind, werden wir uns mit einigen grundlegenden Methoden der Datenanalyse und -präsentation befassen, um aussagekräftige Erkenntnisse zu gewinnen. Auch wenn diese Abschnitte bei weitem nicht umfassend sind (sowohl Datenanalyse als auch Visualisierung sind eigenständige Bereiche), vermitteln sie dir die grundlegenden Fähigkeiten, die du brauchst, um mit deinen frisch bereinigten und erworbenen Daten genaue und informative Analysen und Visualisierungen zu erstellen.

Wer sollte dieses Buch lesen?

Alles, was du brauchst, sind Grundkenntnisse im Umgang mit Computern (z. B. wie man eine Datei herunterlädt, ein Programm öffnet, kopiert und einfügt usw.), einen offenen Geist und die Bereitschaft zu experimentieren. Ich möchte dich besonders ermutigen, es mit diesem Buch zu versuchen, wenn du dich von Daten oder dem Programmieren eingeschüchtert fühlst, wenn du "schlecht in Mathe" bist oder dir vorstellst, dass die Arbeit mit Daten oder das Programmierenlernen zu schwer für dich ist. Ich habe fast ein Jahrzehnt damit verbracht, Hunderten von Menschen, die sich selbst nicht als "technisch" bezeichnen, genau die Fähigkeiten beizubringen, die in diesem Buch enthalten sind, und ich hatte nicht ein einziges Mal einen Schüler, der wirklich nicht in der Lage war, den Stoff zu verstehen. Meiner Erfahrung nach liegt die größte Herausforderung beim Programmieren und Arbeiten mit Daten nicht in der Schwierigkeit der Materie, sondern in der Qualität des Unterrichts.1 Ich bin sowohl den vielen Schülerinnen und Schülern dankbar, deren Fragen mir im Laufe der Jahre unermesslich geholfen haben, Wege zu finden, den Stoff besser zu vermitteln, als auch für die Möglichkeit, das, was ich von ihnen gelernt habe, durch dieses Buch mit so vielen anderen zu teilen. Auch wenn ein Buch die Unterstützung durch einen menschlichen Lehrer nicht ersetzen kann, hoffe ich, dass es dir zumindest das Handwerkszeug gibt, das du brauchst, um die Grundlagen zu beherrschen - und vielleicht die Inspiration, diese Fähigkeiten auf die nächste Stufe zu heben.

Dieses Buch ist auch für Leute nützlich, die bereits Erfahrung mit der Datenverarbeitung haben, aber mit Tabellenkalkulationsprogrammen an ihre Grenzen stoßen oder die Palette der Datenformate, auf die sie leicht zugreifen und die sie bearbeiten können, erweitern wollen, sowie für Leute mit Kenntnissen in der Frontend-Programmierung (z. B. in JavaScript oder PHP), die einen Einstieg in Python suchen.

Wer sollte dieses Buch nicht lesen?

Wie bereits erwähnt, ist dieses Buch für Anfänger gedacht. Auch wenn du vielleicht einige Abschnitte nützlich findest, wenn du neu in der Datenanalyse oder -visualisierung bist, ist dieses Buch nicht für diejenigen gedacht, die bereits Erfahrung mit Python oder einer anderen datenorientierten Programmiersprache (wie R) haben. Zum Glück gibt es bei O'Reilly viele spezialisierte Bände, die sich mit fortgeschrittenen Python-Themen und -Bibliotheken befassen, z. B. Wes McKinney's Python for Data Analysis (O'Reilly) oder das Python Data Science Handbook von Jake VanderPlas (O'Reilly).

Was du von diesem Band erwarten kannst

Der Inhalt dieses Buches ist so konzipiert, dass du es in der vorgestellten Reihenfolge durcharbeiten kannst, da die Konzepte und Übungen in jedem Kapitel auf den zuvor behandelten aufbauen. Du wirst jedoch feststellen, dass die Übungen auf zwei Arten präsentiert werden: als Code-"Notizbücher" und als "eigenständige" Programmierdateien. Damit wird ein zweifacher Zweck verfolgt. Erstens kannst du als Leser die Methode wählen, die du bevorzugst oder die dir leichter zugänglich ist, und zweitens kannst du so die beiden Methoden zur Interaktion mit datengesteuertem Python-Code vergleichen. Meiner Erfahrung nach sind Python-"Notizbücher" äußerst nützlich, um schnell loszulegen, können aber mühsam werden, wenn du einen zuverlässigen Code entwickelst, den du immer wieder ausführen möchtest. Da der Code eines Formats oft nicht einfach in das andere kopiert und eingefügt werden kann, werden beide Formate im zugehörigen GitHub Repo bereitgestellt. Auch die Datendateien sind über Google Drive verfügbar. Wenn du den Übungen folgst, kannst du das Format verwenden, das du bevorzugst, und du hast auch die Möglichkeit, die Unterschiede im Code der beiden Formate aus erster Hand zu sehen.

Obwohl Python das wichtigste Werkzeug in diesem Buch ist, wird die effektive Datenverarbeitung und -analyse durch den intelligenten Einsatz einer Reihe von Tools erleichtert, von Texteditoren (den Programmen, in denen du deinen Code schreibst) bis hin zu Tabellenkalkulationsprogrammen. Aus diesem Grund gibt es in diesem Buch gelegentlich Übungen, die neben Python auch andere kostenlose und/oder Open-Source-Tools verwenden. Wenn diese vorgestellt werden, erkläre ich, warum das jeweilige Tool ausgewählt wurde, und gebe ausreichende Anweisungen, um die Beispielaufgabe zu lösen.

In diesem Buch verwendete Konventionen

In diesem Buch werden die folgenden typografischen Konventionen verwendet:

Kursiv

Weist auf neue Begriffe, URLs, E-Mail-Adressen, Dateinamen und Dateierweiterungen hin.

Monospaced

Wird für Programmlistings sowie innerhalb von Absätzen verwendet, um auf Programmelemente wie Variablen- oder Funktionsnamen, Datenbanken, Datentypen, Umgebungsvariablen, Anweisungen und Schlüsselwörter hinzuweisen.

Monospaced bold

Zeigt Befehle oder anderen Text an, der vom Benutzer wortwörtlich eingetippt werden sollte.

Monospaced italic

Zeigt Text an, der durch vom Benutzer eingegebene Werte oder durch kontextabhängige Werte ersetzt werden soll.

Tipp

Dieses Element steht für einen Tipp oder eine Anregung.

Hinweis

Dieses Element steht für einen allgemeinen Hinweis.

Warnung

Dieses Element weist auf eine Warnung oder einen Warnhinweis hin.

Code-Beispiele verwenden

Zusätzliches Material (Code-Beispiele, Übungen usw.) steht unterhttps://github.com/PracticalPythonDataWranglingAndQuality zum Download bereit.

Wenn du eine technische Frage oder ein Problem mit den Codebeispielen hast, sende bitte eine E-Mail an

Der Code in diesem Buch soll dir helfen, deine Fähigkeiten zu entwickeln. Wenn in diesem Buch Beispielcode angeboten wird, darfst du ihn in deinen Programmen und deiner Dokumentation verwenden. Du musst uns nicht um Erlaubnis fragen, es sei denn, du reproduzierst einen großen Teil des Codes. Wenn du zum Beispiel ein Programm schreibst, das mehrere Teile des Codes aus diesem Buch verwendet, brauchst du keine Erlaubnis. Der Verkauf oder die Verbreitung von Beispielen aus O'Reilly-Büchern erfordert jedoch eine Genehmigung. Die Beantwortung einer Frage mit einem Zitat aus diesem Buch und einem Beispielcode erfordert keine Genehmigung. Wenn du einen großen Teil des Beispielcodes aus diesem Buch in die Dokumentation deines Produkts aufnimmst, ist eine Genehmigung erforderlich.

Wir freuen uns über eine Namensnennung, verlangen sie aber in der Regel nicht. Eine Quellenangabe umfasst normalerweise den Titel, den Autor, den Verlag und die ISBN. Ein Beispiel: "Practical Python Data Wrangling and Data Quality von Susan E. McGregor (O'Reilly). Copyright 2022 Susan E. McGregor, 978-1-492-09150-9."

Wenn du der Meinung bist, dass die Verwendung von Code-Beispielen nicht unter die Fair-Use-Regelung oder die oben genannte Erlaubnis fällt, kannst du uns gerne unter kontaktieren

O'Reilly Online Learning

Hinweis

Seit mehr als 40 Jahren bietet O'Reilly Media Schulungen, Wissen und Einblicke in Technologie und Wirtschaft, um Unternehmen zum Erfolg zu verhelfen.

Unser einzigartiges Netzwerk von Experten und Innovatoren teilt sein Wissen und seine Erfahrung durch Bücher, Artikel und unsere Online-Lernplattform. Die Online-Lernplattform von O'Reilly bietet dir On-Demand-Zugang zu Live-Trainingskursen, ausführlichen Lernpfaden, interaktiven Programmierumgebungen und einer umfangreichen Text- und Videosammlung von O'Reilly und über 200 anderen Verlagen. Weitere Informationen erhältst du unter http://oreilly.com.

Wie du uns kontaktierst

Bitte richte Kommentare und Fragen zu diesem Buch an den Verlag:

  • O'Reilly Media, Inc.
  • 1005 Gravenstein Highway Nord
  • Sebastopol, CA 95472
  • 800-998-9938 (in den Vereinigten Staaten oder Kanada)
  • 707-829-0515 (international oder lokal)
  • 707-829-0104 (Fax)

Wir haben eine Webseite für dieses Buch, auf der wir Errata, Beispiele und zusätzliche Informationen auflisten. Du kannst diese Seite unter https://www.oreilly.com/library/view/practical-python-data/9781492091493 aufrufen .

Schreib eine E-Mail an , um Kommentare oder technische Fragen zu diesem Buch zu stellen.

Neuigkeiten und Informationen über unsere Bücher und Kurse findest du unter http://oreilly.com.

Finde uns auf Facebook: http://facebook.com/oreilly

Folge uns auf Twitter: http://twitter.com/oreillymedia

Schau uns auf YouTube: http://www.youtube.com/oreillymedia

Danksagungen

Wie ich bereits erwähnt habe, verdankt dieses Buch meinen vielen Schülerinnen und Schülern, die im Laufe der Jahre mutig genug waren, etwas Neues auszuprobieren und aufrichtige Fragen zu stellen, viel. Der Prozess des Schreibens dieses Buches (ganz zu schweigen vom Text selbst) wurde durch meinen Lektor, Jeff Bleiel, unermesslich verbessert, der mit seiner Freundlichkeit, Flexibilität und Leichtigkeit meine Übertreibungen milderte und gleichzeitig meinem persönlichen Stil Raum gab. Ich bin auch dankbar für die aufmerksamen und großzügigen Kommentare meiner Rezensenten: Joanna S. Kao, Anne Bonner und Randy Au.

Ich möchte mich auch bei Jess Haberman bedanken, die mir die Möglichkeit bot, dieses Material zu meinem eigenen zu machen, sowie bei Jacqueline Kazil und Katharine Jarmul, die mir geholfen haben, ihr den Weg zu ebnen. Außerdem möchte ich Jeannette Wing und Cliff Stein sowie den Mitarbeitern des Data Science Institute der Columbia University danken, deren Interesse an dieser Arbeit bereits dazu beigetragen hat, dass sie spannende neue Möglichkeiten eröffnet hat. Und natürlich möchte ich mich bei meinen Freunden und Verwandten für ihr Interesse und ihre Unterstützung bedanken, auch - oder gerade - wenn sie keine Ahnung hatten, wovon ich rede.

Schließlich möchte ich meiner Familie danken (einschließlich der Kinder, die zu jung sind, um das hier zu lesen), dass sie mich auch dann noch unterstützt, wenn die traurigen SpongeBob-Tage anbrechen. Ihr macht die Arbeit lohnenswert.

1 Lange Zeit war es auch ein großes Hindernis, die Tools zu installieren. Jetzt brauchst du nur noch eine Internetverbindung!

Get Praktisches Python Data Wrangling und Datenqualität now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.