Vorwort
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Was ist Data Science?
In diesem Buch geht es um Data Science mit Python, was sofort die Frage aufwirft: Was ist Data Science? Es ist überraschend schwer, eine Definition zu finden, vor allem, wenn man bedenkt, wie allgegenwärtig der Begriff inzwischen ist. Viele Kritiker haben ihn als überflüssiges Etikett abgetan (denn welche Wissenschaft hat nicht mit Daten zu tun?) oder als einfaches Schlagwort, das nur dazu dient, Lebensläufe zu schmücken und die Aufmerksamkeit übereifriger Personalchefs auf sich zu ziehen.
Meiner Meinung nach übersehen diese Kritiken etwas Wichtiges. Data Science ist trotz seines Hype-Furniers vielleicht die beste Bezeichnung, die wir für die interdisziplinären Fähigkeiten haben, die in vielen Anwendungen in Industrie und Wissenschaft immer wichtiger werden. Dieserdisziplinübergreifende Teil ist der Schlüssel: Meiner Meinung nach wird die beste Definition von Data Science durch Drew Conways Data Science Venn-Diagramm veranschaulicht, das erstmals im September 2010 in seinem Blog veröffentlicht wurde(Abbildung P-1).
Auch wenn einige der Bezeichnungen etwas ironisch gemeint sind, fasst dieses Diagramm zusammen, was ich glaube, dass die Leute meinen, wenn sie von "Datenwissenschaft" sprechen: Es ist ein grundlegend interdisziplinäres Fach. Data Science umfasst drei verschiedene, sich überschneidende Bereiche: die Fähigkeiten einesStatistikers, der weiß, wie man Datensätze (die immer größer werden) modelliert und zusammenfasst; die Fähigkeiten eines Informatikers, der Algorithmen zur effizienten Speicherung, Verarbeitung und Visualisierung dieser Daten entwickeln und anwenden kann; und das Fachwissen - das, wasman als "klassische" Ausbildung in einem Fachgebiet bezeichnen könnte -, das notwendig ist, um die richtigen Fragen zu formulieren und die Antworten in einen Kontext zu stellen.
In diesem Sinne möchte ich dich ermutigen, Datenwissenschaft nicht als ein neues Wissensgebiet zu betrachten, das du erlernen musst, sondern als eine neue Reihe von Fähigkeiten, die du in deinem aktuellen Fachgebiet anwenden kannst. Egal, ob du über Wahlergebnisse berichtest, Aktienrenditen prognostizierst, Online-Anzeigenklicks optimierst, Mikroorganismen in Mikroskopfotos identifizierst, neue Klassen von astronomischen Objekten suchst oder in einem anderen Bereich mit Daten arbeitest - das Ziel dieses Buches ist es, dir die Fähigkeit zu vermitteln, neue Fragen zu deinem gewählten Themenbereich zu stellen und zu beantworten.
Für wen ist dieses Buch?
In meiner Lehrtätigkeit an der University of Washington und auf verschiedenen Tech-Konferenzen und Meetups ist eine der häufigsten Fragen, die ich höre, diese: "Wie soll ich Python lernen?" In der Regel handelt es sich bei den Fragenden um technisch interessierte Studierende, Entwickler/innen oder Forscher/innen, die oft schon Erfahrung mit dem Schreiben von Code und dem Einsatz von Berechnungs- und numerischen Werkzeugen haben. Die meisten dieser Leute wollen nicht Python an sich lernen, sondern die Sprache mit dem Ziel, sie als Werkzeug für datenintensive und rechnergestützte Wissenschaften zu nutzen. Obwohl es online ein großes Sammelsurium an Videos, Blogbeiträgen und Tutorials für diese Zielgruppe gibt, war ich schon lange frustriert, dass es keine einzige gute Antwort auf diese Frage gibt.
Das Buch soll keine Einführung in Python oder in die Programmierung im Allgemeinen sein. Ich gehe davon aus, dass der Leser mit der Sprache Python vertraut ist, einschließlich der Definition von Funktionen, der Zuweisung von Variablen, dem Aufruf von Methoden von Objekten, der Steuerung des Programmablaufs und anderen grundlegenden Aufgaben. Stattdessen soll es Python-Benutzern helfen, den Data Science Stack von Python - Bibliotheken wie die im folgenden Abschnitt erwähnten und verwandte Tools - zu nutzen, um Daten effektiv zu speichern, zu bearbeiten und Erkenntnisse daraus zu gewinnen.
Warum Python?
Python hat sich in den letzten Jahrzehnten zu einem erstklassigen Werkzeug für wissenschaftliche Berechnungen entwickelt, unter anderem für die Analyse und Visualisierung großer Datenmengen. Das mag für die ersten Befürworter der Sprache Python überraschend gewesen sein: Die Sprache selbst wurde nicht speziell für die Datenanalyse oder das wissenschaftliche Rechnen entwickelt. Der Nutzen von Python für die Datenwissenschaft ergibt sich vor allem aus dem großen und aktiven Ökosystem von Drittanbieterpaketen: NumPy für die Manipulation homogener Array-basierter Daten, Pandas für die Manipulation heterogener und gelabelter Daten, SciPy für allgemeine wissenschaftliche Berechnungsaufgaben,Matplotlib für Visualisierungen in Publikationsqualität, IPython für die interaktive Ausführung und den Austausch von Code, Scikit-Learn für maschinelles Lernen und viele weitere Tools, die auf den folgenden Seiten erwähnt werden.
Wenn du nach einem Leitfaden für die Sprache Python suchst, empfehle ich dir das Schwesterprojekt dieses Buches,A Whirlwind Tour of Python. Dieser kurze Bericht bietet eine Tour durch die wichtigsten Funktionen der Sprache Python und richtet sich an Datenwissenschaftler, die bereits mit einer oder mehreren anderen Programmiersprachen vertraut sind.
Gliederung des Buches
Jeder nummerierte Teil dieses Buches konzentriert sich auf ein bestimmtes Paket oder Werkzeug, das einen grundlegenden Beitrag zur Datenwissenschaft in Python leistet, und ist in kurze, in sich geschlossene Kapitel unterteilt, die jeweils ein einzelnes Konzept behandeln:
-
Teil I, "Jupyter: Jenseits von normalem Python" stellt IPython und Jupyter vor. Diese Pakete bieten die Rechenumgebung, in der viele Datenwissenschaftler mit Python arbeiten.
-
Teil II, "Einführung in NumPy", konzentriert sich auf die NumPy-Bibliothek, die
ndarray
für die effiziente Speicherung und Manipulation von dichten Datenarrays in Python bietet. -
In Teil III, "Datenmanipulation mit Pandas", wird die Pandas-Bibliothek vorgestellt, die die
DataFrame
für die effiziente Speicherung und Manipulation von beschrifteten/spaltenweisen Daten in Python bietet. -
Teil IV, "Visualisierung mit Matplotlib", konzentriert sich auf Matplotlib, eine Bibliothek, die Möglichkeiten für eine flexible Palette von Datenvisualisierungen in Python bietet.
-
Teil V, "Maschinelles Lernen", konzentriert sich auf die Scikit-Learn-Bibliothek, die effiziente und saubere Python-Implementierungen der wichtigsten und etablierten Algorithmen für maschinelles Lernen bietet.
Die PyData-Welt ist sicherlich viel größer als diese sechs Pakete und sie wächst jeden Tag. Aus diesem Grund versuche ich, in diesem Buch auf andere interessante Projekte und Pakete hinzuweisen, die die Grenzen dessen, was in Python möglich ist, erweitern. Nichtsdestotrotz sind die Pakete, auf die ich mich konzentriere, derzeit grundlegend für einen Großteil der Arbeit im Bereich der Datenwissenschaft in Python und ich gehe davon aus, dass sie auch dann noch wichtig bleiben, wenn das Ökosystem um sie herum weiter wächst.
Überlegungen zur Installation
Die Installation von Python und den Bibliotheken, die das wissenschaftliche Rechnen ermöglichen, ist einfach. In diesem Abschnitt erfährst du, worauf du bei der Einrichtung deines Computers achten solltest.
Es gibt zwar verschiedene Möglichkeiten, Python zu installieren, aber für den Einsatz in der Datenwissenschaft empfehle ich die Anaconda-Distribution, die unabhängig davon funktioniert, ob du Windows, Linux oder macOS verwendest. Die Anaconda-Distribution gibt es in zwei Varianten:
-
Mit Miniconda erhältst du den Python-Interpreter selbst sowie ein Kommandozeilen-Tool namens conda, das als plattformübergreifender Paketmanager für Python-Pakete fungiert, ähnlich wie die apt- oder yum-Tools, die Linux-Nutzer vielleicht kennen.
-
Anaconda enthält sowohl Python als auch conda und zusätzlich eine Reihe anderer vorinstallierter Pakete, die auf wissenschaftliche Berechnungen ausgerichtet sind. Aufgrund der Größe dieses Pakets musst du damit rechnen, dass die Installation mehrere Gigabyte Speicherplatz beansprucht.
Alle Pakete, die in Anaconda enthalten sind, können auch manuell über Miniconda installiert werden; deshalb empfehle ich, mit Miniconda zu beginnen.
Um loszulegen, lade das Miniconda-Paket herunter und installiere es - achte darauf, dass du eine Version mit Python 3 auswählst - und installiere dann die in diesem Buch verwendeten Kernpakete:
[~]$ conda install numpy pandas scikit-learn matplotlib seaborn jupyter
Im Laufe des Textes werden wir auch andere, speziellere Werkzeuge aus dem wissenschaftlichen Ökosystem von Python verwenden; die Installation ist normalerweise so einfach wie die Eingabe von conda install packagename
. Wenn du auf Pakete stößt, die nicht im Standard-Conda-Channel verfügbar sind, solltest du dir die conda-forge ansehen, ein breites, von der Community betriebenes Repository für conda-Pakete.
Weitere Informationen zu conda, einschließlich Informationen zum Erstellen und Verwenden von conda-Umgebungen (was ich sehr empfehlen würde), findest du inderOnline-Dokumentation von conda.
In diesem Buch verwendete Konventionen
In diesem Buch werden die folgenden typografischen Konventionen verwendet:
- Kursiv
-
Weist auf neue Begriffe, URLs, E-Mail-Adressen, Dateinamen und Dateierweiterungen hin.
Constant width
-
Wird für Programmlistings sowie innerhalb von Absätzen verwendet, um auf Programmelemente wie Variablen- oder Funktionsnamen, Datenbanken, Datentypen, Umgebungsvariablen, Anweisungen und Schlüsselwörter hinzuweisen.
Constant width bold
-
Zeigt Befehle oder anderen Text an, der vom Benutzer wortwörtlich eingetippt werden sollte.
Constant width italic
-
Zeigt Text an, der durch vom Benutzer eingegebene Werte oder durch kontextabhängige Werte ersetzt werden soll.
Hinweis
Dieses Element steht für einen allgemeinen Hinweis.
Code-Beispiele verwenden
Ergänzendes Material (Code-Beispiele, Abbildungen usw.) steht unter http://github.com/jakevdp/PythonDataScienceHandbook zum Download bereit .
Wenn du eine technische Frage oder ein Problem mit den Codebeispielen hast, sende bitte eine E-Mail an bookquestions@oreilly.com.
Dieses Buch soll dir helfen, deine Arbeit zu erledigen. Wenn in diesem Buch Beispielcode angeboten wird, darfst du ihn in deinen Programmen und deiner Dokumentation verwenden. Du musst uns nicht um Erlaubnis fragen, es sei denn, du reproduzierst einen großen Teil des Codes. Wenn du zum Beispiel ein Programm schreibst, das mehrere Teile des Codes aus diesem Buch verwendet, brauchst du keine Erlaubnis. Der Verkauf oder die Verbreitung von Beispielen aus O'Reilly-Büchern erfordert jedoch eine Genehmigung. Die Beantwortung einer Frage mit einem Zitat aus diesem Buch und einem Beispielcode erfordert keine Genehmigung. Wenn du einen großen Teil des Beispielcodes aus diesem Buch in die Dokumentation deines Produkts aufnimmst, ist eineGenehmigung erforderlich.
Wir freuen uns über eine Namensnennung, verlangen sie aber in der Regel nicht. Eine Quellenangabe umfasst normalerweise den Titel, den Autor, den Verlag und die ISBN. Zum Beispiel:"Python Data Science Handbook, 2. Auflage, von Jake VanderPlas (O'Reilly), Copyright 2023 Jake VanderPlas, 978-1-098-12122-8."
Wenn du der Meinung bist, dass deine Verwendung von Codebeispielen nicht unter die Fair-Use-Regelung oder die oben genannte Erlaubnis fällt, kannst du uns gerne unter permissions@oreilly.com kontaktieren .
O'Reilly Online Learning
Hinweis
Seit mehr als 40 Jahren bietet O'Reilly Media Schulungen, Wissen und Einblicke in Technologie und Wirtschaft, um Unternehmen zum Erfolg zu verhelfen.
Unser einzigartiges Netzwerk von Experten und Innovatoren teilt sein Wissen und seine Erfahrung durch Bücher, Artikel und unsere Online-Lernplattform. Die Online-Lernplattform von O'Reilly bietet dir On-Demand-Zugang zu Live-Trainingskursen, ausführlichen Lernpfaden, interaktiven Programmierumgebungen und einer umfangreichen Text- und Videosammlung von O'Reilly und über 200 anderen Verlagen. Weitere Informationen erhältst du unter https://oreilly.com.
Wie du uns kontaktierst
Bitte richte Kommentare und Fragen zu diesem Buch an den Verlag:
- O'Reilly Media, Inc.
- 1005 Gravenstein Highway Nord
- Sebastopol, CA 95472
- 800-998-9938 (in den Vereinigten Staaten oder Kanada)
- 707-829-0515 (international oder lokal)
- 707-829-0104 (Fax)
Wir haben eine Webseite für dieses Buch, auf der wir Errata, Beispiele und zusätzliche Informationen auflisten. Du kannst diese Seite unter https://oreil.ly/python-data-science-handbook aufrufen .
Schreib eine E-Mail an bookquestions@oreilly.com, um Kommentare oder technische Fragen zu diesem Buch zu stellen.
Neuigkeiten und Informationen über unsere Bücher und Kurse findest du unter https://oreilly.com.
Du findest uns auf LinkedIn: https://linkedin.com/company/oreilly-media.
Folge uns auf Twitter: https://twitter.com/oreillymedia.
Sieh uns auf YouTube: https://youtube.com/oreillymedia.
Get Python Data Science Handbook, 2. Auflage now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.