Vorwort

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Wir haben dieses Buch für Data Scientists und Data Engineers geschrieben, die mit Python und Pandas vertraut sind und größere Probleme lösen wollen, als es ihre derzeitigen Werkzeuge erlauben. Aktuelle PySpark-Benutzer werden feststellen, dass sich einiges von diesem Material mit ihrem bestehenden Wissen über PySpark überschneidet, aber wir hoffen, dass sie es trotzdem hilfreich finden, und zwar nicht nur, um von der Java Virtual Machine (JVM) wegzukommen.

Wenn du mit Python nicht vertraut bist, findest du in Learning Python und Python for Data Analysis von O'Reilly einige hervorragende Titel. Wenn du und dein Team häufiger JVM-Sprachen (wie Java oder Scala) verwenden, empfehlen wir dir - auch wenn wir ein wenig voreingenommen sind - Apache Spark sowie Learning Spark (O'Reilly) und High Performance Spark (O'Reilly).

Dieses Buch konzentriert sich in erster Linie auf Data Science und verwandte Aufgaben, weil Dask hier unserer Meinung nach am besten abschneidet. Wenn du ein allgemeineres Problem hast, für das Dask nicht ganz die richtige Lösung zu sein scheint, empfehlen wir dir (auch hier wieder mit einer gewissen Voreingenommenheit) Scaling Python with Ray (O'Reilly), das sich weniger auf die Datenwissenschaft konzentriert.

Ein Hinweis zur Verantwortung

Wie das Sprichwort schon sagt, kommt mit großer Macht auch große Verantwortung. Dask und ähnliche Tools ermöglichen es dir, mehr Daten zu verarbeiten und komplexere Modelle zu erstellen. Es ist wichtig, dass du dich nicht dazu hinreißen lässt, Daten nur um ihrer selbst willen zu sammeln, und dass du dich fragst, ob die Aufnahme eines neuen Feldes in dein Modell nicht unbeabsichtigte Auswirkungen auf die reale Welt haben könnte. Man muss nicht lange suchen, um Geschichten über wohlmeinende Ingenieure und Datenwissenschaftler zu finden, die versehentlich Modelle oder Tools entwickelt haben, die verheerende Auswirkungen hatten, wie z. B. die verstärkte Überprüfung von Minderheiten, geschlechtsspezifische Diskriminierung oder subtilere Dinge wie Verzerrungen bei der Einbettung von Wörtern (eine Methode, um die Bedeutungen von Wörtern als Vektoren darzustellen). Bitte nutze deine neu gewonnenen Fähigkeiten mit Blick auf solche potenziellen Folgen, denn man will ja nicht aus den falschen Gründen in einem Lehrbuch landen.

In diesem Buch verwendete Konventionen

In diesem Buch werden die folgenden typografischen Konventionen verwendet:

Kursiv

Weist auf neue Begriffe, URLs, E-Mail-Adressen, Dateinamen und Dateierweiterungen hin.

Constant width

Wird für Programmlistings sowie innerhalb von Absätzen verwendet, um auf Programmelemente wie Variablen- oder Funktionsnamen, Datenbanken, Datentypen, Umgebungsvariablen, Anweisungen und Schlüsselwörter hinzuweisen.

Tipp

Dieses Element steht für einen Tipp oder eine Anregung.

Hinweis

Dieses Element steht für einen allgemeinen Hinweis.

Warnung

Dieses Element weist auf eine Warnung oder einen Warnhinweis hin.

Online Zahlen

Printleser finden größere, farbige Versionen einiger Abbildungen unter https://oreil.ly/SPWD-figures. Links zu jeder Abbildung sind auch in den Bildunterschriften enthalten.

Lizenz

Nach der Veröffentlichung in gedruckter Form und unter Ausschluss der charakteristischen Designelemente von O'Reilly (z. B. Umschlaggestaltung, Designformat, "Look and Feel") oder der Marken, Dienstleistungsmarken und Handelsnamen von O'Reilly ist dieses Buch unter einer Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International Public License erhältlich. Wir danken O'Reilly für die Erlaubnis, dieses Buch unter einer Creative Commons-Lizenz zur Verfügung zu stellen, und hoffen, dass du dieses Buch (und uns) durch den Kauf mehrerer Exemplare unterstützen wirst (es eignet sich hervorragend als Geschenk für die nächste Weihnachtszeit).

Code-Beispiele verwenden

Das Scaling Python Machine Learning GitHub Repo enthält den Großteil der Beispiele in diesem Buch. Sie befinden sich hauptsächlich im Dask-Verzeichnis, wobei esoterischere Teile (wie der plattformübergreifende CUDA-Container) in separaten Top-Level-Verzeichnissen zu finden sind.

Wenn du eine technische Frage oder ein Problem mit den Codebeispielen hast, schreibe bitte eine E-Mail an

Dieses Buch soll dir helfen, deine Arbeit zu erledigen. Wenn in diesem Buch Beispielcode angeboten wird, darfst du ihn in deinen Programmen und deiner Dokumentation verwenden. Du musst uns nicht um Erlaubnis fragen, es sei denn, du reproduzierst einen großen Teil des Codes. Wenn du zum Beispiel ein Programm schreibst, das mehrere Teile des Codes aus diesem Buch verwendet, brauchst du keine Erlaubnis. Der Verkauf oder die Verbreitung von Beispielen aus O'Reilly-Büchern erfordert jedoch eine Genehmigung. Die Beantwortung einer Frage mit einem Zitat aus diesem Buch und einem Beispielcode erfordert keine Genehmigung. Wenn du einen großen Teil des Beispielcodes aus diesem Buch in die Dokumentation deines Produkts aufnimmst, ist eine Genehmigung erforderlich.

Wir freuen uns über eine Namensnennung, verlangen sie aber in der Regel nicht. Eine Quellenangabe umfasst normalerweise den Titel, den Autor, den Verlag und die ISBN. Ein Beispiel: "Scaling Python with Dask " von Holden Karau und Mika Kimmins (O'Reilly). Copyright 2023 Holden Karau und Mika Kimmins, 978-1-098-11987-4."

Wenn du der Meinung bist, dass die Verwendung von Code-Beispielen nicht unter die Fair-Use-Regelung oder die oben genannte Erlaubnis fällt, kannst du uns gerne unter kontaktieren

O'Reilly Online Learning

Hinweis

Seit mehr als 40 Jahren bietet O'Reilly Media Schulungen, Wissen und Einblicke in Technologie und Wirtschaft, um Unternehmen zum Erfolg zu verhelfen.

Unser einzigartiges Netzwerk von Experten und Innovatoren teilt sein Wissen und seine Erfahrung durch Bücher, Artikel und unsere Online-Lernplattform. Die Online-Lernplattform von O'Reilly bietet dir On-Demand-Zugang zu Live-Trainingskursen, ausführlichen Lernpfaden, interaktiven Programmierumgebungen und einer umfangreichen Text- und Videosammlung von O'Reilly und über 200 anderen Verlagen. Weitere Informationen erhältst du unter https://oreilly.com.

Wie du uns kontaktierst

Bitte richte Kommentare und Fragen zu diesem Buch an den Verlag:

Wir haben eine Webseite für dieses Buch, auf der wir Errata, Beispiele und zusätzliche Informationen auflisten. Du kannst diese Seite unter https://oreil.ly/scaling-python-dask aufrufen .

Neuigkeiten und Informationen über unsere Bücher und Kurse findest du unter https://oreilly.com.

Finde uns auf LinkedIn: https://linkedin.com/company/oreilly-media

Folge uns auf Twitter: https://twitter.com/oreillymedia

Schau uns auf YouTube: https://youtube.com/oreillymedia

Danksagungen

Dieses Buch wurde von zwei Trans-Immigranten geschrieben, die in einer Zeit in Amerika leben, in der die Mauern sich anfühlen, als würden sie sich schließen. Wir haben uns entschieden, dieses Buch all denen zu widmen, die für eine gerechtere Welt kämpfen, auf welche Weise auch immer - vielen Dank. Wir vermissen all diejenigen, die wir verloren haben oder die wir nicht kennenlernen konnten. Diejenigen, die wir noch nicht kennengelernt haben, freuen sich darauf, euch kennenzulernen.

Dieses Buch gäbe es nicht, wenn es nicht auf den Gemeinschaften basieren würde, auf denen es aufgebaut ist. Von der Dask-Gemeinschaft bis zur PyData-Gemeinschaft: Vielen Dank. Wir danken allen frühen Lesern und Rezensenten für ihre Beiträge und Hinweise. Zu diesen Gutachtern gehören Ruben Berenguel, Adam Breindel, Tom Drabas, Joseph Gnanaprakasam, John Iannone, Kevin Kho, Jess Males und viele andere. Ein besonderer Dank geht an Ann Spencer, die die ersten Entwürfe von " Scaling Python with Ray" geprüft hat. Alle verbleibenden Fehler sind allein unsere Schuld, da wir uns manchmal über die Ratschläge der Prüfer hinweggesetzt haben.1

Holden möchte sich auch bei ihrer Frau und ihren Partnern dafür bedanken, dass sie ihre langen Schreibsessions in der Badewanne ertragen haben. Ein besonderes Dankeschön geht an Timbit, der das Haus bewacht und Holden generell einen Grund gibt, das Bett zu verlassen (wenn auch oft etwas zu früh für ihren Geschmack).

spwd 00in01

Mika möchte sich außerdem bei Holden für ihre Mentorenschaft und Hilfe bedanken und ihren Kolleginnen und Kollegen von der Harvard Data Science-Abteilung dafür danken, dass sie sie mit unbegrenztem Gratiskaffee versorgt haben.

1 Wir sind manchmal sehr stur.

Get Skalierung von Python mit Dask now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.