Vorwort
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Apache Sparks lange Reihe von Vorgängern, von MPI (Message Passing Interface) bis MapReduce, hat es möglich gemacht, Programme zu schreiben, die die Vorteile massiver Ressourcen nutzen und gleichzeitig von den kleinen Details verteilter Systeme abstrahieren. So sehr die Bedürfnisse der Datenverarbeitung die Entwicklung dieser Frameworks motiviert haben, so sehr ist der Bereich Big Data mit ihnen verbunden, so dass sein Umfang durch die Möglichkeiten dieser Frameworks bestimmt wird. Das ursprüngliche Versprechen von Spark war es, dies noch ein bisschen weiter zu treiben - damit sich das Schreiben verteilter Programme wie das Schreiben normaler Programme anfühlt.
Der Anstieg der Popularität von Spark fiel mit dem des Python-Daten-Ökosystems (PyData) zusammen. Daher ist es nur logisch, dass die Python-API von Spark - PySpark - in den letzten Jahren erheblich an Popularität gewonnen hat. Obwohl das PyData-Ökosystem in letzter Zeit einige Optionen für die verteilte Programmierung hervorgebracht hat, ist Apache Spark nach wie vor eine der beliebtesten Optionen für die Arbeit mit großen Datensätzen in verschiedenen Branchen und Bereichen. Dank der jüngsten Bemühungen, PySpark in die anderen PyData-Tools zu integrieren, kannst du mit dem Erlernen des Frameworks deine Produktivität als Data-Science-Experte erheblich steigern.
Wir sind der Meinung, ...