Vorwort
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Willkommen zu dieser ersten Ausgabe von Spark: The Definitive Guide! Wir freuen uns, dir die derzeit umfassendste Ressource zu Apache Spark präsentieren zu können. Dabei konzentrieren wir uns besonders auf die neue Generation der Spark-APIs, die mit Spark 2.0 eingeführt wurden.
Apache Spark ist derzeit eines der beliebtesten Systeme für die Verarbeitung großer Datenmengen, mit APIs in mehreren Programmiersprachen und einer Fülle von eingebauten und Drittanbieter-Bibliotheken. Obwohl das Projekt bereits seit mehreren Jahren existiert - zunächst als Forschungsprojekt, das 2009 an der UC Berkeley gestartet wurde, und seit 2013 bei der Apache Software Foundation - entwickelt die Open-Source-Gemeinschaft immer leistungsfähigere APIs und High-Level-Bibliotheken für Spark, so dass es noch viel über das Projekt zu schreiben gibt. Wir haben uns aus zwei Gründen entschieden, dieses Buch zu schreiben. Erstens wollten wir das umfassendste Buch über Apache Spark vorlegen, das alle grundlegenden Anwendungsfälle mit einfach auszuführenden Beispielen abdeckt. Zweitens wollten wir vor allem die "strukturierten" APIs auf höherer Ebene erkunden, die in Apache Spark 2.0 fertiggestellt wurden - DataFrames, Datasets, Spark SQL und Structured Streaming -, die in älteren Büchern über Spark nicht immer enthalten sind. Wir hoffen, dass dieses Buch dir eine solide ...