Kapitel 20. Apache Spark
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
In diesem Kapitel werden Rezepte für Apache Spark vorgestellt, eine einheitliche Datenanalyse-Engine für die Verarbeitung großer Datenmengen.
Auf der Spark-Website wird Spark als "einheitliche Analyse-Engine für die Verarbeitung großer Datenmengen" beschrieben. Das bedeutet, dass es sich um ein Big-Data-Framework handelt, mit dem du deine Daten mit verschiedenen Techniken analysieren kannst - z. B. indem du die Daten wie eine Tabelle oder eine Datenbank behandelst - und das auf verteilten Clustern läuft. Du kannst mit Spark Datensätze analysieren, die so groß sind, dass sie sich über Tausende von Computern erstrecken.
Spark wurde zwar für die Arbeit mit riesigen Datensätzen auf Computerclustern entwickelt, aber das Tolle daran ist, dass du mit nur wenigen Beispieldateien lernen kannst, wie du Spark auf deinem eigenen Computer nutzen kannst.
Spark 3.1.1
Die Beispiele in diesem Kapitel verwenden Spark 3.1.1, das im März 2021 veröffentlicht wurde und zum Zeitpunkt der Erstellung dieses Artikels die neueste Version ist. Spark funktioniert derzeit nur mit Scala 2.12, daher verwenden die Beispiele in diesem Kapitel auch Scala 2.12. Da du bei der Arbeit mit Spark jedoch in der Regel Methoden für Sammlungen wie map
und filter
oder SQL-Abfragen verwendest, wirst du den Unterschied zwischen Scala 2 und Scala 3 in diesen Beispielen ...
Get Scala Kochbuch, 2. Auflage now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.