Kapitel 1. Was ist Apache Spark?
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Apache Spark ist eine einheitliche Computing-Engine und eine Reihe von Bibliotheken für die parallele Datenverarbeitung auf Computerclustern. Derzeit ist Spark die am aktivsten entwickelte Open-Source-Engine für diese Aufgabe und damit ein Standardwerkzeug für jeden Entwickler oder Datenwissenschaftler, der sich für Big Data interessiert. Spark unterstützt mehrere weit verbreitete Programmiersprachen (Python, Java, Scala und R), enthält Bibliotheken für verschiedene Aufgaben von SQL bis hin zu Streaming und maschinellem Lernen und kann von einem Laptop bis hin zu einem Cluster mit Tausenden von Servern betrieben werden. Das macht es zu einem einfachen System für den Einstieg und den Ausbau zu einer Big Data-Verarbeitung oder einem unglaublich großen Maßstab.
Abbildung 1-1 veranschaulicht alle Komponenten und Bibliotheken, die Spark den Endnutzern bietet.
Abbildung 1-1. Der Werkzeugkasten von Spark
Du wirst feststellen, dass die Kategorien in etwa den verschiedenen Teilen dieses Buches entsprechen. Das ist auch nicht weiter verwunderlich, denn unser Ziel ist es, dich über alle Aspekte von Spark zu informieren, und Spark besteht aus einer Reihe von verschiedenen Komponenten.
Da du dieses Buch liest, weißt du vielleicht ...