Kapitel 2. Herunterladen von Apache Spark und erste Schritte
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
In diesem Kapitel werden wir dich mit Spark vertraut machen und dich durch drei einfache Schritte führen, mit denen du deine erste eigenständige Anwendung schreiben kannst.
Wir werden den lokalen Modus verwenden, bei dem die gesamte Verarbeitung auf einem einzigen Rechner in einer Spark-Shell erfolgt - dies ist eine einfache Möglichkeit, das Framework zu erlernen und bietet eine schnelle Feedbackschleife für die iterative Ausführung von Spark-Operationen. Mit einer Spark-Shell kannst du Spark-Operationen mit kleinen Datensätzen testen, bevor du eine komplexe Spark-Anwendung schreibst. Für große Datensätze oder echte Aufgaben, bei denen du die Vorteile der verteilten Ausführung nutzen möchtest, ist der lokale Modus jedoch nicht geeignet - du solltest stattdessen die Bereitstellungsmodi YARN oder Kubernetes verwenden.
Obwohl die Spark-Shell nur Scala, Python und R unterstützt, kannst du eine Spark-Anwendung in jeder der unterstützten Sprachen (einschließlich Java) schreiben und Abfragen in Spark SQL stellen. Wir erwarten allerdings, dass du mit der Sprache deiner Wahl vertraut bist.
Schritt 1: Herunterladen von Apache Spark
Um loszulegen, rufe die Spark-Downloadseite auf, wähle in Schritt 2 "Pre-built for Apache Hadoop 2.7" aus dem Dropdown-Menü und klicke in Schritt 3 auf den Link "Spark ...
Get Spark lernen, 2. Auflage now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.