Kapitel 5. Effektive Umwandlungen
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Am häufigsten sind Spark-Programme auf RDDs aufgebaut: Sie lesen Daten aus einer stabilen Speicherung in das RDD-Format, führen eine Reihe von Berechnungen und Datentransformationen an den RDDs durch und schreiben das Ergebnis-RDD in eine stabile Speicherung oder sammeln es für den Treiber. Der größte Teil der Leistung von Spark liegt also in seinen Transformationen: Operationen, die auf RDDs definiert sind und RDDs zurückgeben.
Zurzeit enthält Spark spezielle Funktionen für etwa ein halbes Dutzend RDD-Typen, jeder mit seinen eigenen Eigenschaften und einer Vielzahl verschiedener Transformationsfunktionen. In diesem Abschnitt möchten wir dir die Werkzeuge an die Hand geben, mit denen du dir Gedanken darüber machen kannst, wie deine RDD-Transformation oder eine Reihe von Transformationen ausgewertet werden soll. Insbesondere geht es darum, welche Arten von RDDs diese Transformationen zurückgeben, ob das Persistieren oder Checkpointing von RDDs zwischen den Transformationen deine Berechnungen effizienter macht und wie eine bestimmte Reihe von Transformationen möglichst performant ausgeführt werden kann.
Hinweis
Die Transformationen in diesem Abschnitt sind die, die mit dem in Spark Core (und MLlib) verwendeten RDD-Objekt verbunden sind. RDDs werden auch innerhalb von DStreams mit Spark Streaming verwendet, aber sie ...
Get Hochleistungsfunken now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.