Kapitel 13. Erweiterte RDDs

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In Kapitel 12 hast du unter die Grundlagen der Bearbeitung von einzelnen RDDs kennengelernt. Du hast gelernt, wie du RDDs erstellst und warum du sie verwenden solltest. Außerdem haben wir Map, Filter und Reduce besprochen und erfahren, wie man Funktionen erstellt, um einzelne RDD-Daten umzuwandeln. Dieses Kapitel behandelt die fortgeschrittenen RDD-Operationen und konzentriert sich auf Key-Value-RDDs, eine leistungsstarke Abstraktion zur Datenmanipulation. Wir gehen auch auf einige fortgeschrittene Themen ein, wie z. B. die benutzerdefinierte Partitionierung, ein Grund, warum du RDDs überhaupt verwenden möchtest. Mit einer benutzerdefinierten Partitionierungsfunktion kannst du genau steuern, wie die Daten auf dem Cluster angeordnet werden und die einzelnen Partitionen entsprechend manipulieren. Bevor wir dazu kommen, fassen wir noch einmal die wichtigsten Themen zusammen, die wir behandeln werden:

  • Aggregationen und Schlüsselwert-RDDs

  • Benutzerdefinierte Partitionierung

  • RDD-Verbindungen

Hinweis

Diese APIs gibt es im Grunde schon seit den Anfängen von Spark, und es gibt eine Menge Beispiele im Internet zu diesen APIs. So ist es ganz einfach, Beispiele zu finden, die dir zeigen, wie du diese Operationen nutzen kannst.

Wir verwenden denselben Datensatz wie im letzten Kapitel:

// in Scala
val myCollection = "Spark ...

Get Spark: Der endgültige Leitfaden now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.