Kapitel 6. Arbeiten mit Schlüssel/Wert-Daten
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Wie jedes gute Tool für verteiltes Rechnen verlässt sich Spark stark auf das Schlüssel/Wert-Paar-Paradigma, um Operationen zu definieren und zu parallelisieren, besonders umfangreiche Transformationen, die eine Neuverteilung der Daten zwischen den Rechnern erfordern. Immer wenn wir gruppierte Operationen parallel durchführen oder die Reihenfolge der Datensätze zwischen den Rechnern ändern wollen - sei es die Berechnung einer Aggregationsstatistik oder das Zusammenführen von Kundendatensätzen - ist die Schlüssel/Wert-Funktionalität von Spark nützlich, da sie uns eine einfache Parallelisierung unserer Arbeit ermöglicht. Spark hat eine eigene Klasse PairRDDFunctions
, die Operationen auf RDDs von Tupeln enthält. Die Klasse PairRDDFunctions
, die durch implizite Konvertierung verfügbar gemacht wird, enthält die meisten Methoden von Spark für Joins und benutzerdefinierte Aggregationen. Die Klasse OrderedRDDFunctions
enthält die Methoden für die Sortierung. Die Klasse OrderedRDDFunctions
ist für RDDs mit Tupeln verfügbar, bei denen das erste Element (der Schlüssel) eine implizite Reihenfolge hat.
Hinweis
Ähnliche Operationen sind auf Dataset
möglich, wie in "Gruppierte Operationen auf Datensätzen" beschrieben .
Trotz ihres Nutzens können Schlüssel/Wert-Operationen zu einer Reihe von Leistungsproblemen führen. ...
Get Hochleistungsfunken now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.