Kapitel 3. Mapper-Transformationen
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
In diesem Kapitel werden die gebräuchlichsten Spark-Mapper-Transformationen anhand einfacher Arbeitsbeispiele vorgestellt. Ohne ein klares Verständnis von Transformationen ist es schwer, sie richtig und sinnvoll zur Lösung von Datenproblemen einzusetzen. Wir werden Mapper-Transformationen im Kontext von RDD-Datenabstraktionen untersuchen. Ein Mapper ist eine Funktion, die dazu dient, alle Elemente eines Quell-RDD zu verarbeiten und ein Ziel-RDD zu erzeugen. Ein Mapper kann z. B. einen String
Datensatz in Tupel, (Schlüssel-, Wert-)Paare oder eine beliebige andere Ausgabe umwandeln. Informell kann man sagen, dass ein Mapper einen Quell-RDDRDD[V]
in einen Ziel-RDD RDD[T]
umwandelt, wobeiV
und T
die Datentypen der Quell- bzw. Ziel-RDDs sind. Du kannst Mapper-Transformationen auch auf DataFrames anwenden, indem du entweder DataFrame-Funktionen (mit select()
und UDFs) auf alle Zeilen anwendest oder deinen DataFrame (eine Tabelle mit Zeilen und Spalten) in ein RDD konvertierst und dann dieMapper-Transformationen von Spark nutzt.
Datenabstraktionen und Mapper
Spark verfügt über viele Transformationen und Aktionen, aber dieses Kapitel widmet sich der Erläuterung derjenigen, die bei der Erstellung von Spark-Anwendungen ...
Get Datenalgorithmen mit Spark now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.