Kapitel 11. Datensätze

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Datasets sind der grundlegende Typ der strukturierten APIs. Wir haben bereits mit DataFrames gearbeitet, die Datasets vom Typ Row sind und in den verschiedenen Sprachen von Spark zur Verfügung stehen. Datasets sind ein reines Sprachfeature der Java Virtual Machine (JVM) und funktionieren nur mit Scala und Java. Mit Datasets kannst du das Objekt definieren, aus dem jede Zeile in deinem Dataset besteht. In Scala ist dies ein Fallklassenobjekt, das im Wesentlichen ein Schema definiert, das du verwenden kannst, und in Java definierst du eine Java Bean. Erfahrene Benutzer bezeichnen Datasets oft als die "typisierten APIs" in Spark. Weitere Informationen findest du in Kapitel 4.

In Kapitel 4 haben wir besprochen, dass Spark Typen wie StringType, BigIntType, StructType und so weiter hat. Diese Spark-spezifischen Typen werden auf Typen abgebildet, die in jeder der Spark-Sprachen verfügbar sind, wie String, Integer und Double. Wenn du die DataFrame-API verwendest, erstellst du keine Strings oder Integers, sondern Spark manipuliert die Daten für dich, indem es das Row Objekt manipuliert. Wenn du Scala oder Java verwendest, sind alle "Datenrahmen" eigentlich Datensätze des Typs Row. Um domänenspezifische Objekte effizient zu unterstützen, ist ein spezielles Konzept namens "Encoder" erforderlich. Der Encoder bildet den domänenspezifischen ...

Get Spark: Der endgültige Leitfaden now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.