Skip to Main Content
Spark: Der endgültige Leitfaden
book

Spark: Der endgültige Leitfaden

by Bill Chambers, Matei Zaharia
September 2024
Intermediate to advanced content levelIntermediate to advanced
606 pages
16h 25m
German
O'Reilly Media, Inc.
Book available
Content preview from Spark: Der endgültige Leitfaden

Kapitel 11. Datensätze

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Datasets sind der grundlegende Typ der strukturierten APIs. Wir haben bereits mit DataFrames gearbeitet, die Datasets vom Typ Row sind und in den verschiedenen Sprachen von Spark zur Verfügung stehen. Datasets sind ein reines Sprachfeature der Java Virtual Machine (JVM) und funktionieren nur mit Scala und Java. Mit Datasets kannst du das Objekt definieren, aus dem jede Zeile in deinem Dataset besteht. In Scala ist dies ein Fallklassenobjekt, das im Wesentlichen ein Schema definiert, das du verwenden kannst, und in Java definierst du eine Java Bean. Erfahrene Benutzer bezeichnen Datasets oft als die "typisierten APIs" in Spark. Weitere Informationen findest du in Kapitel 4.

In Kapitel 4 haben wir besprochen, dass Spark Typen wie StringType, BigIntType, StructType und so weiter hat. Diese Spark-spezifischen Typen werden auf Typen abgebildet, die in jeder der Spark-Sprachen verfügbar sind, wie String, Integer und Double. Wenn du die DataFrame-API verwendest, erstellst du keine Strings oder Integers, sondern Spark manipuliert die Daten für dich, indem es das Row Objekt manipuliert. Wenn du Scala oder Java verwendest, sind alle "Datenrahmen" eigentlich Datensätze des Typs Row. Um domänenspezifische Objekte effizient zu unterstützen, ist ein spezielles Konzept namens "Encoder" erforderlich. Der Encoder bildet den domänenspezifischen ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Spark lernen, 2. Auflage

Spark lernen, 2. Auflage

Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee
Strategisches IT-Management

Strategisches IT-Management

Josephine Hofmann, Matthias Knoll

Publisher Resources

ISBN: 9781098183950Supplemental Content