Skip to Main Content
Spark: Der endgültige Leitfaden
book

Spark: Der endgültige Leitfaden

by Bill Chambers, Matei Zaharia
September 2024
Intermediate to advanced content levelIntermediate to advanced
606 pages
16h 25m
German
O'Reilly Media, Inc.
Book available
Content preview from Spark: Der endgültige Leitfaden

Kapitel 5. Grundlegende strukturierte Operationen

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In Kapitel 4 haben wir die wichtigsten Abstraktionen der strukturierten API vorgestellt. In diesem Kapitel geht es nicht mehr um die architektonischen Konzepte, sondern um die taktischen Werkzeuge, mit denen du DataFrames und die darin enthaltenen Daten bearbeiten wirst. Dieses Kapitel konzentriert sich ausschließlich auf die grundlegenden DataFrame-Operationen und lässt Aggregationen, Fensterfunktionen und Joins außen vor. Diese werden in den folgenden Kapiteln behandelt.

Definitionsgemäß besteht ein Datenrahmen aus einer Reihe von Datensätzen (wie Zeilen in einer Tabelle), die vom Typ Row sind, und einer Reihe von Spalten (wie Spalten in einer Tabellenkalkulation), die einen Berechnungsausdruck darstellen, der mit jedem einzelnen Datensatz im Datensatz durchgeführt werden kann. Schemas definieren sowohl den Namen als auch den Typ der Daten in jeder Spalte. Die Partitionierung des Datenrahmens definiert die physische Verteilung des Datenrahmens oder Datensatzes auf dem Cluster. Das Partitionierungsschema legt fest, wie die Daten verteilt werden. Du kannst dies auf der Grundlage von Werten in einer bestimmten Spalte oder nicht-deterministisch festlegen.

Lass uns einen Datenrahmen erstellen, mit dem wir arbeiten können:

// in Scala
val df = spark.read.format("json")
  .load("/data/flight-data/json/2015-summary.json" ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Spark lernen, 2. Auflage

Spark lernen, 2. Auflage

Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee
Strategisches IT-Management

Strategisches IT-Management

Josephine Hofmann, Matthias Knoll

Publisher Resources

ISBN: 9781098183950Supplemental Content