Kapitel 6. Spark SQL und Datensätze

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In den Kapiteln 4 und 5 haben wir Spark SQL und die DataFrame-API behandelt. Wir haben uns angesehen, wie man eine Verbindung zu integrierten und externen Datenquellen herstellt, einen Blick auf die Spark SQL-Engine geworfen und Themen wie die Interoperabilität zwischen SQL und DataFrames, das Erstellen und Verwalten von Ansichten und Tabellen sowie fortgeschrittene DataFrame- und SQL-Transformationen untersucht.

Obwohl wir die Dataset-API in Kapitel 3 kurz vorgestellt haben, haben wir die wichtigsten Aspekte der Erstellung, Speicherung, Serialisierung und Deserialisierung von Datasets - stark typisierte verteilte Sammlungen - in Spark nur kurz angerissen.

In diesem Kapitel gehen wir unter die Haube, um Datasets zu verstehen: Wir untersuchen die Arbeit mit Datasets in Java und Scala, wie Spark den Speicher verwaltet, um Dataset-Konstrukte als Teil der High-Level-API unterzubringen, und welche Kosten mit der Verwendung von Datasets verbunden sind .

Eine einzige API für Java und Scala

Wie du dich vielleicht aus Kapitel 3(Abbildung 3-1 und Tabelle 3-6) erinnerst, bieten Datasets eine einheitliche und einzigartige API für stark typisierte Objekte. Von den von Spark unterstützten Sprachen sind nur Scala und Java stark typisiert; Python und R unterstützen daher nur die untypisierte DataFrame-API.

Datensätze sind domänenspezifisch ...

Get Spark lernen, 2. Auflage now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.