Kapitel 4. Strukturierte API Übersicht
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Dieser Teil des Buches wird ein tiefer Einblick in die Structured APIs von Spark sein. Die strukturierten APIs sind ein Werkzeug zur Bearbeitung aller Arten von Daten, von unstrukturierten Logdateien über halbstrukturierte CSV-Dateien bis hin zu hochstrukturierten Parquet-Dateien. Diese APIs beziehen sich auf drei Kerntypen von verteilten Sammel-APIs:
-
Datensätze
-
Datenrahmen
-
SQL-Tabellen und Ansichten
Obwohl es sich um unterschiedliche Teile des Buches handelt, gilt der Großteil der strukturierten APIs sowohl für Batch- als auch für Streaming-Berechnungen. Das bedeutet, dass du bei der Arbeit mit den strukturierten APIs ohne großen Aufwand von Batch auf Streaming (oder umgekehrt) umsteigen kannst. Wir werden das Streaming in Teil V ausführlich behandeln.
Die strukturierten APIs sind die grundlegende Abstraktion, mit der du die meisten deiner Datenströme schreiben wirst. Bislang haben wir in diesem Buch einen tutoriellen Ansatz verfolgt und uns durch vieles, was Spark zu bieten hat, durchgeschlagen. Dieser Teil bietet eine tiefergehende Erkundung. In diesem Kapitel stellen wir dir die grundlegenden Konzepte vor, die du verstehen solltest: die typisierten und untypisierten APIs (und ihre Unterschiede); die Kernterminologie; und schließlich, wie Spark deine strukturierten API-Datenströme aufnimmt und im ...