Kapitel 2. Erste Schritte mit Delta Lake

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Im vorigen Kapitel haben wir Delta Lake vorgestellt und gesehen, wie es traditionelle Data Lakes um Transaktionsgarantien, DML-Unterstützung, Auditing, ein einheitliches Streaming- und Batch-Modell, Schema-Enforcement und ein skalierbares Metadatenmodell erweitert.

In diesem Kapitel werden wir Delta Lake in die Praxis umsetzen. Zunächst richten wir Delta Lake auf einem lokalen Rechner ein, auf dem Spark installiert ist. Wir werden Delta Lake-Beispiele in zwei interaktiven Shells ausführen:

  1. Zuerst werden wir die interaktive PySpark-Shell mit den Delta Lake-Paketen ausführen. So können wir ein einfaches zweizeiliges Python-Programm eingeben und ausführen, das eine Delta-Tabelle erstellt.

  2. Als Nächstes werden wir ein ähnliches Programm mit der Spark Scala Shell ausführen. Obwohl wir die Sprache Scala in diesem Buch nicht ausführlich behandeln, wollen wir zeigen, dass sowohl die Spark-Shell als auch Scala mit Delta Lake möglich sind.

Als Nächstes erstellen wir in Python in deinem Lieblingseditor das Starterprogramm helloDeltaLake und führen das Programm interaktiv in der PySpark-Shell aus. Die Umgebung, die wir in diesem Kapitel eingerichtet haben, und das Programm helloDeltaLake werden die Grundlage für die meisten anderen Programme sein, die wir in diesem Buch erstellen.

Sobald die Umgebung eingerichtet ist, ...

Get Delta Lake: Auf und davon now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.