Vorwort

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Willkommen bei Apache Iceberg: The Definitive Guide! Wir freuen uns, dass du dich mit uns auf diese Lernreise begeben hast. In diesem Vorwort geben wir dir einen Überblick über dieses Buch, warum wir es geschrieben haben und wie du das Beste daraus machen kannst.

Über dieses Buch

Auf diesen Seiten erfährst du, was Apache Iceberg ist, warum es existiert, wie es funktioniert und wie du dir seine Leistungsfähigkeit zunutze machen kannst. Dieses Buch richtet sich an Dateningenieure, -architekten, -wissenschaftler und -analysten, die mit großen Datenmengen in verschiedenen Anwendungsbereichen von BI-Dashboards bis hin zu KI/ML arbeiten, und erläutert die Kernkonzepte, das Innenleben und die praktischen Anwendungen von Apache Iceberg. Am Ende des Buches wirst du das Wesentliche verstanden haben und über das praktische Wissen verfügen, um Apache Iceberg effektiv in deinen Datenprojekten einzusetzen. Ob du ein Neuling oder ein erfahrener Praktiker bist, Apache Iceberg: The Definitive Guide wird dein zuverlässiger Begleiter auf dieser aufschlussreichen Reise in Apache Iceberg sein.

Warum wir dieses Buch geschrieben haben

Als wir das rasche Wachstum und die Akzeptanz des Apache Iceberg-Ökosystems beobachteten, wurde uns klar, dass eine wachsende Wissenslücke geschlossen werden musste. Zunächst begannen wir mit einer Reihe von Blogbeiträgen auf der Dremio-Plattform, um die wachsende Iceberg-Community mit wertvollen Informationen zu versorgen. Es wurde jedoch bald klar, dass eine umfassende und zentralisierte Ressource unerlässlich war, um die steigende Nachfrage nach einer definitiven Iceberg-Referenz zu befriedigen. Diese Erkenntnis war die treibende Kraft hinter der Erstellung von Apache Iceberg: The Definitive Guide. Unser Ziel ist es, den Leserinnen und Lesern eine einzige maßgebliche Quelle zur Verfügung zu stellen, die die Wissenslücke schließt und Einzelpersonen und Organisationen in die Lage versetzt, die Möglichkeiten von Apache Iceberg bei ihren datenbezogenen Vorhaben optimal zu nutzen.

Was du darin finden wirst

In den folgenden Kapiteln erfährst du, was Apache Iceberg ist und wie es funktioniert, wie du die Vorteile des Formats mit verschiedenen Tools nutzen kannst und welche bewährten Methoden es gibt, um die Qualität und die Verwaltung der Daten in Apache Iceberg-Tabellen zu verwalten. Hier findest du eine Zusammenfassung der Inhalte der einzelnen Kapitel:

Kapitel 1, "Einführung in Apache Iceberg"

Erkundung des historischen Kontextes von Data Lakehouses und der wesentlichen Konzepte, die Apache Iceberg zugrunde liegen.

Kapitel 2, "Die Architektur des Apache Iceberg"

Tauche tief in das komplizierte Design von Apache Iceberg ein und untersuche, wie seine verschiedenen Komponenten zusammen funktionieren.

Kapitel 3, "Lebenszyklus von Schreib- und Leseabfragen"

Untersuchung des Schritt-für-Schritt-Prozesses bei Apache Iceberg-Transaktionen mit Schwerpunkt auf Aktualisierungen, Lesevorgängen und Zeitreiseabfragen.

Kapitel 4, "Optimieren der Leistung von Eisberg-Tischen"

Diskussionen über die Aufrechterhaltung einer optimierten Leistung in Apache Iceberg-Tabellen durch Techniken wie Verdichtung und Sortierung.

Kapitel 5, "Eisberg-Kataloge"

Ausführliche Erläuterung der Rolle von Apache Iceberg Katalogen, wobei die verschiedenen verfügbaren Katalogoptionen erkundet werden.

Kapitel 6, "Apache Spark"

Praktische Sitzungen mit Apache Spark zur Verwaltung und Interaktion mit Apache Iceberg-Tabellen.

Kapitel 7, "Dremio's SQL Query Engine"

Erkundung der Dremio Lakehouse Plattform mit Schwerpunkt auf DDL, DML und Tabellenoptimierung für Apache Iceberg Tabellen.

Kapitel 8, "AWS-Kleber"

Demonstration der Verwendung von AWS Glue Catalog und AWS Glue Studio für die Arbeit mit Apache Iceberg Tabellen.

Kapitel 9, "Apache Flink"

Praktische Übungen zur Verwendung von Apache Flink für die Streaming-Datenverarbeitung mit Apache Iceberg-Tabellen.

Kapitel 10, "Apache Iceberg in der Produktion"

Einblicke in die Verwaltung der Datenqualität in der Produktion, die Verwendung von Metadatentabellen zur Überwachung des Zustands von Tabellen und die Verwendung von Tabellen- und Katalogversionen für verschiedene betriebliche Anforderungen.

Kapitel 11, "Streaming mit Apache Iceberg"

Verwendung von Tools wie Apache Spark, Flink und AWS Glue für die Streaming-Datenverarbeitung in Iceberg-Tabellen.

Kapitel 12, "Governance und Sicherheit"

Erforschung der Anwendung von Governance und Sicherheit auf verschiedenen Ebenen in Apache Iceberg-Tabellen, wie Speicherung, semantische Schichten und Kataloge.

Kapitel 13, "Umstellung auf Apache Iceberg"

Richtlinien zur Umwandlung bestehender Datensätze aus verschiedenen Dateitypen und Datenbanken in Apache Iceberg-Tabellen.

Kapitel 14, "Echte Anwendungsfälle von Apache Iceberg"

Ein Blick auf reale Anwendungen von Apache Iceberg, darunter Business Intelligence Dashboards und die Implementierung von Änderungsdatenerfassung.

Wie man dieses Buch benutzt

Dieses Buch wurde sorgfältig erstellt, um dein Verständnis und deine praktischen Fähigkeiten in Apache Iceberg zu verbessern, egal ob du Anfänger oder Fortgeschrittener bist. Das Buch ist zwar sequentiell aufgebaut, damit du dir von Anfang bis Ende ein umfassendes Wissen aneignen kannst, aber es ist auch so konzipiert, dass du es flexibel lesen kannst. Jedes Kapitel ist in sich abgeschlossen, so dass du direkt in bestimmte Themen oder Anwendungsfälle eintauchen kannst, ohne die vorangegangenen Kapitel lesen zu müssen. Dieser Ansatz macht dieses Buch zu einer unschätzbaren Ressource sowohl für systematisches Lernen als auch für gezielten, zeitnahen Wissenserwerb.

Im gesamten Buch findest du Verweise auf Codeschnipsel und praktische Beispiele. Um dich beim Lernen zu unterstützen, haben wir ein eigenes GitHub-Repository für das Buch eingerichtet. Dieses Repository ist nach Kapiteln geordnet, so dass du leichten Zugang zu allen notwendigen Referenzmaterialien, Codeschnipseln und Beispielen hast, die für den Inhalt des jeweiligen Kapitels relevant sind. Ganz gleich, ob du die architektonischen Feinheiten von Apache Iceberg verstehen oder bestimmte Funktionen implementieren möchtest, das Repository dient als ergänzendes Werkzeug, um das Lernen und die Anwendung der im Buch behandelten Konzepte zu verbessern. Noch mehr Inhalte, darunter ein Bonuskapitel über die Iceberg Java/Python APIs und zusätzliche Übersichten über Iceberg-Anwendungsfälle, findest du in diesem ergänzenden Repository.

Ganz gleich, ob du dieses Handbuch von vorne bis hinten lesen oder dich auf einzelne Kapitel konzentrieren möchtest, dieses Buch ist eine umfassende und leicht zugängliche Ressource zu Apache Iceberg, angereichert mit praktischen Komponenten, die über das zugehörige GitHub-Repository zugänglich sind.

Feedback und Fragen

Wir schätzen dein Feedback und deine Fragen. Wenn du Probleme hast, Verbesserungsvorschläge machen möchtest oder dich einfach nur mit uns in Verbindung setzen willst, zögere bitte nicht, uns eine E-Mail an tech-advocacy@dremio.com zu schicken. Wir laden dich auch ein, uns auf LinkedIn zu folgen und dich mit uns zu verbinden.

Im Folgenden findest du eine Liste mit zusätzlichen Ressourcen, die dir helfen, mehr über Apache Iceberg zu erfahren und dich in der Apache Iceberg Community zu engagieren:

In diesem Buch verwendete Konventionen

In diesem Buch werden die folgenden typografischen Konventionen verwendet:

Kursiv

Weist auf neue Begriffe, URLs, E-Mail-Adressen, Dateinamen und Dateierweiterungen hin.

Constant width

Wird für Programmlistings sowie innerhalb von Absätzen verwendet, um auf Programmelemente wie Variablen- oder Funktionsnamen, Datenbanken, Datentypen, Umgebungsvariablen, Anweisungen und Schlüsselwörter hinzuweisen.

Constant width bold

Zeigt Befehle oder anderen Text an, der vom Benutzer wortwörtlich eingetippt werden sollte.

Constant width italic

Zeigt Text an, der durch vom Benutzer eingegebene Werte oder durch kontextabhängige Werte ersetzt werden soll.

Tipp

Dieses Element steht für einen Tipp oder eine Anregung.

Hinweis

Dieses Element steht für einen allgemeinen Hinweis.

Code-Beispiele verwenden

Zusätzliches Material (Codebeispiele, Übungen usw.) steht unter https://oreil.ly/supp-guide-apache-iceberg zum Download bereit . Noch mehr Inhalte, darunter ein Bonuskapitel über die Iceberg Java/Python APIs und zusätzliche Übersichten über Iceberg Anwendungsfälle, findest du unter https://oreil.ly/apache-ice_more-content.

Wenn du eine technische Frage oder ein Problem mit den Codebeispielen hast, sende bitte eine E-Mail an

Dieses Buch soll dir helfen, deine Arbeit zu erledigen. Wenn in diesem Buch Beispielcode angeboten wird, darfst du ihn in deinen Programmen und deiner Dokumentation verwenden. Du musst uns nicht um Erlaubnis fragen, es sei denn, du reproduzierst einen großen Teil des Codes. Wenn du zum Beispiel ein Programm schreibst, das mehrere Teile des Codes aus diesem Buch verwendet, brauchst du keine Erlaubnis. Der Verkauf oder die Verbreitung von Beispielen aus O'Reilly-Büchern erfordert jedoch eine Genehmigung. Die Beantwortung einer Frage mit einem Zitat aus diesem Buch und einem Beispielcode erfordert keine Genehmigung. Wenn du einen großen Teil des Beispielcodes aus diesem Buch in die Dokumentation deines Produkts aufnimmst, ist eine Genehmigung erforderlich.

Wir freuen uns über eine Namensnennung, verlangen sie aber in der Regel nicht. Eine Quellenangabe umfasst normalerweise den Titel, den Autor, den Verlag und die ISBN. Zum Beispiel: "Apache Iceberg: The Definitive Guide by Tomer Shiran, Jason Hughes, and Alex Merced (O'Reilly). Copyright 2024 O'Reilly Media Inc., 978-1-098-14863-8."

Wenn du der Meinung bist, dass die Verwendung von Code-Beispielen nicht unter die Fair-Use-Regelung oder die oben genannte Erlaubnis fällt, kannst du uns gerne unter kontaktieren

O'Reilly Online Learning

Hinweis

Seit mehr als 40 Jahren bietet O'Reilly Media Schulungen, Wissen und Einblicke in Technologie und Wirtschaft, um Unternehmen zum Erfolg zu verhelfen.

Unser einzigartiges Netzwerk von Experten und Innovatoren teilt sein Wissen und seine Erfahrung durch Bücher, Artikel und unsere Online-Lernplattform. Die Online-Lernplattform von O'Reilly bietet dir On-Demand-Zugang zu Live-Trainingskursen, ausführlichen Lernpfaden, interaktiven Programmierumgebungen und einer umfangreichen Text- und Videosammlung von O'Reilly und über 200 anderen Verlagen. Weitere Informationen erhältst du unter https://oreilly.com.

Wie du uns kontaktierst

Bitte richte Kommentare und Fragen zu diesem Buch an den Verlag:

Wir haben eine Webseite für dieses Buch, auf der wir Errata, Beispiele und zusätzliche Informationen auflisten. Du kannst diese Seite unter https://oreil.ly/apache-iceberg aufrufen .

Neuigkeiten und Informationen über unsere Bücher und Kurse findest du unter https://oreilly.com.

Du findest uns auf LinkedIn: https://linkedin.com/company/oreilly-media.

Sieh uns auf YouTube: https://youtube.com/oreillymedia.

Danksagungen

Wir möchten Dremio und O'Reilly Media unseren tiefsten Dank dafür aussprechen, dass sie uns die Möglichkeit gegeben haben, dieses Buch zu schreiben. Unser besonderer Dank gilt unserem O'Reilly-Redakteur Gary O'Brien, der uns während des Schreibprozesses immer auf dem richtigen Weg gehalten hat. Unser Dank gilt auch unseren technischen Prüfern, die uns immer wieder auf die Finger geschaut haben, um sicherzustellen, dass das Buch korrekt und vollständig ist: Kamran Ali, Jai Balani, Michal Gancarski, Mahdi Karabiben, Kevin Kho, Marc Laforet, Max Schultze und Simeon Schwarz. Vielen Dank auch für die Beiträge von Dipankar Mazumdar.

Wir danken auch unseren Familien, die uns in langen Nächten beim Schreiben und Bearbeiten dieses Buches geduldig begleitet haben. Schließlich möchten wir der Apache Iceberg Community für die Entwicklung eines der aufregendsten und umwälzendsten Projekte im Datenbereich danken.

Vielen Dank, dass du dich für Apache Iceberg: The Definitive Guide. Wir hoffen, dass du es sowohl informativ als auch unterhaltsam findest. Lass uns gemeinsam in die spannende Welt von Apache Iceberg eintauchen!

Viel Spaß beim Lesen!

Get Apache Iceberg: Der endgültige Leitfaden now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.