Kapitel 5. Leistungsoptimierung

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Wenn du Daten speicherst und abrufst, egal ob mit einem herkömmlichen RDBMS oder mit Deltatabellen, kann die Art und Weise, wie du die Daten im zugrunde liegenden Speicherformat organisierst, die Zeit, die du für Tabellenoperationen und Abfragen benötigst, erheblich beeinflussen. Im Zusammenhang mit Deltatabellen bedeutet dies, dass die Art und Weise, wie die Daten gespeichert und abgerufen werden, optimiert werden muss. In der Vergangenheit wurde das Abrufen von Daten entweder durch die Erhöhung des Arbeitsspeichers oder der CPU für eine schnellere Verarbeitung oder durch die Reduzierung der Datenmenge, die gelesen werden muss, indem nicht relevante Daten übersprungen wurden, erreicht. Delta Lake bietet eine Reihe verschiedener Techniken, die miteinander kombiniert werden können, um den Datenabruf zu beschleunigen, indem die Menge der Dateien und Daten, die während des Betriebs gelesen werden müssen, effizient reduziert wird.

Ein weiteres Problem, das zu langsameren Lesevorgängen und ineffizienter Verarbeitung in Apache Spark und Delta Lake beitragen kann, ist das Problem der kleinen Dateien, das in Kapitel 1 kurz erwähnt wurde. Das Problem der kleinen Dateien kann auftreten, wenn die zugrundeliegenden Datendateien in zahlreiche kleine Dateien aufgeteilt sind, im Gegensatz zu größeren, effizienteren Dateien. Es kann ...

Get Delta Lake: Auf und davon now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.