Kapitel 4. Löschen, Aktualisieren und Zusammenführen von Tabellen
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Da Delta Lake den klassischen Data Lakes eine transaktionale Ebene hinzufügt, können wir klassische DML-Operationen wie Aktualisierungen, Löschungen und Zusammenführungen durchführen. Wenn du eine DELETE Operation an einer Delta-Tabelle durchführst, wird die Operation auf der Ebene der Datendateien durchgeführt, wobei nach Bedarf Datendateien entfernt und hinzugefügt werden. Entfernte Datendateien sind nicht mehr Teil der aktuellen Version der Deltatabelle, sollten aber nicht sofort physisch gelöscht werden, da du eventuell zu einer älteren Version der Tabelle mit Zeitreise zurückkehren möchtest (Zeitreise wird in Kapitel 6 behandelt). Dasselbe gilt, wenn du eine UPDATE Operation durchführst. Datendateien werden je nach Bedarf zu deiner Deltatabelle hinzugefügt oder aus ihr entfernt.
Die mächtigste DML-Operation in Delta Lake ist die Operation MERGE, mit der du eine "Upsert"-Operation, also eine Mischung aus UPDATE, DELETE und INSERT, in deiner Delta-Tabelle durchführen kannst. Du verbindest eine Quell- und eine Zieltabelle, schreibst eine Abgleichsbedingung und gibst dann an, was mit den Datensätzen geschehen soll, die entweder übereinstimmen oder nicht übereinstimmen.
Löschen von Daten aus einer Deltatabelle
Wir beginnen mit einer sauberen taxidb.YellowTaxis Tabelle. Diese Tabelle ...