Kapitel 56. Dem Abgrund des Datensees vorbeugen
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Scott Haines
Jeder hat im Laufe seiner Karriere schon einmal unter falschen Annahmen gearbeitet, und nirgendwo ist das deutlicher geworden als bei Altdaten und dem, was in den meisten Unternehmen in Data Lakes landet.
Das Konzept des Data Lake hat sich aus dem traditionellen Data Warehouse entwickelt, das ursprünglich dazu gedacht war, das Problem der Datensilos und -fragmentierung innerhalb eines Unternehmens zu lösen. Das Data Warehouse erreichte dies, indem es einen zentralen Speicher bereitstellte, auf den alle Daten zugreifen konnten, in der Regel über eine traditionelle SQL-Schnittstelle oder andere Business Intelligence-Tools. Der Data Lake geht noch einen Schritt weiter und ermöglicht es dir, alle deine Daten in ihrem Rohformat (unstrukturiert oder strukturiert) in einem horizontal skalierbaren Massenspeicher (HDFS/S3) zu speichern, wo sie fast unbegrenzt aufbewahrt werden können .
Was normalerweise mit den besten Absichten beginnt, kann sich im Laufe der Jahre leicht zu einem schwarzen Loch für das wertvollste Kapital deines Unternehmens entwickeln, wenn sich die zugrunde liegenden Datenformate ändern und ältere Daten unbrauchbar machen. Dieses ...
Get 97 Dinge, die jeder Dateningenieur wissen sollte now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.