Kapitel 8. Katalogisierung des Data Lake
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Data Lakes haben eine Reihe von Merkmalen, die es schwierig, wenn nicht gar unmöglich machen, sie zu navigieren. Sie enthalten eine riesige Anzahl von Datensätzen. Die Feldnamen sind oft kryptisch, und bei manchen Datensätzen - wie z. B. bei Dateien mit Trennzeichen und unstrukturierten Daten aus Online-Kommentaren - fehlen die Kopfzeilen ganz. Selbst gut beschriftete Datensätze können inkonsistente Namen und unterschiedliche Namenskonventionen haben. Es ist praktisch unmöglich zu erraten, wie bestimmte Attribute in verschiedenen Dateien heißen, und somit auch unmöglich, alle Instanzen dieser Attribute zu finden.
Infolgedessen müssen die Daten entweder dokumentiert werden, wenn neue Datensätze in den See aufgenommen oder erstellt werden, oder sie müssen einer umfangreichen manuellen Prüfung unterzogen werden, wobei keine der beiden Alternativen für die typische Größe und Vielfalt von Big-Data-Systemen skalierbar oder handhabbar ist.
Datenkataloge lösen das Problem, indem sie Felder und Datensätze mit einheitlichen Geschäftsbegriffen kennzeichnen und eine shoppingähnliche Schnittstelle bereitstellen, die es den Nutzern ermöglicht, Datensätze zu finden, indem sie das Gesuchte mit den ihnen vertrauten Geschäftsbegriffen beschreiben, und die Daten in diesen Datensätzen anhand von Tags und Beschreibungen zu verstehen, ...
Get Der Enterprise Big Data Lake now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.