Kapitel 10. Datenvirtualisierungsdienst
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Jetzt, wo die Daten bereit sind, können wir damit beginnen, die Verarbeitungslogik zu schreiben, um die Erkenntnisse zu gewinnen. Es gibt drei Trends beim Einsatz von Big Data, die berücksichtigt werden müssen, um die Verarbeitungslogik effektiv zu gestalten. Der erste ist das polyglotte Datenmodell, das mit den Datensätzen verbunden ist. So lassen sich beispielsweise Graphdaten am besten in einer Graphdatenbank speichern und abfragen. Es gibt aber auch andere Modelle, wie z. B. Key-Value, Wide-Column, Document usw. Polyglotte Persistenz ist sowohl für Daten aus dem Datensee als auch für transaktionale Anwendungsdaten geeignet. Zweitens ermöglicht die Entkopplung der Abfrage-Engines von der Persistenz der Datenspeicherung, dass verschiedene Abfrage-Engines Abfragen auf die im Lake persistierten Daten ausführen können. So werden beispielsweise kurze, interaktive Abfragen auf Presto-Clustern ausgeführt, während langlaufende Batch-Prozesse auf Hive oder Spark laufen. In der Regel werden mehrere Verarbeitungscluster für verschiedene Kombinationen von Abfrage-Workloads konfiguriert. Die Auswahl der richtigen Clustertypen ist entscheidend. Drittens werden für eine wachsende Zahl von Anwendungsfällen wie Echtzeit-BI die Daten im Lake in Echtzeit mit den Anwendungsquellen verbunden. Da die Gewinnung von Erkenntnissen ...
Get Die Self-Service-Daten-Roadmap now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.