Kapitel 1. AWS für Daten

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Es ist ein großer Fehler, Theorien aufzustellen, bevor man Daten hat.

Sherlock Holmes

Daten sind allgegenwärtig und bestimmen alles, was wir heute tun. Wer hätte gedacht, dass du Daten generieren kannst, indem du einfach nur gehst und deine Schritte in Echtzeit an deinem Handgelenk überwachst, während du deinen Freund anrufst? Von Mobiltelefonen, Smartwatches und Internetklicks bis hin zum Internet der Dinge (IoT) generieren wir verschiedene Arten von Daten in Hülle und Fülle, und Unternehmen stehen vor der Herausforderung, aus all diesen Daten eine Bedeutung abzuleiten, um Erkenntnisse zu gewinnen. Du musst diese Daten analysieren, um unvoreingenommene Informationen auf eine einfache Art und Weise zu präsentieren, damit Führungskräfte Geschäftsentscheidungen treffen können. Daten sind die treibende Kraft hinter den Erkenntnissen und Vorhersagen, die zu einer besseren Entscheidungsfindung und Innovation führen. Auch wenn es eine Herausforderung ist, musst du diese Daten nutzen und dein Unternehmen neu erfinden, um jetzt und in Zukunft relevant zu bleiben. Amazon Redshift ist ein vollständig verwalteter Data-Warehouse-Service in der Cloud im Petabyte (PB)-Maßstab, der eine moderne Datenarchitektur zur Speicherung von Daten aus allen Quellen in einer zentralen oder dezentralen Architektur ermöglicht. Damit kannst du Daten aus deinen Data Warehouses, Data Lakes und operativen Datenbanken abfragen, um schnellere und tiefere Einblicke zu erhalten, die sonst nicht möglich wären.

In diesem Kapitel geht es um die Grundprinzipien der Amazon Web Services (AWS) für das Daten-Framework und darum, was "datengesteuerte Organisationen" erfolgreich macht, um die Grundprinzipien einer "modernen Datenstrategie" und um den Aufbau einer "modernen Datenarchitektur". Zum Schluss werden wir einige beliebte Methoden vorstellen, mit denen Unternehmen "Data Mesh und Data Fabric" nutzen, um ihre Anforderungen für jede analytische Nutzergruppe auf skalierbare Weise zu erfüllen.

Datengesteuerte Organisationen

Datengesteuerte Organisationen behandeln Daten wie einen Vermögenswert; sie machen sie nicht nur für Geschäftsanwender/innen verfügbar und zugänglich, sondern für alle, die Daten für ihre Entscheidungen benötigen, damit sie fundiertere Entscheidungen treffen können. Diese Organisationen erkennen den inneren Wert von Daten und erkennen den Wert, den gute Daten für die Organisation und ihre wirtschaftlichen Auswirkungen haben. Sie demokratisieren die Daten und stellen sie den Entscheidungsträgern im Unternehmen zur Verfügung, um die wichtigsten Leistungsindikatoren (KPIs) zu messen. Das Peter Drucker zugeschriebene Sprichwort "Man kann nicht verbessern, was man nicht misst" ist für die Unternehmen von heute umso wichtiger.

Die meisten Unternehmen haben eine Reihe von KPIs, die sie regelmäßig überwachen, um ihr Wachstum zu fördern und ihre Produktivität zu verbessern. Diese KPIs können von den üblichen Kennzahlen wie Wachstum, Umsatz, Marktanteil, Kundenzahl und Kosten für die Kundenakquise bis hin zu eher bereichsspezifischen Kennzahlen wie Durchverkaufsrate, Kapazitätsauslastung, E-Mail-Abmelderate oder Warenkorbabbruchrate reichen. Ein guter KPI ist spezifisch, messbar und hat Auswirkungen auf die allgemeinen Unternehmensziele und kann von Unternehmen zu Unternehmen variieren.

Auch wenn einige Eigenschaften wie die Arbeitsmoral, das Vertrauen und die Integrität eines Unternehmens nicht wirklich gemessen werden können, gibt es doch vieles, was gemessen und auf Fortschritte hin überwacht werden kann. Durch den Zugang zu diesen Daten können Führungskräfte Strategien anwenden, um das Unternehmen in eine bestimmte Richtung zu bringen. Ein Beispiel: Nach der Übernahme eines Elektrowerkzeugherstellers befand sich dieser im Blindflug, bis sein IT-Team die Daten in das zentrale ERP-System (Enterprise Resource Planning) integrierte. Die Führungskraft bemerkte, dass es für sie wie ein Lichtblick war, um zu sehen, wohin die Reise mit diesem Unternehmen gehen sollte.

In seinem Buch Infonomics (Gartner, Inc.) spricht Doug Laney darüber, wie wichtig es für Unternehmen ist, nicht nur über Informationen als Vermögenswert zu denken und zu sprechen, sondern sie auch tatsächlich als solchen zu bewerten und zu behandeln. Er argumentiert, dass Informationen als neue Vermögensklasse betrachtet werden sollten, da sie einen messbaren wirtschaftlichen Wert haben und wie jede andere Art von Vermögen verwaltet werden sollten. Laney stellt einen Rahmen für Unternehmen bereit, um Informationen wie einen echten Vermögenswert zu monetarisieren, zu verwalten und zu messen. Er erklärt, dass es bei der Monetarisierung nicht nur um den Verkauf von Daten oder den Austausch von Geld geht. Es geht darum, den Wert von Informationen zu erkennen und über die Methoden nachzudenken, mit denen du auf deine Kunden einwirken und Gewinne erzielen kannst. Es geht darum, von den Bedürfnissen und Interessen deiner Kunden auszugehen und deine Geschäfts- und Betriebsstrategie so auszurichten, dass sie die Prioritäten deiner Kunden erfüllt. Analytik hilft Unternehmen, bessere Entscheidungen zu treffen und ermöglicht wichtige strategische Initiativen. Außerdem hilft sie dir, die Beziehungen zu deinen Kunden und Geschäftspartnern zu verbessern.

Auf der AWS re:Invent 2021 sprach Adam Selipsky darüber, wie Florence Nightingale die Sterblichkeitsraten der Soldaten im Krimkrieg analysierte. Nightingale, eine Krankenschwester, nutzte Daten und Analysen, um zu der Erkenntnis zu gelangen, dass die meisten Soldaten nicht im Kampf starben, sondern an vermeidbaren Krankheiten, die durch schlechte hygienische Bedingungen im Krankenhaus verursacht wurden. Nightingale analysierte die von ihr gesammelten Daten und erstellte ein einfaches, aber aussagekräftiges Diagramm (Abbildung 1-1), das die Ursachen für die Sterblichkeit der Soldaten darstellt. Dieses Rosendiagramm, auch bekannt als Polardiagramm, ermöglichte mehrere Vergleiche in einem Diagramm, das die Sterblichkeitsraten für jeden Monat aufgrund von Krankheiten, Wunden und anderen Ursachen zeigte. Mit Hilfe dieses Diagramms konnte Nightingale Königin Victoria und die Generäle davon überzeugen, dass vor allem im Winter mehr Männer an Krankheiten als an Wunden starben, und machte deutlich, dass eine Krankenhausreform und eine bessere Versorgung der Soldaten notwendig waren. Dies ist ein großartiges Beispiel für die Wirkung von Daten als Geschichtenerzähler; es hat die Diskussion wirklich verändert und dazu beigetragen, Leben zu retten.

Florence Nightingale Rose Chart for causes of mortality
Abbildung 1-1. Florence Nightingales Rosendiagramm für die Ursachen der Sterblichkeit

Heute erwartest du vielleicht Einblicke in Echtzeit und ziehst es vor, auf die Daten zuzugreifen, sobald sie ankommen. Es gibt viele inspirierende Beispiele für datengesteuerte Unternehmen, die sich mit Hilfe von Analysen auf die veränderten Vorlieben ihrer Kunden konzentrieren und sich an diese anpassen. Dow Jones, ein globaler Nachrichtenanbieter, steigerte die Rücklaufquoten bei der Postkommunikation um 50 % bis 100 %, indem er Analysen einsetzte und Daten zugänglich machte. Magellan Rx hat sein Data Warehouse modernisiert und ist in der Lage, die Ergebnisse für die Patienten zu verbessern, indem es Medikamente früher auf den Markt bringt und die Betriebskosten um 20% senkt. Moderna nutzt Amazon Redshift für ein einfaches, kosteneffizientes Data Warehousing, um Silos zu vermeiden und eine einzige Quelle der Wahrheit für Daten im gesamten Unternehmen zu schaffen. Nasdaq migrierte sein wachsendes Data Warehouse zu einer moderneren Data-Lake-Architektur und konnte dank der Flexibilität und Skalierbarkeit von Amazon Simple Storage Service (S3) und Amazon Redshift den Sprung von 30 Milliarden Datensätzen auf 70 Milliarden Datensätze pro Tag schaffen. Netflix nutzt Daten, um Blockbuster-Hits wie House of Cards zu produzieren. Die Manager von Netflix haben Daten aus der digitalen Transformation von Medien und Unterhaltung gesammelt und analysiert, um lukrative Märkte zu schaffen, in denen es vorher keine gab. Coco Cola Andina, ein Unternehmen, das von The Coca-Cola Company lizenzierte Produkte in Südamerika herstellt und vertreibt, steigerte die Produktivität seines Analyseteams um 80 %, indem es einen Data Lake einrichtete, der zur einzigen Quelle für Daten aus SAP ERP und anderen Legacy-Datenbanken wurde.

Ein gemeinsames Thema dieser erfolgreichen datengesteuerten Unternehmen ist die Demokratisierung der Daten und die Bereitstellung von Erkenntnissen für die Entscheidungsträger. Zuverlässige Daten sind die Grundlage für verwertbare Erkenntnisse, und eine gut durchdachte Datenarchitektur und Technologie kann die Zuverlässigkeit der Daten verbessern. Eine Möglichkeit, Dateninkonsistenzen zu vermeiden und die Integrität und das Vertrauen in die Daten zu verbessern, ist die Begrenzung der Datenbewegungen innerhalb des Unternehmens. Das bedeutet nicht unbedingt, dass du einen einzigen Speicher für alle Daten aufbauen musst. Mit Amazon S3 kannst du Daten aus verschiedenen Quellen in unterschiedlichen Formaten in einem einzigen Speicher speichern. Unternehmen wollen aber auch Daten aus Quellsystemen oder unabhängigen Data Warehouses abfragen. Dies hat zu neuen Konzepten wie Data Mesh und Data Fabric geführt, die wir später in diesem Kapitel kennenlernen werden. Unternehmen, die datenorientiert arbeiten und sich darauf konzentrieren, Vertrauen in die Daten zu schaffen und sie zu skalieren, sind besser in der Lage, Erkenntnisse in Echtzeit zu gewinnen, um sich auf dem Markt zu behaupten.

Business Use Cases

Von kleinen Unternehmen bis hin zu globalen Konzernen, Daten und Analysen sind entscheidend, um Einblicke in den Zustand des Unternehmens oder der Organisation zu erhalten. Wir haben einige der häufigsten Anwendungsfälle ausgewählt, um zu zeigen, wie du mit den AWS Analytics Services und bestimmten Datenmodellen in diesem Buch Geschäftseinblicke gewinnen kannst. Schauen wir uns einige der häufigsten Anwendungsfälle an und erfahren wir, wie Analysen zu Geschäftsergebnissen führen können.

Management der Lieferkette

Angesichts des Einflusses des E-Commerce auf den traditionellen stationären Einzelhandel müssen Unternehmen die Art und Weise, wie sie ihre Lieferketten definieren und verwalten, mithilfe von Analysen verändern. Mithilfe von Daten und quantitativen Methoden können Nachfrage- und Angebotsplaner/innen die Entscheidungsfindung über den gesamten Lieferkettenzyklus hinweg verbessern. Hersteller und Einzelhändler können statistische Methoden anwenden, um die Entscheidungsfindung in der Lieferkette zu verbessern und das Produkt zur richtigen Zeit am richtigen Ort für ihre Kunden bereitzustellen. Sie können den Bestand analysieren und ihr Angebot auf der Grundlage von Nachfragesignalen planen. Ein gutes Beispiel ist Amazon, das mit Amazon Redshift täglich 51.000 Abfragen verarbeitet, um die Lieferkette zu optimieren.

Finanzen

Finanz- und Bankunternehmen helfen ihren Kunden, Investitionsentscheidungen zu treffen und bieten Lösungen für die Geldverwaltung an. Heute nutzen viele Banken künstliche Intelligenz (KI) und maschinelles Lernen (ML), um Betrug zu erkennen, Kundenabwanderung vorherzusagen und proaktiv zu handeln, um Betrug oder Abwanderung zu verhindern. Vielleicht wurde deine Kreditkarte schon einmal gesperrt, während du im Urlaub warst oder einen neuen Ort besucht hast. ML arbeitet hinter den Kulissen, um ungewöhnliche Aktivitäten zu erkennen und eine mögliche Betrugstransaktion zu verhindern, bevor es zu spät ist. Das ist möglich, wenn die richtigen Daten vorhanden und leicht zugänglich sind.

Kundenbeziehungsmanagement (CRM)

Durch die Implementierung eines Data-Warehousing Datenmodells für CRM können Unternehmen Kundendaten aus verschiedenen Berührungspunkten wie Vertrieb, Marketing und Kundensupport konsolidieren. Durch die Analyse dieser Daten können Unternehmen Einblicke in das Verhalten, die Vorlieben und die Zufriedenheit ihrer Kunden gewinnen. Diese Informationen können genutzt werden, um Marketingkampagnen zu personalisieren, den Kundenservice zu verbessern und langfristige Kundenbeziehungen zu pflegen.

Bildung

Analytik in der Bildung kann einen großen Unterschied in den Erfahrungen und Ergebnissen der Schüler/innen machen. Die traditionelle Methode des Unterrichts im Klassenzimmer ist für die Kinder von heute, die in eine digitale Welt eintauchen, eine Herausforderung. Die Schulen haben mit hohen Abbrecherquoten, ineffektiven Ergebnissen und veralteten Lehrplänen zu kämpfen. Der Wechsel zu einem personalisierten Lernansatz würde bedeuten, dass die Schüler/innen die Vorteile der Flexibilität nutzen und in ihrem eigenen Tempo lernen können. Das bedeutet auch, dass hybrides Lernen mit Online-Lernmanagementlösungen eingeführt wird, die den Lernenden maßgeschneiderte Inhalte bieten können. Daten aus der Interaktion der Schüler/innen mit Online-Lernumgebungen in Kombination mit Daten aus Testergebnissen können genutzt werden, um zu analysieren und zu erkennen, wo die Schüler/innen zusätzliche Hilfe benötigen. Mithilfe von KI und maschinellem Lernen können Pädagog/innen die Ergebnisse einzelner Schüler/innen vorhersagen und proaktiv Maßnahmen ergreifen, um positive Ergebnisse und Erfahrungen zu erzielen.

Gesundheitsindustrie

Daten spielen eine entscheidende Rolle im Gesundheitswesen und revolutionieren die Art und Weise, wie Patienten versorgt werden, medizinische Forschung betrieben wird und steigende Kosten mit betrieblicher Effizienz kontrolliert werden. Organisationen des Gesundheitswesens können wertvolle Erkenntnisse gewinnen, die eine evidenzbasierte Entscheidungsfindung ermöglichen, indem sie die Macht der Daten nutzen, um die Ergebnisse für die Patienten zu verbessern und die Gesundheitsversorgung insgesamt zu optimieren. Durch die Identifizierung von Mustern, Trends und Korrelationen in großen Datensätzen können Fachkräfte im Gesundheitswesen ein tieferes Verständnis von Krankheiten und der Wirksamkeit von Behandlungen auf der Grundlage von Patientenreaktionen gewinnen. Mit prädiktiver Analytik können diese Organisationen Krankheiten frühzeitig erkennen und Risikopatientengruppen eine personalisierte Medizin verabreichen. Diese Organisationen können auch betrügerische Ansprüche aufdecken, indem sie Anspruchsdaten analysieren und Muster von betrügerischen Aktivitäten erkennen.

Neue Business Use Cases mit generativer KI

Generative KI und Data Warehousing können sich gegenseitig ergänzen, um verschiedene Aspekte der Datenanalyse und des Entscheidungsprozesses zu verbessern. Im Folgenden werden wir einige Möglichkeiten aufzeigen, wie generative KI mit Data Warehousing integriert werden kann:

Code-Erstellung

Generative KI-Modelle können auf auf umfangreiche Code-Repositories und Programmiersprachen trainiert werden, um Code-Vervollständigungen und Vorschläge zu generieren. Wenn Entwickler/innen Code schreiben, kann das KI-Modell in Echtzeit Vorschläge machen, die die Effizienz der Programmierer/innen steigern, indem es Snippets vorschlägt oder schreibt. Dies kann auch dazu beitragen, Fehler zu reduzieren und die Produktivität der Entwickler/innen insgesamt zu verbessern, um Produkte schneller auf den Markt zu bringen.

Natürliche Sprache erzeugen

Beim Data Warehousing geht es oft darum, Erkenntnisse zu extrahieren und sie den Stakeholdern auf sinnvolle Weise zu präsentieren. Generative KI-Modelle können auf der Grundlage der im Data Warehouse gespeicherten Daten für Menschen lesbare Berichte oder Erzählungen erstellen. Dabei kann es sich auch um Zusammenfassungen oder die automatische Erstellung von beschreibenden Analysen handeln, die es Entscheidungsträgern erleichtern, die Daten oder den Inhalt eines Berichts zu verstehen und zu interpretieren.

Synthetische Daten erzeugen

Um ein maschinelles Lernmodell zu trainieren, bestimmt die Qualität der Daten die Genauigkeit der Vorhersage. Mit generativen KI-Modellen können synthetische Daten erzeugt werden, die die Eigenschaften realer Daten nachahmen. Diese synthetischen Daten können mit realen Daten in einem Data Warehouse kombiniert werden, um den Datensatz zu erweitern und umfassendere und vielfältigere Trainingssätze für maschinelle Lernmodelle zu erstellen. So können Probleme mit der Datenknappheit überwunden und die Genauigkeit und Robustheit von Analysemodellen verbessert werden.

Erkennung von Anomalien

Generative KI-Modelle, wie Generative Adversarial Networks (GANs), können zur Erkennung von Anomalien im Data Warehousing eingesetzt werden. Indem das GAN auf normalen Datenmustern trainiert wird, kann es lernen, Anomalien zu erkennen, indem es die generierten Daten mit den tatsächlich im Warehouse gespeicherten Daten vergleicht. Auf diese Weise kannst du ungewöhnliche Muster und Ausreißer erkennen, um potenziell betrügerische Transaktionen oder Vorgänge zu identifizieren.

Daten-Imputation und -Ergänzung

Unvollständige oder fehlende Daten können die Genauigkeit der Datenanalyse und Entscheidungsfindung beeinträchtigen. Generative KI-Techniken können fehlende Werte ersetzen, indem sie die zugrunde liegenden Muster in den verfügbaren Daten lernen. Durch das Training eines generativen Modells auf den vorhandenen Daten kann es plausible Werte für fehlende Datenpunkte generieren, die Lücken füllen und die Integrität des Data Warehouse verbessern. Du kannst bestehende Datensätze in einem Data Warehouse erweitern, indem du auf der Grundlage der vorhandenen Daten neue synthetische Stichproben generierst und einen größeren und vielfältigeren Datensatz für das Training analytischer Modelle erstellst. Dies kann die Leistung und Generalisierungsfähigkeit von Algorithmen für maschinelles Lernen verbessern und bessere Vorhersagen und Erkenntnisse ermöglichen.

Empfehlungssysteme

Generative KI-Techniken können die Empfehlungssysteme verbessern, indem sie personalisierte Empfehlungen für die Nutzer/innen erstellen. Durch die Nutzung von Daten zum Nutzerverhalten, die in einem Data Warehouse gespeichert sind, können generative Modelle die Vorlieben der Nutzer lernen und personalisierte Empfehlungen für Produkte, Dienstleistungen oder Inhalte erstellen. Dies hilft Unternehmen, die Kundenbindung zu verbessern und den Umsatz oder die Nutzerzufriedenheit zu steigern.

Die Integration von generativer KI mit Data Warehousing erweitert die Möglichkeiten der Datenanalyse, verbessert die Datenqualität und ermöglicht fortschrittliche Analysen und Entscheidungsprozesse. Bei der Generierung und Nutzung synthetischer Daten müssen jedoch ethische Überlegungen, der Datenschutz und die Sicherheit gewährleistet sein.

Moderne Datenstrategie

Das Konzept der Datengravitation wurde erstmals von Dave McCrory im Jahr 2010 geprägt. In seiner Analogie vergleicht er Daten mit einem Planeten und spricht von der Datenmasse, die entsteht, wenn Unternehmen Daten an einem Ort sammeln. Anwendungen und Dienste werden von dieser Masse angezogen, weil die Nähe zu den Daten zu einer besseren Leistung und einem höheren Durchsatz führt. Dadurch wird das Datenwachstum beschleunigt, und schließlich wird es fast unmöglich, Daten zu verschieben. Die Daten, die durch IoT, intelligente Geräte, Cloud-Anwendungen und soziale Medien erzeugt werden, wachsen weiterhin exponentiell. Du brauchst Möglichkeiten, um all diese Daten einfach und kosteneffizient zu analysieren, unabhängig von ihrem Format und dem Ort, an dem sie gespeichert sind.

Daten stehen im Mittelpunkt jeder Anwendung, jedes Prozesses und jeder Geschäftsentscheidung. Sie sind der Grundstein für die digitale Transformation fast aller Unternehmen. Sie ermöglichen neue Erfahrungen und führen zu Erkenntnissen, die Innovationen vorantreiben. Die Entwicklung einer Strategie, die den Wert der Daten für dein gesamtes Unternehmen freisetzt, ist jedoch kein einfacher und geradliniger Weg. Datensysteme sind oft unübersichtlich, siloartig und komplex, mit verschiedenen Datensätzen, die über Data Lakes, Data Warehouses, Cloud-Datenbanken, Software-as-a-Service-Anwendungen (SaaS), IoT-Geräte und lokale Systeme verteilt sind. Viele Unternehmen verfügen über einen großen Datenschatz, wissen aber nicht, wo sie anfangen sollen, ihn zu nutzen. Die Unternehmen wissen nicht, wo sich ihre Daten befinden, wie sie sie effektiv verknüpfen und nutzen können und wie sie den Zugriff auf diese Daten verwalten. Und je größer die Datenmengen werden, desto schwieriger wird dies. Die Unfähigkeit, Daten effektiv zu nutzen, kann eine schnelle Entscheidungsfindung und nachhaltige Innovation behindern.

Um den Wert ihrer Daten zu nutzen, brauchen Unternehmen mehr als nur eine Datenbank, einen Data Lake, ein Data Warehouse oder einen Business Intelligence Service. Die Realität ist, dass jedes Unternehmen mehrere Anwendungsfälle, Datentypen, Nutzer und Anwendungen hat, die unterschiedliche Tools erfordern. Und diese Bedürfnisse werden sich im Laufe der Zeit weiterentwickeln. Um den Wert deiner Daten wirklich zu erschließen und zeitnahe Einblicke und Innovationen zu ermöglichen, musst du eine durchgängige Datenstrategie implementieren, die allen Beteiligten in deinem Unternehmen die Arbeit mit den Daten auf jeder Stufe der Datenreise erleichtert. Eine End-to-End-Datenstrategie kombiniert Tools, Ressourcen und Prozesse für die Aufnahme, Speicherung und Abfrage von Daten, die Analyse von Daten und die Erstellung von Machine-Learning-Modellen und hilft den Endnutzern, datengestützte Erkenntnisse zu gewinnen. Diese End-to-End-Datenstrategie muss Folgendes beinhalten:

Ein umfassendes Set an Funktionen für jeden Datenverwendungszweck

Ein umfassendes Instrumentarium, das den Umfang, die Vielfalt der Daten und die vielen Zwecke berücksichtigt, für die du es jetzt und in Zukunft nutzen willst

Ein integriertes Set von Tools, um alle deine Daten einfach zu verbinden

Die Fähigkeit, in verschiedenen Tools und Systemen gespeicherte und analysierte Daten zu integrieren, um ein besseres Verständnis deines Geschäfts zu gewinnen und Vorhersagen zu treffen

End-to-End Data Governance

Verwaltung all deiner Daten, damit du sicher auf die Daten zugreifen kannst, wann und wo deine Nutzer sie brauchen

Mit diesen drei Säulen (siehe Abbildung 1-2) kannst du die ständig wachsenden Daten in großem Umfang speichern, nahtlos auf diese Daten zugreifen und mit Sicherheits- und Governance-Kontrollen verwalten, wer Zugriff auf die Daten hat.

Pillars of end-to-end Modern Data Strategy
Abbildung 1-2. Säulen einer modernen End-to-End-Datenstrategie

AWS bietet dir die Fähigkeiten, die du für eine durchgängige Datenstrategie mit eingebauter Intelligenz und Automatisierung in seinen Datenservices brauchst. Lass uns etwas tiefer in jede dieser Säulen eintauchen und erfahren, was sie beinhaltet.

Umfassendes Set an Fähigkeiten

Um dein Geschäft zu verstehen und mit den sich ändernden Arbeitslasten zu skalieren, Prozesse zu rationalisieren und bessere Entscheidungen zu treffen, musst du Datenstrategien entwickeln, die deinen Anforderungen jetzt und in Zukunft gerecht werden. Um Daten effektiv nutzen zu können, braucht es mehr als nur einen Data Lake, ein Data Warehouse oder ein Business Intelligence-Tool. Du brauchst ein umfassendes Set von Tools, das den Umfang, die Vielfalt der Daten und die vielen Zwecke, für die du sie nutzen willst, berücksichtigt.

Du kannst deine Datenarchitektur in verschiedenen Stadien der Datenreise modernisieren, und das bedeutet, dass du dich von alten Datenbanken lösen und zu vollständig verwalteten und speziell entwickelten Datenservices wechseln musst. Wenn du alte Datenspeicher vor Ort oder selbstverwaltete Datenbanken in der Cloud betreibst, musst du dich immer noch um Verwaltungsaufgaben wie Datenbankbereitstellung, Patching, Konfiguration und Backups kümmern. Wenn du auf Managed Services in der AWS-Cloud oder bei anderen Hyperscalern umsteigst, kannst du von der Erfahrung, Reife, Zuverlässigkeit, Sicherheit und Leistung der Cloud-Provider beim Hosten und Verwalten deiner Anwendungen profitieren.

Für eine durchgängige Datenstrategie musst du Daten in Datenbanken speichern, die für deine Art von Arbeitslasten optimiert sind, Daten aus verschiedenen Quellen integrieren und Entscheidungsträgern den Zugriff auf die Informationen mit dem Tool ihrer Wahl ermöglichen. Wie in Abbildung 1-3 dargestellt, bietet AWS ein umfassendes Set an Datenfunktionen zum Speichern, Integrieren, Handeln und Verwalten für verschiedene Arten von Datenarbeitslasten. Deshalb bietet AWS speziell entwickelte Engines, die verschiedene Datenmodelle unterstützen, darunter relationale, Key-Value-, Dokumenten-, In-Memory-, Graph-, Zeitreihen-, breite Spalten- und Ledger-Datenbanken. Diese Funktionen helfen dir, auf Daten zuzugreifen, wo immer sie sich befinden, sie zu analysieren und die gewonnenen Erkenntnisse zu nutzen.

end-to-end data strategy
Abbildung 1-3. End-to-End-Datenstrategie

Diese Datenservices und Analysetools sind für bestimmte Arten von Arbeitslasten optimiert, und AWS bietet Tools zur Integration und Verwaltung der in den speziell entwickelten Datenservices gespeicherten Daten:

AWS-Kleber

Ein serverloser, skalierbarer Extrahier-, Transformier- und Ladedienst (ETL) und Datenintegrationsdienst, der es einfacher macht, Daten aus verschiedenen Quellen für Analysen und maschinelles Lernen zu entdecken, aufzubereiten, zu verschieben und zu integrieren.

Amazon DynamoDB

Eine vollständig verwaltete, serverlose Key-Value-NoSQL-Datenbank, die für den Betrieb von Hochleistungsanwendungen in jeder Größenordnung entwickelt wurde. DynamoDB bietet integrierte Sicherheit, kontinuierliche Backups, automatische Replikation in mehreren Regionen, In-Memory-Caching sowie Tools für den Datenimport und -export.

Amazon EMR

Eine Big-Data-Lösung für die Datenverarbeitung im PB-Maßstab in der Cloud mit Funktionen für interaktive Analysen und maschinelles Lernen mit Open-Source-Frameworks wie Apache Spark, Apache Hive und Presto.

OpenSearch

Eine verteilte, Community-getriebene, Apache 2.0-lizenzierte Open-Source-Such- und Analyse-Suite, die für eine Vielzahl von Anwendungsfällen wie Echtzeit-Anwendungsüberwachung, Log-Analyse und Website-Suche eingesetzt wird.

Amazon Simple Storage Service (Amazon S3)

Ein Objektspeicherdienst, der hohe Skalierbarkeit, Datenverfügbarkeit, Sicherheit und Leistung bietet. Du kannst strukturierte und unstrukturierte Daten für Anwendungsfälle wie Data Lakes, native Cloud-Anwendungen und mobile Apps speichern und schützen.

Amazon QuickSight

Ein serverloser Dienst für Benutzer, der dir hilft, unterschiedliche Analyseanforderungen aus derselben Wahrheitsquelle durch moderne interaktive Dashboards, paginierte Berichte, eingebettete Analysen und natürlichsprachliche Abfragen zu erfüllen.

Amazon Kinesis

Erleichtert das Sammeln, Verarbeiten, und Analysieren von Streaming-Daten in Echtzeit, sodass du zeitnahe Einblicke erhältst und schnell auf neue Informationen reagieren kannst. Amazon Kinesis bietet Funktionen für die kosteneffiziente Verarbeitung von Streaming-Daten in großem Umfang sowie die Flexibilität, die Tools auszuwählen, die am besten zu den Anforderungen deiner Anwendung passen.

Amazon Redshift

Ein vollständig verwalteter, PB-skalierter Data-Warehouse-Service in der Cloud. Mit Amazon Redshift kannst du dein Data Warehouse in der Cloud mit Compliance, Sicherheit und Governance modernisieren und die Skalierungsfunktion nutzen, um deine variablen Anforderungen zu erfüllen. Du kannst all deine Daten sicher aufnehmen, kombinieren und historische, Echtzeit- oder prädiktive Analysen mit einer serverlosen oder bereitgestellten Bereitstellungsoption durchführen.

Amazon SageMaker

Ein vollständig verwalteter Service zur Aufbereitung von Daten und zum Erstellen, Trainieren und Bereitstellen von Machine-Learning-Modellen für jeden Anwendungsfall mit vollständig verwalteter Infrastruktur, Tools und Workflows.

Diese Dienste sind eng miteinander verbunden und können miteinander kommunizieren, um die Daten der anderen zu nutzen.

Integrierter Satz von Tools

Die aussagekräftigsten datengestützten Erkenntnisse entstehen, wenn du dir ein umfassendes Bild von deinem Unternehmen und deinen Kunden machst. Dies ist nur möglich, wenn du die Punkte zwischen deinen verschiedenen Datenquellen in mehreren Abteilungen, Diensten, lokalen Tools und Drittanbieteranwendungen wie Business Intelligence (BI)-Systemen oder statistischen Modellierungstools verbindest. Normalerweise erfordert die Verknüpfung von Daten aus verschiedenen Datenquellen eine Datenreplikation oder komplexe ETL-Pipelines, die Stunden, wenn nicht sogar Tage dauern können. Das ist einfach nicht schnell genug, um mit der Geschwindigkeit der Entscheidungsfindung Schritt zu halten. ETL muss einfacher werden und in vielen Fällen sogar ganz entfallen.

Großartige Führungskräfte sehen Möglichkeiten, ihr Unternehmen entlang der gesamten Wertschöpfungskette zu verändern. Für eine solche Umgestaltung sind jedoch Daten erforderlich, die es den Entscheidungsträgern ermöglichen, sich ein vollständiges Bild von ihrem Unternehmen zu machen und eine einzige Quelle der Wahrheit zu nutzen. Dazu müssen Datensilos aufgebrochen und Daten auf sichere Weise zugänglich gemacht und gemeinsam genutzt werden, um den Wert der Daten im gesamten Unternehmen zu erschließen.

Um schnell Entscheidungen treffen zu können, brauchst du neue Datenspeicher, die skalierbar sind und mit den sich ändernden Anforderungen deines Unternehmens wachsen. Außerdem musst du in der Lage sein, alles miteinander zu verbinden, einschließlich deines Data Lake, deines Data Warehouse und aller speziell angelegten Datenspeicher in einem kohärenten System, das sicher und gut verwaltet ist.

Diese konsolidierte Ansicht kann auf viele Arten erreicht werden: föderierte Abfragen, Datensynchronisation mit wenig oder gar keinem Code oder traditionelles ETL mit serverloser oder serverbasierter Ausführung. Amazon Redshift bietet Optionen für jede dieser Möglichkeiten und eine enge Integration mit anderen AWS-Services. Die Zero-ETL-Funktion zwischen Amazon Aurora und Amazon Redshift ermöglicht es dir, Transaktionsdaten nahezu in Echtzeit mit deinem Data Warehouse zu synchronisieren. Amazon Redshift ermöglicht die Abfrage von Daten aus deinem Amazon S3 Data Lake, und die Federated Query-Funktion erlaubt die sichere und direkte Abfrage von Daten aus operativen Datenbanken. Für Analyse-Arbeitslasten, bei denen du die Rechenleistung isolieren möchtest, kannst du ETL-Pipelines erstellen, um Daten zu extrahieren, zu transformieren und in einen Zieldatenspeicher zu laden. Die enge Integration mit AWS Glue ermöglicht es dir, spark-basierte Aufträge in AWS Glue Studio zu erstellen, um sie mit einem serverlosen Framework auszuführen. Weitere Einzelheiten zu den Strategien für die Datenumwandlung in Amazon Redshift findest du in Kapitel 4, "Strategien für die Datenumwandlung".

Amazon Redshift hat den Zugang zu deinen Daten für Datenanalysten und Datenwissenschaftler vereinfacht. In der Vergangenheit war maschinelles Lernen auf hochqualifizierte Datenwissenschaftler oder Programmierer mit fundierten Kenntnissen in Programmiersprachen wie Python, R usw. beschränkt. Dank der engen Integration mit Amazon SageMaker können Datenanalysten Amazon Redshift ML nutzen, um maschinelles Lernen im Data Warehouse oder Data Lake auszuführen, ohne ein ML-Modell auswählen, erstellen oder trainieren zu müssen. Weitere Einzelheiten zum maschinellen Lernen in Amazon Redshift findest du in Kapitel 6, "Amazon Redshift Machine Learning". Darüber hinaus können Unternehmensanalysten Tools wie Amazon QuickSight verwenden, um ihr Amazon Redshift Data Warehouse automatisch zu erkennen und sich mit den Datenspeichern zu verbinden, um schnell aussagekräftige Dashboards mit Geschäftseinblicken zu erstellen. Weitere Informationen zu den verschiedenen Möglichkeiten, auf dein Amazon Redshift Data Warehouse zuzugreifen, findest du in Kapitel 2, "Erste Schritte mit Amazon Redshift".

End-to-End Data Governance

Mit der richtigen Governance kannst du ein Gleichgewicht zwischen Kontrolle und Zugriff herstellen und den Menschen in deinem Unternehmen Vertrauen in die Daten geben. Das fördert Innovationen, anstatt sie zu behindern, denn die richtigen Leute können Daten schnell finden, darauf zugreifen und sie weitergeben, wenn sie sie brauchen.

Um Innovationen voranzutreiben, sollten Unternehmen das Konzept der Datensicherheit so verstehen, dass es bedeutet, wie du deine Daten auf sichere Weise freisetzen kannst, und nicht, wie du Daten sichern und den Zugriff auf deine Nutzer begrenzen kannst. Mit End-to-End Data Governance auf AWS hast du die Kontrolle darüber, wo sich deine Daten befinden, wer darauf Zugriff hat und was mit ihnen in jedem Schritt des Datenworkflows gemacht werden kann.

Für Dateningenieure und -entwickler bietet AWS fein abgestufte Kontrollen, Kataloge und Metadaten in Services wie AWS Glue und AWS Lake Formation. Mit AWS Glue kannst du Daten in Data Lakes, Data Warehouses und Datenbanken katalogisieren. AWS Glue verfügt über Datenqualitätsregeln, die die Aktualität, Genauigkeit und Integrität der Daten überprüfen. Mit AWS Lake Formation kannst du die Aktionen für die Daten in deinem Data Lake auf Amazon S3 und die Datenfreigabe in Amazon Redshift steuern und überprüfen. Wenn du einen Data Lake auf Amazon S3 hast, kannst du auch Amazon S3 Access Points verwenden, um eindeutige Richtlinien für die Zugriffskontrolle zu erstellen und den Zugriff auf gemeinsam genutzte Datensätze einfach zu kontrollieren.

Datenwissenschaftler können die Governance-Kontrollen in SageMaker nutzen, um einen umfassenden Einblick in ML-Modelle zu erhalten, einschließlich Training, Versionsverlauf und Modellleistung - alles an einem Ort.

Amazon DataZone schließlich ist ein Datenmanagement-Service zum Katalogisieren, Entdecken, Teilen und Verwalten von Daten. Er macht es Dateningenieuren, Datenwissenschaftlern, Produktmanagern, Analysten und anderen Geschäftsanwendern leicht, diese Daten zu entdecken, zu nutzen und mit ihnen zusammenzuarbeiten, um Erkenntnisse für dein Unternehmen zu gewinnen.

Zusammenfassend wird immer deutlicher, dass die Nutzung von Daten die nächste Welle der digitalen Transformation ist. Modernisieren bedeutet, das Beste aus Data Lakes und zweckgebundenen Datenspeichern zu vereinen und die Innovation mit ML zu erleichtern. Mit diesen drei Säulen - umfassend, integriert und Governance - kann deine moderne Datenstrategie mit AWS dir helfen, eine Architektur aufzubauen, die je nach Bedarf skaliert und die Betriebskosten senkt.

Moderne Datenarchitektur

Wenn du mit einer modernen Datenstrategie beginnst, musst du darüber nachdenken, wie du jede Datenmenge zu geringen Kosten und in offenen, standardbasierten Datenformaten verarbeiten kannst. Die Strategie sollte es dir auch ermöglichen, Datensilos aufzubrechen, deine Teams in die Lage zu versetzen, Analysen oder maschinelles Lernen mit den von ihnen bevorzugten Tools oder Techniken durchzuführen, und zu verwalten, wer mit den richtigen Sicherheits- und Data-Governance-Kontrollen Zugriff auf die Daten hat.

Um eine moderne Datenstrategie umzusetzen, brauchst du eine moderne Datenarchitektur. Du hast vielleicht schon von Data Warehouses, Data Lakes und Data Mesh gehört und ziehst eine dieser Strategien in Betracht. Ein Data Warehouse ermöglicht es dir, strukturierte Daten zu speichern und einen schnellen Abfragezugriff auf eine große Menge von Daten zu ermöglichen. Ein Data Lake ist ein zentrales Repository, in dem du alle strukturierten und unstrukturierten Daten speicherst und leicht zugänglich hast. Ein Datengeflecht ermöglicht den Zugriff auf die Daten vor Ort und dezentralisiert gleichzeitig den Besitz und die Verwaltung der Daten. Eine moderne Datenarchitektur muss all diese Aspekte unterstützen, um aus der ständig wachsenden Datenmenge geschäftliche Erkenntnisse zu gewinnen.

Die moderne Datenarchitektur von AWS basiert auf einem Modell, das speziell entwickelte Datenspeicher enthält, um Skalierung, Verfügbarkeit, Leistung und Kosten zu optimieren. Sie ermöglicht die Integration eines Data Lakes, eines Data Warehouses und zweckbestimmter Speicher, die eine einheitliche Governance und eine einfache Datenverschiebung ermöglichen. Amazon Redshift und Amazon S3 bilden den Kern deiner modernen Datenarchitektur und sind eng mit anderen speziell entwickelten Diensten integriert.

In der modernen Datenarchitektur, die in Abbildung 1-4 dargestellt ist, gibt es drei verschiedene Muster für die Datenbewegung: Inside-out, Outside-in und Around the Perimeter.

Modern data architecture with purpose-built databases
Abbildung 1-4. Moderne Datenarchitektur mit eigens entwickelten Diensten
Datenbewegung von innen nach außen

Eine Teilmenge der Daten in einem zentralen Datenspeicher wird manchmal in einen zweckgebundenen Datenspeicher verschoben, z. B. Amazon Redshift für Online-Analytical-Processing (OLAP)-Arbeitslasten, Amazon OpenSearch Service-Cluster oder Amazon Neptune-Cluster, um spezialisierte Analysen wie Suchanalysen, den Aufbau von Wissensgraphen oder beides zu unterstützen. Im Zusammenhang mit Amazon Redshift kannst du Amazon Redshift als zentralen Datenspeicher verwenden, auf den andere Services wie AWS Glue oder andere Amazon Redshift Data Warehouses über Data Sharing zugreifen können. Alternativ kannst du Daten aus einem Amazon S3 Data Lake in Amazon Redshift konsumieren, indem du sie über den Befehl COPY lädst oder sie direkt als externes Amazon S3-Schema abfragst.

Outside-in Datenbewegung

Unternehmen beginnen mit Datenspeichern die am besten zu ihren Anwendungen passen und verschieben diese Daten später in einen zentralen Datenspeicher für die Zusammenarbeit. Um zum Beispiel historische Daten, auf die nicht so häufig zugegriffen wird, auszulagern, kannst du diese Daten unter UNLOAD von Amazon Redshift in deinen Amazon S3 Data Lake verschieben. Ein Spieleunternehmen könnte Amazon DynamoDB als Datenspeicher wählen, um den Spielstatus, die Spielerdaten, den Sitzungsverlauf und die Bestenlisten zu speichern. Diese Daten können später für zusätzliche Analysen in einen Amazon S3 Data Lake exportiert werden, um das Spielerlebnis für die Spieler zu verbessern.

Rund um den Perimeter

Es gibt auch Szenarien, in denen die Daten von einem spezialisierten Datenspeicher in einen anderen verschoben werden. Du kannst zum Beispiel die Verbundabfragefunktion von Amazon Redshift nutzen, um Daten direkt aus operativen Datenspeichern wie Amazon Aurora abzufragen, oder die ML-Funktion von Amazon Redshift nutzen, um ein Modell auszuführen, das einen Prozess in Amazon SageMaker auslöst.

Du kannst in den verschiedenen Phasen der modernen Datenstrategie innovativ sein, indem du vom Aufbau eng gekoppelter monolithischer Anwendungen abrückst. Stattdessen kannst du auf modulare Anwendungen mit unabhängigen Komponenten, sogenannten Microservices, erstellen. Diese nativen, speziell entwickelten, integrierten AWS-Services eignen sich gut für den Aufbau modularer Anwendungen und die Nutzung neuer Technologien wie ML und KI.

Die Rolle von Amazon Redshift in einer modernen Datenarchitektur

Amazon Redshift unterstützt die moderne Datenarchitektur und ermöglicht es dir, Daten in einer zentralen oder dezentralen Architektur zu speichern und Datensilos aufzubrechen, indem es den Zugriff auf alle Daten in deinem Unternehmen ermöglicht. Mit einer modernen Datenarchitektur kannst du Daten in den Data Warehouse-Tabellen im strukturierten Spaltenformat und in offenen Dateiformaten in deinem Amazon S3 Data Lake speichern und darauf zugreifen. Die Möglichkeit, Daten im Data Warehouse, im Data Lake und in den operativen Datenbanken mit Sicherheit und Governance abzufragen, trägt dazu bei, Daten zu vereinheitlichen und für deine Geschäftsanwender und andere Anwendungen leicht verfügbar zu machen.

Einige der wichtigsten Funktionen von Amazon Redshift und der Vorteil der engen Integration in die nativen Services sind in Abbildung 1-5 dargestellt.

Amazon Redshift in a modern data architecture
Abbildung 1-5. Amazon Redshift in einer modernen Datenarchitektur

Wir werden die Funktionen in späteren Kapiteln im Detail besprechen, aber hier ist eine kurze Zusammenfassung der einzelnen Funktionen:

Massiv parallel verarbeitendes Data Warehouse (MPP)

Amazon Redshift basiert auf der MPP-Architektur, die eine schnelle Ausführung komplexer Abfragen auf großen Datenmengen ermöglicht, indem die Abfrageverarbeitung auf mehrere Knoten und virtuelle Verarbeitungseinheiten innerhalb jedes Knotens deines Data Warehouses verteilt wird. Eine MPP-Architektur hat den zusätzlichen Vorteil, dass ähnliche Daten durch die Verwendung von Verteilungsschlüsseln in den Verarbeitungseinheiten zusammengeführt werden, wodurch die Analyseverarbeitung kostengünstiger wird. In Kapitel 2, "Erste Schritte mit Amazon Redshift", erfährst du mehr über die Bedeutung der MPP-Architektur.

Trennung von Speicherung und Rechenleistung

Mit der Redshift-Architektur der Generation 3 (RA3) verfügt Amazon Redshift über eine Trennung von Speicherung und Berechnung, die es dir ermöglicht, Speicherung oder Berechnung je nach den Anforderungen deiner Arbeitslasten unabhängig voneinander zu skalieren. In Kapitel 2 erfährst du mehr über die Architektur von Amazon Redshift und wie du loslegen kannst.

Serverlos

Amazon Redshift bietet eine serverlose Option, mit der du Analysen ausführen und skalieren kannst, ohne Data Warehouses bereitstellen und verwalten zu müssen. Mit Amazon Redshift serverless musst du dich nicht für einen Knotentyp oder die Anzahl der Knoten entscheiden, die du für eine bestimmte Arbeitslast benötigst. Stattdessen legst du eine Anfangskonfiguration für die Recheneinheit fest, die in Redshift Processing Unit (RPU) gemessen wird. Amazon Redshift stellt automatisch Data-Warehouse-Kapazitäten bereit und skaliert sie, um die Anforderungen anspruchsvoller und unvorhersehbarer Arbeitslasten zu erfüllen, und du zahlst nur für die Kapazität, die du nutzt. Amazon Redshift Serverless ist mit dem bereitgestellten Cluster kompatibel, sodass du deine Anwendungen von einem bereitgestellten Cluster zu Serverless migrieren kannst, ohne deine bestehenden Analyse- oder BI-Anwendungen zu ändern. In Kapitel 2, "Erste Schritte mit Amazon Redshift", erfährst du mehr über die Erstellung eines Amazon Redshift Serverless Data Warehouse.

Data Lake-Analytik

Amazon Redshift kann effizient abfragen und strukturierte und semistrukturierte Daten aus Dateien in Amazon S3 umwandeln, ohne die Daten in Amazon Redshift-Tabellen laden zu müssen. Amazon Redshift fragt externe S3-Daten ab und sendet nur die benötigten Daten an dein Amazon Redshift Data Warehouse. In Kapitel 3, "Einrichten deiner Datenmodelleund Ingesting von Daten", erfährst du mehr darüber, wie du Daten aus Amazon S3 abfragen und umwandeln kannst.

Sicherer und konsistenter Datenaustausch

Mit Amazon Redshift Data Sharing kannst du Live-Daten zwischen Data Warehouses innerhalb deines Unternehmens oder mit externen Partnern teilen. Mit dieser Funktion kannst du die Vorteile eines einzelnen Data Warehouses auf mehrere Data Warehouse-Implementierungen ausweiten, ohne dass du sie kopieren oder verschieben musst. So kannst du auf Daten dort zugreifen und sie dort abfragen, wo sie gespeichert sind, indem du Daten über Organisationsgrenzen und verschiedene Datendomänen hinweg gemeinsam nutzt, in denen sich Datenmassen ansammeln. In Kapitel 7, "Zusammenarbeit mit Data Sharing", erfährst du mehr über das Amazon Redshift Data Sharing und wie du es für die Zusammenarbeit mit internen und externen Interessengruppen nutzen kannst.

Maschinelles Lernen mit SQL

Amazon Redshift ML macht es Datenanalysten und Datenbankentwicklern leicht Modelle für maschinelles Lernen mit vertrauten SQL-Befehlen (Standard Query Language) in Amazon Redshift Data Warehouses zu erstellen, zu trainieren und anzuwenden. Mit Amazon Redshift ML kannst du die Entwicklungszeit für ML-Modelle verkürzen, indem du die SQL-basierte Erstellung von Vorhersagemodellen verwendest und die Vorteile der Integration mit Amazon SageMaker, einem vollständig verwalteten Service für maschinelles Lernen, nutzt, ohne neue Tools oder Sprachen zu lernen. In Kapitel 6, "Amazon Redshift Machine Learning", erfährst du mehr über die Arten von Machine Learning Problemen, die du mit Amazon Redshift ML lösen kannst.

Null-ETL

Amazon Aurora unterstützt die Zero-ETL-Integration mit Amazon Redshift, um Analysen in nahezu Echtzeit mit Amazon Redshift auf Transaktionsdaten zu ermöglichen. Mithilfe der log-basierten Replikation sind Transaktionsdaten, die in Aurora geschrieben wurden, innerhalb weniger Sekunden in Amazon Redshift verfügbar. Sobald die Daten in Amazon Redshift verfügbar sind, kannst du sie abfragen oder Transformationsregeln mit SQL oder Stored Procedures anwenden. In Kapitel 3 erfährst du mehr darüber, wie du die Zero-ETL-Integration mit Amazon Redshift einrichtest.

Entwicklung von Spark-Anwendungen

Mit der Apache Spark-Integration kannst du Apache Spark-Anwendungen in einer Vielzahl von Sprachen wie Java, Scala und Python erstellen. Der Connector ist nativ auf Amazon EMR (früher Amazon Elastic MapReduce genannt), AWS Glue und SageMaker installiert. Diese Anwendungen können von deinem Amazon Redshift Data Warehouse lesen und in dieses schreiben, ohne die Leistung der Anwendungen oder die transaktionale Konsistenz der Daten zu beeinträchtigen. In Kapitel 3 erfährst du, wie du den Spark-Konnektor für die Ingestion nutzen kannst, und in Kapitel 4, "Strategien zur Datentransformation", lernst du, wie du den Spark-Konnektor für die Datentransformation nutzen kannst.

Automatisches Einlesen von Amazon S3-Dateien

Du kannst kontinuierliche Datei- ingestion-Regeln einrichten, um deine Amazon S3-Pfade zu verfolgen und neue Dateien automatisch in Amazon Redshift zu laden, ohne dass du zusätzliche Tools oder benutzerdefinierte Lösungen benötigst. Die bewährte Methode für das Einlesen von Daten in Amazon Redshift ist die Verwendung eines COPY Befehls. Du kannst eine COPY Anweisung in einem Kopierauftrag speichern, der automatisch die neuen Dateien lädt, die im angegebenen Amazon S3-Pfad entdeckt wurden. In Kapitel 3 werden wir die verschiedenen Optionen für das Laden von Daten und die Konfiguration der automatischen Datenübernahme beschreiben.

Abfrage von Transaktionsdaten mit einer Verbundabfrage

Mit föderierten Abfragen kannst du Live-Daten als Teil deiner BI- und Berichtsanwendungen einbinden. Mit dieser Funktion kannst du von Amazon Redshift aus aktuelle Echtzeitdaten aus externen Datenbanken wie PostgreSQL oder MySQL abfragen und sie mit historischen Daten kombinieren, die in Data Warehouses gespeichert sind, um eine kombinierte Ansicht für deine Geschäftsanwender zu erstellen. In Kapitel 4 erfährst du, wie du eine föderierte Quelle einrichtest und diese Daten in Echtzeit abfragst, um sie für das Reporting und die Transformation zu nutzen.

Verwende dein bevorzugtes BI-Tool

Mit dem BI-Tool deiner Wahl kannst du deine Amazon Redshift Data Warehouses über standardmäßige Java Database Connectivity (JDBC)- und Open Database Connectivity (ODBC)-Verbindungen oder über APIs abfragen und Einblicke in dein Geschäft gewähren . Amazon QuickSight ist ein nativer AWS-Service, mit dem du moderne interaktive Dashboards, paginierte Berichte, eingebettete Analysen und Abfragen in natürlicher Sprache für mehrere Datenquellen einschließlich Amazon Redshift erstellen kannst. In Kapitel 2 lernst du die vielen Möglichkeiten kennen, wie du deine Client-Tools mit Amazon Redshift verbinden kannst.

Daten entdecken und teilen

Amazon Redshift unterstützt auch die Integration mit Amazon DataZone, die es dir ermöglicht, Daten über Unternehmensgrenzen hinweg mit Governance und Zugriffskontrollen zu entdecken und zu teilen. In Kapitel 7, "Zusammenarbeit mit gemeinsamer Datennutzung", erfährst du , wie Amazon DataZone dir eine föderierte Daten-Governance bietet, bei der die Dateneigentümer und Fachexperten des jeweiligen Datensatzes Sicherheits- und Zugriffskontrollen für ihre relevanten Datenbestände durchsetzen können.

Die Vorteile einer modernen Datenarchitektur in der Praxis

Die Forschungsergebnisse zahlreicher Analysten zeigen uns, dass Unternehmen, die die Datenzugänglichkeit auch nur um ein paar Prozentpunkte verbessern, einen deutlichen Anstieg des Nettogewinns verzeichnen können. Richard Joyce, Senior Analyst bei Forrester, meint: "Schon eine 10-prozentige Steigerung der Datenzugänglichkeit führt bei einem typischen Fortune-1000-Unternehmen zu einem zusätzlichen Nettogewinn von mehr als 65 Millionen Dollar." Mit Hilfe von Analytik können neue Märkte oder neue Geschäftsfelder erschlossen werden, was sich auf den Gewinn und die Betriebskosten auswirken kann.

Hier sind einige Beispiele aus der Praxis:

  • Intuit migrierte zu einer auf Amazon Redshift basierenden Lösung, um den Zugang zu den Daten zu erleichtern. Die Lösung skalierte auf das mehr als 7-fache Datenvolumen und lieferte die 20-fache Leistung im Vergleich zur vorherigen Lösung des Unternehmens. Dies führte zu einer Senkung der Teamkosten um 25 %, 60 % bis 80 % weniger Zeitaufwand für die Wartung, 20 % bis 40 % Kosteneinsparungen insgesamt und 90 % weniger Zeit für die Bereitstellung von Modellen. Dadurch hatten die Teams mehr Zeit für die Entwicklung der nächsten Innovationswelle.

  • Nasdaq verkürzte die Markteinführungszeit für Datenzugriff von Monaten auf Wochen, indem die Datenprodukte des Unternehmens an einem zentralen Ort in der Cloud konsolidiert wurden. Sie nutzten Amazon S3, um einen Data Lake aufzubauen, der es ihnen ermöglicht, 70 Milliarden Datensätze pro Tag aufzunehmen. Die Börse lädt Finanzmarktdaten jetzt fünf Stunden schneller und führt Amazon Redshift-Abfragen 32 % schneller aus.

  • Die Expedia Group verarbeitet über 600 Milliarden KI Vorhersagen pro Jahr mit AWS-Datenservices, die von 70 PB an Daten gespeist werden. Die 1,1 Milliarden Nutzer von Samsung stellen 80.000 Anfragen pro Sekunde, und Pinterest speichert über ein Exabyte an Daten auf Amazon S3.

  • Toyota migrierte von einem lokalen Data Lake und sammelt und kombiniert nun Daten von Fahrzeugsensoren, operativen Systemen und Data Warehouses in PB-Größe. Die Teams haben sicheren Zugriff auf diese Daten, wenn sie sie brauchen, und sind so in der Lage, schnell und flexibel Innovationen zu entwickeln. Jetzt kann Toyota z. B. den Fahrzeugzustand überwachen und Probleme lösen, bevor sie sich auf die Kunden auswirken. Philips baute eine sichere und HIPAA-konforme digitale Cloud-Plattform auf, die als Basis für Anwendungssuites diente, die Kundendaten aus verschiedenen Quellen speichern, interpretieren, vereinheitlichen und Erkenntnisse daraus gewinnen konnten.

Referenzarchitektur für moderne Datenarchitektur

Da du nun die Vorteile einer modernen Datenarchitektur und den Wert der Datenspeicherung in einem Data Lake und einem Data Warehouse kennst, werfen wir einen Blick auf eine Referenzarchitektur für eine Data-Warehouse-Arbeitslast unter Verwendung von AWS-Analytics-Services. Abbildung 1-6 zeigt, wie du AWS-Services nutzen kannst, um verschiedene Aspekte deiner modernen Datenarchitektur zu implementieren: vom Sammeln oder Extrahieren von Daten aus verschiedenen Quellen und Anwendungen in deinem Amazon S3 Data Lake über die Nutzung von Amazon Redshift zum Einlesen und Verarbeiten von Daten bis hin zur Verwendung von Amazon QuickSight und Amazon SageMaker zur Analyse der Daten.

Modern Data Reference Architecture
Abbildung 1-6. Moderne Datenreferenzarchitektur

Datenbeschaffung

Die moderne Datenarchitektur ermöglicht es dir , Daten aus einer Vielzahl von Quellen aufzunehmen und zu analysieren. Viele dieser Quellen, wie z. B. Branchenanwendungen, ERP-Anwendungen und CRM-Anwendungen, generieren in festen Intervallen stark strukturierte Datenstapel. Zusätzlich zu den internen strukturierten Quellen kannst du auch Daten aus modernen Quellen wie Webanwendungen, mobilen Geräten, Sensoren, Videostreams und sozialen Medien erhalten. Diese modernen Quellen erzeugen in der Regel semistrukturierte und unstrukturierte Daten, oft als kontinuierliche Ströme.

Die Daten werden entweder vorübergehend oder dauerhaft in Amazon S3 als Data Lake in offenen Dateiformaten wie Apache Parquet, Avro, CSV, ORC und JSON gespeichert, um nur einige zu nennen. Dieselben Daten aus deinem Amazon S3 Data Lake können als einzige Wahrheitsquelle dienen und in anderen Analysediensten wie Amazon Redshift, Amazon Athena, Amazon EMR und Amazon SageMaker verwendet werden. Mit dem Data Lake hast du einen zentralen Ort, an dem du Analysen für die meisten deiner Daten durchführen kannst, während die speziell entwickeltenAnalyseservices die Geschwindigkeit bieten, die du für bestimmte Anwendungsfälle wie Data Warehouse, Echtzeit-Dashboards und Protokollanalysen brauchst.

Extrahieren, Transformieren und Laden

Die ETL-Schicht ist dafür zuständig, Daten aus verschiedenen Quellen zu extrahieren, die Daten anhand von Geschäftsregeln umzuwandeln und die bereinigten und kuratierten Bereiche der Speicherung zu füllen. Sie bietet die Möglichkeit, sich mit internen und externen Datenquellen über eine Vielzahl von Protokollen zu verbinden. Sie kann sowohl Batch- als auch Echtzeit-Streaming-Daten in ein Data Warehouse oder einen Data Lake einspeisen und bereitstellen.

Um hochgradig kuratierte, konforme und vertrauenswürdige Daten bereitzustellen, kannst du die Quelldaten vor der Speicherung einer Vorverarbeitung, Validierung und Transformation unterziehen. Änderungen an Data-Warehouse-Daten und -Schemata sollten streng kontrolliert und validiert werden, um eine hochgradig vertrauenswürdige Datenquelle für alle Geschäftsbereiche zu schaffen.

Ein gängiges Architekturmuster, das du vielleicht in der Vergangenheit verfolgt hast, bestand darin, Daten, auf die häufig zugegriffen wird und die eine hohe Leistung benötigen, in einer Datenbank oder einem Data Warehouse wie Amazon Redshift zu speichern und kalte Daten, die nur gelegentlich abgefragt werden, in einem Data Lake. So kann es sein, dass ein Finanz- oder Bankunternehmen aus rechtlichen Gründen mehr als 10 Jahre historischer Transaktionen aufbewahren muss, aber nur 2 oder 3 Jahre an Daten für die Analyse benötigt. Die moderne Architektur bietet die Flexibilität, die Daten der letzten drei Jahre in der lokalen Speicherung aufzubewahren und die historischen Daten über drei Jahre hinaus in den Data Lake zu übertragen.

Diesem Muster folgend, verfügt Amazon Redshift über ein eingebautes, gestaffeltes Speichermodell, wenn du den RA3-Knotentyp oder die serverlose Bereitstellungsoption verwendest. Speicherung und Berechnung sind voneinander getrennt, wobei die Daten in Amazon Redshift Managed Storage (RMS) gespeichert werden, damit du deine Berechnung unabhängig von der Speicherung skalieren kannst. Amazon Redshift verwaltet die heißen und kalten Daten, indem es die häufig genutzten Datenblöcke näher am Rechner hydriert und die weniger häufig genutzten Daten ersetzt. Mit dieser Architektur kannst du zwar weiterhin die historischen Daten in deinem Data Lake aufbewahren, um Analysen über andere Analyseservices durchzuführen, aber du musst weniger oder gar keine Daten aus deinem Data Warehouse auslagern.

Speicherung

Die Schicht der Datenspeicherung ist verantwortlich für dauerhafte, skalierbare und kostengünstige Komponenten zur Speicherung und Verwaltung großer Datenmengen. Das Data Warehouse und der Data Lake sind nativ integriert, um eine integrierte, kosteneffiziente Speicherung zu ermöglichen, die sowohl unstrukturierte und semistrukturierte als auch stark strukturierte und modellierte Daten unterstützt. Die Speicherung kann Daten in verschiedenen Zuständen speichern, z. B. roh, vertrauenswürdig, angereichert und modelliert.

Speicherung im Data Warehouse

Das Data Warehouse entstand aus der Notwendigkeit, große Datenmengen zu speichern und darauf zuzugreifen. MPP-basierte Architekturen wurden entwickelt, um die Verarbeitung auf eine skalierbare Gruppe von teuren, hochleistungsfähigen Rechenknoten zu verteilen.

In der Vergangenheit speicherte das Data Warehouse konforme, hochgradig vertrauenswürdige Daten, die in Stern-, Schneeflocken-, Data Vault- oder denormalisierten Schemata strukturiert waren und in der Regel aus hochstrukturierten Quellen wie Transaktionssystemen, relationalen Datenbanken und anderen strukturierten betrieblichen Quellen stammten. Das Data Warehouse wurde in der Regel in Batches geladen und führte OLAP-Abfragen durch.

Amazon Redshift war das erste vollständig verwaltete MPP-basierte Cloud-Data-Warehouse, das alle Funktionen eines traditionellen Data-Warehouses unterstützt, aber weiterentwickelt wurde, um über eine elastische Speicherung zu verfügen, die die Anzahl der benötigten Rechenknoten reduziert, semistrukturierte Daten zu speichern, auf Echtzeitdaten zuzugreifen und prädiktive Analysen durchzuführen. Abbildung 1-7 zeigt einen typischen Data Warehouse-Workflow.

Typical data warehouse workflow
Abbildung 1-7. Typischer Data-Warehouse-Workflow

Speicherung im Data Lake

Ein Data Lake ist ein zentraler Datenspeicher in dem alle Daten eines Unternehmens gespeichert werden. Er unterstützt die Speicherung von Daten in strukturierten, semistrukturierten und unstrukturierten Formaten und kann so skaliert werden, dass er Exabytes an Daten speichern kann. Normalerweise wird ein Data Lake in Landing-, Raw-, Trusted- und Curated-Zonen unterteilt, in denen die Daten je nach ihrer Verwendungsbereitschaft gespeichert werden. Da die Daten aufgenommen und gespeichert werden können, ohne dass zuvor ein Schema definiert werden muss, kann ein Data Lake die Aufnahme beschleunigen und die Zeit für die Aufbereitung der Daten reduzieren, bevor sie ausgewertet werden können. Der Data Lake ermöglicht die Analyse verschiedener Datensätze mit unterschiedlichen Methoden, einschließlich Big Data-Verarbeitung und ML. Die native Integration zwischen einem Data Lake und einem Data Warehouse senkt auch die Kosten für die Speicherung, da du auf alle Daten des Data Lakes zugreifen kannst, die du für die Analyse benötigst, und nur die wertvollsten Daten laden kannst. Ein auf AWS aufgebauter Data Lake nutzt Amazon S3, wie in Abbildung 1-8 dargestellt, als primäre Plattform für die Speicherung.

Data Lake
Abbildung 1-8. Anwendungsfälle für Data Lake

Analyse

Du kannst die im Data Lake und Data Warehouse gespeicherten Daten mit interaktiven SQL-Abfragen mit Abfrage-Editoren, visuellen Dashboards mit Amazon QuickSight oder durch die Ausführung von maschinellen Vorhersage-Lernmodellen mit Amazon SageMaker analysieren.

Wenn du diese Dienste nutzt, musst du nicht ständig Daten verschieben und umwandeln, und AWS bietet native und vollständig integrierte Dienste für die wichtigsten Anwendungsfälle anstelle einer Sammlung von teilweise integrierten Diensten anderer Anbieter.

Transaktionsdatenbanken, Data Warehouses und Data Lakes im Vergleich

Eine Transaktionsdatenbank, ein Data warehouse und ein Data Lake sind zwar alle in einer ähnlichen Datensammlung organisiert, auf die elektronisch über eine einfache strukturierte Abfragesprache (SQL) zugegriffen werden kann, aber schauen wir uns die wichtigsten Unterscheidungsmerkmale der einzelnen Datenbanken genauer an.

Eine transaktionale Datenbank ist ein System, bei dem die zugrundeliegenden Tabellenstrukturen für schnelle und effiziente Dateneinfügungen und -aktualisierungen für einzelne Zeilen ausgelegt sind. Das Datenmodell ist in der Regel hochgradig normalisiert, und die Speicherung ist für eine große Anzahl von Transaktionen ausgelegt. Um ein hohes Transaktionsvolumen für bestimmte Datenzeilen zu unterstützen, werden alle Daten einer Zeile physisch zusammen auf der Festplatte gespeichert (zeilenbasierte Speicherung). Diese Art von Datenbank wird für den Aufbau von Online-Transaktionsverarbeitungssystemen (OLTP) verwendet. Online-Einkäufe, Verkaufsaufträge, Aktiengeschäfte und Bankgutschriften oder -abbuchungen sind einige Beispiele für Anwendungsfälle einer transaktionalen Datenbank.

Ein Data Warehouse ist eine Datenbank, die optimiert wurde, um relationale Daten aus Transaktionssystemen und LOB-Anwendungen sowie semistrukturierte nicht-relationale Daten aus mobilen Apps, IoT-Geräten und sozialen Medien zu analysieren. Die Daten werden bereinigt, angereichert und umgewandelt, damit sie als "einzige Quelle der Wahrheit" dienen können, der die Nutzer vertrauen können. Die Datenstruktur und das Schema werden für die schnelle Zusammenfassung großer Datenmengen oder die Verarbeitung großer Stapel optimiert. Die Ergebnisse werden für Berichte und Analysen verwendet. Einige Beispiele für analytische Anwendungsfälle sind die Analyse der jährlichen Einzelhandels- und Online-Verkäufe, Trendanalysen zu den Kaufpräferenzen der Kunden und die Ermittlung der 10 profitabelsten Produkte.

Die wichtigsten Unterscheidungsmerkmale von Transaktionsdatenbanken und Data Warehouses sind in Tabelle 1-1 aufgeführt.

Tabelle 1-1. Data Warehouse versus Datenbank
Eigenschaften Datenlager Transaktionsbezogene Datenbank

Geeignete Arbeitsbelastungen

Analytik im großen Maßstab, Berichterstattung, Big Data

Transaktionsverarbeitung, operative Berichterstattung

Datenquelle

Daten aus vielen Quellen gesammelt und normalisiert

Daten, die aus einer einzigen Quelle, z. B. einem Transaktionssystem, erfasst werden

Datenerfassung

Massenschreibvorgänge in der Regel nach einem vorgegebenen Batch-Plan

Optimiert für kontinuierliche Schreibvorgänge, wenn neue Daten verfügbar sind, um den Transaktionsdurchsatz zu maximieren

Daten-Normalisierung

Denormalisierte Schemata, wie das Sternschema oder das Schneeflockenschema

Hochgradig normalisierte, statische Schemata

Speicherung von Daten

Optimiert für einfachen Zugriff und hohe Abfrageleistung durch spaltenorientierte Speicherung

Optimiert für durchgehende Schreibvorgänge auf einen einzelnen zeilenorientierten physischen Block

Datenzugang

Optimiert zur Minimierung der E/A und Maximierung des Datendurchsatzes

Große Mengen an kleinen Lesevorgängen

Ein Data Lake speichert auch relationale Daten aus LOB-Anwendungen und semistrukturierte Daten, aber er kann auch völlig unstrukturierte Daten speichern. Die Struktur der Daten oder das Schema wird bei der Erfassung der Daten nicht definiert. Das bedeutet, dass du Daten ohne anfängliches Design speichern und einen Katalog über den Daten erstellen kannst, der auf den Abfrageanforderungen der Geschäftskunden basiert.

Da Unternehmen mit Data Warehouses die Vorteile von Data Lakes erkennen, benötigen sie eine Plattform, die beide Anwendungsfälle ermöglicht. Sie entwickeln ihre Warehouses weiter, um Data Lakes einzubinden und verschiedene Abfragefunktionen zu ermöglichen.

Tabelle 1-2 enthält die wichtigsten Unterscheidungsmerkmale von Data Warehouses und Data Lakes.

Tabelle 1-2. Data Warehouse versus Data Lake
Eigenschaften Datenlager Datensee

Daten

Relationale Daten aus transaktionalen Systemen, operativen Datenbanken, JSON mit Streaming-Ingestion und Geschäftsanwendungen

Alle Daten, einschließlich strukturierter, semistrukturierter und unstrukturierter Daten

Schema

Wird oft vor der Data-Warehouse-Implementierung entworfen, kann aber auch zum Zeitpunkt der Analyse geschrieben werden (Schema-on-write oder Schema-on-read)

Zum Zeitpunkt der Analyse geschrieben (schema-on-read)

Preis/Leistung

Schnellste Abfrageergebnisse durch lokale Speicherung

Schnellere Abfrageergebnisse durch kostengünstige Speicherung und Entkopplung von Datenverarbeitung und Speicherung

Datenqualität

Hochgradig kuratierte Daten, die als zentrale Version der Wahrheit dienen

Alle Daten, die kuratiert sein können oder nicht (d.h. Rohdaten)

Benutzer

Business-Analysten, Datenwissenschaftler, Datenarchitekten und Dateningenieure

Business-Analysten (mit kuratierten Daten), Datenwissenschaftler, Datenentwickler, Dateningenieure und Datenarchitekten

Analytik

Batch Reporting, BI und Visualisierungen, maschinelles Lernen

Maschinelles Lernen, explorative Analysen, Datenerkennung, Streaming, operative Analysen, Big Data und Profiling

Data Mesh und Data Fabric

Data Mesh und Data Fabric sind zwei Ansätze zur Umsetzung einer modernen Datenarchitektur in einer verteilten und komplexen Umgebung. Sie haben einige gemeinsame Prinzipien, wie z.B. den Einsatz verteilter Architekturen und die Bedeutung von Datenqualität und Governance. Sie haben jedoch unterschiedliche Ziele und Ansätze für das Datenmanagement. Data Mesh konzentriert sich auf die Dezentralisierung und Autonomie von Datendomänen, während Data Fabric auf die Integration und Konsistenz von Daten über verschiedene Quellen und Systeme hinweg ausgerichtet ist. Data Fabric ist eine Top-Down-Technologielösung, während Data Mesh ein Bottom-Up-Ansatz ist, der sich mehr auf Teams und Prozesse und weniger auf die Durchsetzung der Architektur konzentriert.

Datengeflecht

In einer Data Mesh-Architektur werden die Daten nach Geschäftsbereichen oder Domänen organisiert, und jeder Bereich ist für sein eigenes Datenmanagement, seine Qualität und seine Governance verantwortlich. Die Daten werden wie ein Produkt behandelt, wobei die Datenteams für die Erstellung und Pflege von Datenprodukten verantwortlich sind, die von anderen Teams genutzt werden können. Das Ziel von Data Mesh ist es, die Agilität und Skalierbarkeit des Datenmanagements in einer komplexen und sich schnell verändernden Umgebung zu verbessern, indem Abhängigkeiten reduziert und die Zusammenarbeit zwischen Teams verbessert werden.

Data Mesh ermutigt verteilte Teams, ihre domänenorientierte Lösung selbst zu verwalten und zu gestalten, wie sie es für richtig halten; siehe Abbildung 1-9, in der die Domänen für Vertrieb, Marketing, Finanzen, F&E und ihre eigenen Teams dargestellt sind. In dieser Architektur wird jedes Team aufgefordert, Daten als Produkt über eine Self-Service-Infrastrukturplattform zur Verfügung zu stellen, wie in der letzten Tafel in Abbildung 1-9 dargestellt. Um die globale Interoperabilität des Datennetzes aufrechtzuerhalten, ist ein föderales Governance-Team für die Überwachung zuständig, wie in der oberen Fläche der Abbildung dargestellt.

A data mesh architecture
Abbildung 1-9. Architektur eines Datennetzes

Diese bereichsorientierte Datenhaltung und Architektur ermöglicht es, das Ökosystem nach Bedarf zu skalieren. Die Bereitstellung von Daten als Produkt ermöglicht eine einfache Entdeckung über viele Bereiche hinweg. Eine Self-Service-Infrastrukturplattform ermöglicht es den verschiedenen Fachbereichen, Datenprodukte zu erstellen und zu konsumieren, indem die Komplexität abstrahiert wird. Die föderierten Governance-Teams sind dafür verantwortlich, globale Standardisierungsregeln für die Interoperabilität des gesamten Data Mesh-Ökosystems festzulegen und, was noch wichtiger ist, abzuwägen, was global standardisiert werden muss und was den bereichsorientierten Teams überlassen werden sollte.

Da jedes Team seine eigenen Lösungen frei gestalten kann, kann die Amazon Redshift-Datenfreigabefunktion die Dateninfrastrukturplattform bereitstellen, die für den Aufbau der Data-Mesh-Architektur erforderlich ist. Mit Amazon DataZone kannst du eine Data-Mesh-Architektur aufbauen, in der du Datenprodukte mit Verbrauchern über ein dezentrales und geregeltes Modell teilen kannst.

Data Fabric

Data Fabric ist ein Ansatz zur Datenintegration und -orchestrierung, der die Konsistenz, Qualität und Zugänglichkeit von Daten über verschiedene Quellen und Systeme hinweg betont. In einer Data-Fabric-Architektur werden die Daten in einer einheitlichen virtuellen Ebene organisiert, die den Nutzern eine einheitliche Sicht auf die Daten bietet, unabhängig von ihrem Speicherort oder Format. Die Daten werden auf ihrem Weg durch die Fabric mit einer Kombination aus automatisierten und manuellen Prozessen umgewandelt, angereichert und harmonisiert. Das Ziel der Data Fabric ist es, den Datenzugriff und die Datenanalyse zu vereinfachen und Unternehmen in die Lage zu versetzen, schnellere und genauere Entscheidungen auf der Grundlage zuverlässiger Daten zu treffen.

Zu den gesammelten Daten kommen die Herausforderungen, die mit dem Zugang, der Erkennung, der Integration, der Sicherheit, der Governance und der Abstammung verbunden sind. Die Data Fabric-Lösung bietet Funktionen zur Lösung dieser Herausforderungen.

Die Data Fabric ist eine metadatengesteuerte Methode zur Verbindung von Datenmanagement-Tools, um eine Self-Service-Datennutzung zu ermöglichen. In Abbildung 1-10 stellen die zentralen Elemente die Tools dar, die von der Data Fabric bereitgestellt werden. Die eigentlichen Datenquellen oder Silos (links dargestellt) bleiben verteilt, aber die Verwaltung wird durch das Data Fabric Overlay vereinheitlicht. Eine einzige Data-Fabric-Schicht über allen Datenquellen bietet den Personas (im oberen Abschnitt: Reporting, Analytics und Data Science), die die Daten im gesamten Unternehmen bereitstellen und nutzen können, eine einheitliche Erfahrung. Die verschiedenen Komponenten tauschen die Daten in der Regel im JSON-Format über APIs aus.

Die Datenstruktur kann als ein lebendiges, atmendes und kontinuierlich lernendes Element betrachtet werden, das KI- und maschinelle Lernkomponenten enthält, die bei der automatischen Erkennung und den Abstammungsprozessen helfen. Die Herausforderung besteht darin, die Zustimmung der verschiedenen Abteilungen und Teams, die ihre individuellen Datensätze besitzen und pflegen, für ein einheitliches Management zu erhalten.

A data fabric consists of multiple data management layers (Image source: Eckerson Group)
Abbildung 1-10. Eine Data Fabric besteht aus mehreren Datenmanagementschichten (Bildquelle: Eckerson Group)

Die Integration von Amazon Redshift mit AWS Lake Formation kann genutzt werden, um den Zugriff, die Sicherheit und die Verwaltung zu vereinfachen. In Kapitel 8, "Sichern und Verwalten von Daten", erfährst du, wie du Zugriffskontrollen bei der Arbeit mit AWS Lake Formation einrichtest. Und Amazon SageMaker kann genutzt werden, um die maschinellen Lernfähigkeiten der Data Fabric-Architektur auf AWS aufzubauen. In Kapitel 6, "Amazon Redshift Machine Learning", erfährst du, wie Amazon Redshift eng mit Amazon SageMaker integriert ist.

Zusammenfassung

In diesem Kapitel haben wir besprochen, wie Unternehmen datengesteuert werden können, indem sie eine moderne Datenarchitektur mit den speziell für Datenservices entwickelten AWS-Services aufbauen. Eine moderne Datenstrategie hilft dir dabei, deine Datenarbeitslasten in die Cloud zu migrieren, und wir haben gesehen, wie Amazon Redshift die Grundlage für eine moderne Datenarchitektur bildet.

In den übrigen Kapiteln wird erläutert, wie du Amazon Redshift nutzen kannst, um deine Datenarbeitslasten in die Cloud zu verlagern, Daten zu demokratisieren und all deinen Benutzern Geschäftseinblicke zu bieten. Außerdem erfährst du, wie du mit Amazon Redshift einige der modernen Architekturen wie Data Mesh implementieren und die enge Integration mit anderen nativen AWS-Analyseservices nutzen kannst.

Get Amazon Redshift: Der endgültige Leitfaden now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.