Kapitel 4. Betriebsdaten sind das neue Öl
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Betriebsdaten und ihr Potenzial, neuen Geschäftswert zu schaffen, gelten für alle Arten von Organisationen in allen Bereichen der Gesellschaft und der Wirtschaft. In allen Bereichen werden betriebliche Daten erzeugt und genutzt. Die Fähigkeit von Unternehmen, die richtigen Betriebsdaten in ausreichender Menge zu nutzen, aus diesen Daten wertvolle Erkenntnisse zu gewinnen und dann die richtigen und rechtzeitigen Maßnahmen zu ergreifen, entscheidet darüber, ob sie im Zeitalter des digitalen Geschäfts neue Höhen des Erfolgs erreichen und halten können.
Die Tatsache, dass ein Spruch ein Klischee ist, macht ihn nicht weniger wahr. Viele haben Daten so oft als das neue Öl bezeichnet, dass es zum Klischee geworden ist. Aber es ist auch eine wahre Aussage, denn Betriebsdaten sind wie Öl eine unraffinierte Ressource, die es Unternehmen letztendlich ermöglicht, Werte in Form von Derivaten zu gewinnen und zu schaffen.
Öl ist die Grundlage für mehr als 6.000 Produkte, darunter "Geschirrspülmittel, Solarzellen, Lebensmittelkonservierungsmittel, Brillen, DVDs, Kinderspielzeug, Reifen und Herzklappen."1 Der Wert von Betriebsdaten hängt, wie bei Öl, weitgehend von der Veredelung und den Produktionsprozessen ab. Rohdaten haben in der Tat wenig Wert. Vielmehr sind es die Informationen und Erkenntnisse, die durch sorgfältige Verarbeitung und Analyse der Daten gewonnen werden, die einen Wert darstellen.
Wir sehen bereits, dass traditionelle Branchen betriebliche Daten nutzen, um ihr Geschäft auszubauen und neue Einnahmequellen zu erschließen. Diejenigen Unternehmen, die erfolgreich den Weg zu einem datengesteuerten Unternehmen eingeschlagen haben, profitieren von dieser neuen strategischen Fähigkeit. Der Lebensmitteleinzelhändler Kroger zum Beispiel nennt nicht nur Erkenntnisse als Haupttreiber für sein phänomenales Wachstum (14,1 % im Jahr 2020, unterstützt durch einen Anstieg der Online-Verkäufe um 116 %),2 sondern steigt auch in das Insights-Geschäft ein, indem er seine Daten zu Geld macht:
Das Unternehmen versucht, seine Größe und seine bedeutenden Einblicke in die Kunden zu nutzen, um sein Geschäftsmodell mit alternativen Einkünften umzugestalten. Es plant, seine reichhaltigen Daten zu monetarisieren und das Argument vorzubringen, dass es CPG [Unternehmen] im Vergleich zu traditionellen Kanälen einen besseren ROI für Werbe-/Marketingausgaben (zusätzlich zu den Handelsausgaben) bieten kann.3
Die bestehenden Architekturen, Geschäftspraktiken und Kompetenzen können keinen Mehrwert aus den Betriebsdaten ziehen, weil sie statisch sind und für eine Unternehmensarchitektur entwickelt wurden, die nicht mehr die tatsächliche Anatomie der Unternehmenssysteme widerspiegelt. Statische Unternehmen können sich nicht anpassen und mit ihren Kunden und Wettbewerbern mithalten. Für den CIO besteht die Herausforderung nicht nur darin, bestehende Unternehmensdatenarchitekturen zu verwalten und zu skalieren, sondern auch die Technologien, Tools und Teams einzurichten, die für den Betrieb einer Operational-Data-Praxis in großem Maßstab erforderlich sind.
In diesem Kapitel befassen wir uns mit der allgegenwärtigen Herausforderung für Unternehmen, innovativer zu werden und betriebliche Daten als erstklassigen Unternehmenswert zu betrachten. Operative Daten, zusammen mit den entsprechenden Geschäftspraktiken und technologischen Fähigkeiten, ermöglichen es einem Unternehmen, eine operative Datenplattform genauso diszipliniert und zielgerichtet zu steuern wie die Bereiche Finanzen, Compliance und Risiko. In diesem Kapitel werden die wichtigsten Veränderungen in der Herangehensweise, die architektonischen Auswirkungen und die Auswirkungen auf die Investitionen in technische Fähigkeiten im Vergleich zu traditionellen Unternehmen (d.h. Unternehmen, die auf die Unterstützung eines statischen Geschäftszweigs ausgelegt sind, im Gegensatz zu Unternehmen, die auf Innovation ausgelegt sind - und wie man Fortschritte auf dem Weg zu Letzterem macht) dargelegt.
Operative Datenplattform(en)
Eine Unternehmensdatenpraxis braucht eine Plattform oder eine Gruppe von Plattformen, um den Verbrauch von Betriebsdaten (auch Telemetrie genannt) zu skalieren. Diese Plattform sollte über eine flexible Architektur verfügen, um die Daten am richtigen Ort und auf die richtige Weise zu verarbeiten und einen einheitlichen Rahmen zu schaffen, auf dessen Grundlage ein Data-Governance-Modell ausgeführt werden kann.
Neue Datenquellen
Der erste Schritt zur erfolgreichen Entwicklung einer Insights-Plattform besteht darin, zu verstehen, welche neuen Datentypen als operative Daten definiert sind und woher sie stammen. Alle Anwendungen, die Umgebungen, in denen sie laufen, und die physischen Ressourcen, die zu ihrer Unterstützung genutzt werden, haben potenzielle betriebliche Datenquellen.
Anwendungen oder Anwendungsstacks umfassen den Anwendungscode und alles, was die Anwendung zum Funktionieren braucht. Jede traditionelle oder moderne Webanwendung besteht beispielsweise aus dem Anwendungscode selbst sowie einem zugrunde liegenden Webserver, Betriebssystem und möglicherweise einem Hypervisor. In der Regel umfasst die Anwendung auch Verwaltungs- und Orchestrierungssysteme. Erfasse die Logs und Metriken all dieser Systeme, um die Analysefläche zu vergrößern und Daten zu korrelieren, die sonst nicht in Beziehung gesetzt werden können.
Umgebungen verweisen auf Systeme und Dienste, die nur in einer bestimmten Cloud oder einem Colocation-Substrat verfügbar sind. Containerdienste, die in vielen öffentlichen Clouds angeboten werden, bieten z. B. auch Dienste zur Betriebstransparenz an, die spezielle Daten zu ihrer Umgebung melden. Erfasse diese Daten, um festzustellen, ob sich die entsprechenden Abhilfemaßnahmen auf einen bestimmten Tenant konzentrieren oder die Arbeit auf einen anderen Cloud-Provider verlagern sollten.
Physische Ressourcen beschreiben eine Vielzahl potenzieller betrieblicher Datenquellen, die möglicherweise übersehen werden, weil sie eng mit der physischen Infrastruktur wie Platz, Strom und Kühlung verbunden sind. Wir können z. B. einen Stromausfall auf einem Server mit einem Fehler in der App in Verbindung bringen, der eine Reihe von Kundenkäufen unterbrochen hat.
Die effektivsten Datenplattformen streben eine vollständige Transparenz an. Ein Mangel an Transparenz über den gesamten IT-Stack hinweg führt zu fehlenden Daten, und das ist die größte Herausforderung, die IT-Experten berichten, wenn es darum geht, die benötigten Erkenntnisse zu gewinnen.4
Zumindest können Betriebsdaten aus vorhandenen Protokollen, Ereignissen und Spuren gesammelt werden, die zur Überwachung und Fehlerbehebung der Umgebung verwendet werden. Auf dieser Grundlage sollten Unternehmen ihre potenziellen blinden Flecken betrachten und darauf hinarbeiten, diese Lücken schrittweise zu schließen, um durch eine umfassende Datenerfassung vollständige Transparenz zu erreichen.
Nachdem ein klares Verständnis aller potenziellen Arten von Betriebsdaten erlangt hat, besteht der nächste Schritt darin, ein Inventar der Komponenten zu erstellen, aus denen eine bestimmte Anwendung/ein bestimmter Dienst/ein digitales Erlebnis besteht, sowohl intern als auch extern. Das Ergebnis dieses Schritts ist eine Karte des Kommunikationsnetzes zwischen allen Komponenten. Durch eine weitere Gruppierung der Komponenten nach Service-Frameworks, die zur Zusammenführung von Telemetriedaten verwendet werden können, lässt sich eine reduzierte und verfeinerte Ansicht der besten Datenquellen erstellen. Mit dieser Übersicht und den Ergebnissen der Blindspot-Untersuchung hat eine Organisation die richtige Grundlage für eine Daten- und Beobachtbarkeitsstrategie geschaffen. Diese Strategie sollte die Entwicklung einer neuen Insights-Plattform leiten und die Pläne zur Verbesserung der Plattform im Einklang mit den Zielen und Fähigkeiten der Organisation bestimmen.5
Hinweis
Die Zusammensetzung der Anwendung selbst ändert sich, wenn ein Unternehmen eine neue digitale Architektur einführt. Die Anzahl der verwendeten Microservices und Cloud-nativen Laufzeitkomponenten kann bei einem einzigen Workload leicht in die Tausende gehen. Dazu gehören auch viel mehr Verbindungen zu Software-as-a-Service (SaaS)-Diensten von Drittanbietern als bei traditionellen Anwendungen, die in der Regel mit viel weniger Komponenten und nur wenigen oder gar keinen SaaS-Schnittstellen von Drittanbietern entwickelt werden. Jede dieser Laufzeitkomponenten ist eine brauchbare betriebliche Datenquelle. Die Identifizierung aller Komponenten, ihrer Telemetriequellen und der wertvollsten Datensätze ist das Hauptaugenmerk der SRE-Teams, die die Hauptakteure sind (siehe Kapitel 6).
Andere häufige blinde Flecken im IT-Stack sind traditionelle und Cloud-native/Microservices-Architekturen, die Rechenschicht, Non-Proxy-Vantage-Punkte und Drittanbieterdienste. Die Untersuchung neuer Telemetriequellen in diesen drei Bereichen liefert einen Ausgangspunkt, von dem aus IT-Teams bestimmen können, welche ungenutzten Datenquellen am sinnvollsten zu verfolgen sind und in welcher Reihenfolge.
Ein Beispiel für einen blinden Fleck in der Datenverarbeitungsschicht sind die Trace-Daten des Hauptserver-Prozessors. In diesem Fall sind die Daten zwar verfügbar, werden aber nicht gesammelt. Diese Quellen liefern in der Regel eine umfangreiche Historie der Prozessorausführungszweige, die zwar gefiltert werden muss, aber dennoch zur Verfügung steht.6
Unter gibt es zahlreiche Non-Proxy-Punkte, von ganz oben bis ganz unten im digitalen Stack. Der Begriff " Non-Proxy" ist sinnvoll, weil Proxys in der Regel in den Verkehrsfluss integriert sind und je nach Design unterschiedliche Sichtbarkeitsstufen bieten. Der Proxy-Aussichtspunkt ist eine natürliche Anlaufstelle für Betriebsdaten, da er bereits für andere wichtige Funktionen wie Verkehrsmanagement und Sicherheit genutzt wird, so dass die Non-Proxy-Aussichtspunkte eher als blinde Flecken gelten. Beispiele für Nicht-Proxy-Aussichtspunkte sind die folgenden:
-
Paketfilter, die zur Implementierung oder Optimierung eines Proxys verwendet werden können, aber an und für sich keine Proxy-Netzwerkverbindungen darstellen und daher einzigartige Sichtlinien sind.
-
Die neuen Daten-, Kontroll- und Verwaltungspfade, die in Kapitel 2beschrieben werden - die DPUs -, bei denendie Infrastrukturverarbeitung von den Hauptprozessoren auf alternative Rechenzentren verlagert wird. Dazu gehören FPGAs (Field-Programmable Gate Arrays), GPUs oder andere zusätzliche Rechenkomplexe.7
-
Code, der nativ in einer Anwendung oder einem Dienst instrumentiert ist. Der Zweck der Instrumentierung besteht darin, den Weg eines typischen Nutzers durch einen Geschäftsablauf zu verfolgen, während er die verschiedenen Komponenten und Dienste durchläuft, aus denen dieser Ablauf besteht.
Ein weiterer häufiger blinder Fleck sind Komponenten von Drittanbietern. Wenn du die Telemetrie-APIs von Drittanbietern abonnierst, erhöht diese sonst unsichtbare Informationsquelle die Genauigkeit und den Gesamtwert der Erkenntnisse, die du gewinnen kannst. Ein Beispiel aus dem E-Commerce ist die Zahlungsabwicklung. Digitale Zahlungsdienste werden in der Regel als SaaS-Komponente von Dritten genutzt. Zusätzlich zur Integration der Komponente für die Auftragsabwicklung sollte auch der begleitende Telemetriedienst, der ebenfalls über eine API zugänglich ist, genutzt werden, damit diese Datenquelle in die Insights-Plattform eingespeist werden kann. Eine weitere gängige Telemetriequelle von Drittanbietern wird von öffentlichen Cloud-Diensten über bestimmte APIs bereitgestellt, die sie ihren Mietern zur Verfügung stellen.
Die Verbreitung von APIs und ihre Eignung für leichtes, aber effektives operatives Datenstreaming eröffnet die Möglichkeit zur Standardisierung der Erfassungsarchitektur. Sprachunabhängige Datenformate wie JavaScript Object Notation (JSON) vereinheitlichen die Formatierung der zu serialisierenden Daten, und Technologien wie Protobuf vereinheitlichen den Ansatz zur Serialisierung strukturierter Daten, die in Zeitreihendatenspeicher gestreamt werden, die für die Aufnahme und Speicherung dieser Informationen entwickelt wurden. Interessanterweise erzeugt eine neue Technik, die sich der Herausforderung der Datenaufnahme in großem Maßstab stellt, multivariate Zeitreihendaten, eine kompaktere Datenmenge, die 25 Mal effizienter verarbeitet werden kann als eindimensionale Datenströme. Schnelle Fortschritte wie diese werden von Insights-Plattformen mit flexiblen Architekturen leicht übernommen. Sie passen sich den Verbesserungen an und halten gleichzeitig bestimmte Standards ein, um die Effizienz- und Kostengleichung im Gleichgewicht zu halten. Dadurch steigt der Wert der Plattform für das Unternehmen mit der Zeit.8
Unternehmen nutzen gerne freie und quelloffene Software, um neue Funktionen für sich zu entwickeln, und die Zusammenarbeit zwischen den Nutzern beschleunigt den Fortschritt für alle Beteiligten. Im Bereich der Betriebsdatenerfassung in Unternehmen ist OpenTelemetry, das in Kapitel 2 vorgestellt wurde, ein aktuelles Beispiel für einen solchen Vorreiter. Dieses Projekt, das aus dem Zusammenschluss zweier früherer, verwandter Projekte hervorgegangen ist, nimmt innerhalb der CNCF eine Vorreiterrolle ein. Die kostenlosen und offenen Bibliotheken, APIs, Tools und Software Development Kits (SDKs) dieser offenen Gemeinschaft vereinfachen und beschleunigen die IT-Implementierung eines gemeinsamen Rahmens für die Instrumentierung und Erfassung von Betriebsdaten. Sobald sie in einem Unternehmen implementiert sind, werden die APIs zur Verbindung von Datenquellen mit ihren Zieldatenspeichern standardisiert, was die Fähigkeit zur Automatisierung der Datenerfassung weiter verbessert.
Die effektivsten Datenplattformen werden eine flexible Architektur für die Instrumentierung von Systemen und die Erfassung von Betriebsdaten verwenden. Indem sie Standardformate und APIs in den Vordergrund stellen, aber gleichzeitig die Akzeptanz von Datensammlern und Formatübersetzern verschiedener herstellerspezifischer Formate und Serialisierungstechniken aufrechterhalten, können IT-Teams im Laufe der Zeit auf immer mehr Standardformate und APIs hinarbeiten. Dieser Ansatz ist nicht neu. Neu in Bezug auf Betriebsdaten ist, dass die Aufnahme einer so großen Vielfalt von Daten in verschiedenen Formaten eine Entscheidung darüber erfordert, wie diese Daten sowohl für menschliche SRE-Teams, die schnell Fehler beheben müssen, als auch für Maschinen, die vordefinierte Analysemodelle anwenden, um neue Erkenntnisse zu gewinnen oder Probleme durch Automatisierung zu beheben, zugänglich gemacht werden sollen. Die Beobachtbarkeit für Menschen und die Analyse für Maschinen stellen also unterschiedliche Anforderungen an die Betriebsdaten, die am besten von SRE- bzw. Data Science-Experten festgelegt werden.
Neue Datenquellen, wie die in Kapitel 3 besprochenen Anwendungs- und Sicherheitsdienste, erfordern ein neues Betriebsmodell für die Nutzung, Verarbeitung, Analyse und Verwaltung. IT-Gruppen, die eine Plattform zur Erfassung aller Arten von Daten für die menschliche und maschinelle Verarbeitung aufbauen, bereiten ihre Organisationen auf die nächste Phase der Transformation vor: die Datenverarbeitung. Die richtige Architektur für die Verarbeitung berücksichtigt den Ort, an dem die Daten erzeugt werden, die Arten von Erkenntnissen, die aus einem bestimmten Datensatz gezogen werden können, die Verfügbarkeit von Verarbeitung und Speicherung sowie die relativen Kosten für die Speicherung, Verschiebung und Verarbeitung von Daten an verschiedenen Orten. Das richtige Betriebsmodell berücksichtigt das Datenvolumen, die Geschwindigkeit der Verarbeitung und die Prinzipien für die Entscheidungsfindung. Im nächsten Abschnitt gehen wir auf diese beiden Aspekte und ihre Zusammenhänge ein.
Nach der Festlegung des Konzepts für betriebliche Datenquellen, die einer bestimmten Anwendung zugeordnet sind (auch bekannt als Workload oder eine Reihe von Workloads, die ein digitales Erlebnis ausmachen), kann die Aufmerksamkeit auf die wichtigsten Merkmale einer Datenverarbeitungsmaschine für die betriebliche Datenplattform gelenkt werden.
Datenpipeline und Praktiken
Da immer mehr Arten von Betriebsdaten für die digitale Unternehmensarchitektur wichtig werden, werden die meisten Unternehmen nicht in der Lage sein, die Speicherung, Verarbeitung, Sicherheit und den Datenschutz für all diese Daten auf globaler Ebene zu gewährleisten. Darüber hinaus wird es für Technologieverantwortliche eine Herausforderung sein, all diese Daten den richtigen Systemen, Prozessen und Personen in ihrem Unternehmen auf vorschriftsmäßige Weise zugänglich zu machen und zu nutzen. Aus diesen Gründen wird eine Plattform für Daten und Erkenntnisse benötigt. Dies ist vergleichbar mit den traditionellen Bemühungen zur Datenkonsolidierung und dem Einsatz von Business Intelligence-Plattformen für geschäfts- und kundenorientierte Daten. Ähnliche Anstrengungen sind heute auch für betriebliche Daten erforderlich, um Analysen zu ermöglichen, die fehlende Erkenntnisse aufdecken und einen geschäftlichen Mehrwert schaffen.
Wie wird der Geschäftswert aus den gesammelten Daten abgeleitet? Das hängt von den menschlichen Talenten ab, die sich mit den verschiedenen Aspekten des Datenmanagements auskennen, genauso wie Softwareentwicklung der Schlüssel zur Gewinnung von Geschäftswert aus den Branchensystemen war, die für die vorherige Generation von Geschäftsanforderungen entwickelt und programmiert wurden. Code-Artefakte wie Algorithmen, Apps für mobile Geräte und Datenmodelle werden zu Datenarten, die unter die Kontrolle und Verwaltung des neu gegründeten Datenteams fallen. Indem Code als eine Art institutioneller Daten behandelt wird, beginnt ein IT-Team, mit einer datenorientierten Denkweise neuen Geschäftswert zu schaffen. Diese Code-Artefakte können überarbeitet, eingesetzt und gelöscht werden, um als Rohmaterial für das digitale Geschäft zu dienen.
Dies ähnelt dem Ansatz, den DevOps beim Aufbau einer Entwicklungspipeline verfolgt. Datenpipelines, wie die in Abbildung 4-1 beschriebene, erfordern ähnliche Prozesse. Daher können viele der Praktiken, die DevOps und SRE im Hinblick auf den Einsatz von Werkzeugen zur schnelleren Bereitstellung von Geschäftsergebnissen anwenden, auch auf DataOps angewendet werden. DataOps ist ein relativ junges Verfahren, das aber wie DevOps und SRE verspricht, traditionelle Prozesse in moderne, effizientere Arbeitsweisen zu verwandeln.
Auf der Plattformebene berücksichtigt eine effektive Architektur die Anforderungen an die Erfassung, den Schutz, die Verwaltung, die Verarbeitung und die Veröffentlichung von Daten. Im Gegensatz zu relativ statischen Transaktionsdaten (z. B. Kundenprofile und -historie), für die technische Ressourcen zur Wartung eines oder mehrerer Systeme bereitgestellt werden, werden Daten zu einem dynamischen Rohstoff, der eigene technische Ressourcen für die Aufbereitung, Suche, Analyse und Verarbeitung verdient, um Probleme zu lösen, Erkenntnisse zu gewinnen und die Daten im Laufe der Zeit zu erweitern. Dies führt natürlich zu Spannungen, da der Wettbewerb zwischen traditionellen Softwareentwicklern und datenorientierten Ingenieuren mit Fähigkeiten in den Bereichen Datendesign, Datenkuratierung und Data Science zunimmt. Investitionen in Datentalente führen dazu, dass das Unternehmen innovativer wird und seine Daten besser nutzen kann.
Bei der Gestaltung der neuen Daten- und Erkenntnisplattform berücksichtigt eine zusammengesetzte Architektur den Standort der Daten, die Arten von Erkenntnissen, die aus einem bestimmten Datensatz gewonnen werden können, die Verfügbarkeit von Verarbeitung und Speicherung sowie die relativen Kosten für die Speicherung, Verschiebung und Verarbeitung von Daten an verschiedenen Standorten. Im Gegensatz zu traditionellen Kunden- und Geschäftsdaten, die in der Regel an einem zentralen Ort konsolidiert werden, sind betriebliche Daten wahrscheinlich eher verteilt.
Ein Teil der Daten wird zum Beispiel an den Kanten von verarbeitet, indem ML für Echtzeit- oder echtzeitnahe Entscheidungen auf der Grundlage geeigneter KI/ML-Modelle eingesetzt wird. Etwa 35 % der Unternehmen erwarten, dass Edge Computing die Verarbeitung und Analyse von Daten in Echtzeit unterstützt, wobei Antworten innerhalb von 20 Millisekunden entscheidend sind.10 Dies ist häufig eine Anforderung in der Fertigungsindustrie und im Gesundheitswesen. Eine Teilmenge dieser Daten wird für die Verarbeitung und Analyse aggregiert und eignet sich für Abfragen, die andere Arten von KI/ML-Modellen verwenden, um eine andere Reihe von Erkenntnissen zu gewinnen, die den Anforderungen dieses höheren Aggregationspunktes entsprechen. Letztendlich werden die am längsten aufbewahrten Daten an den zentralsten Orten gespeichert, die sich auf die Analyse auf höchstem Niveau spezialisiert haben. Ein gutes Beispiel ist ServiceNow, das eine Plattform für betriebliche Informationen bietet.
Welche Daten wo verarbeitet werden müssen, welche Daten gespeichert werden müssen und welche Arten von Analysen mit welchen Datensätzen durchgeführt werden sollen - all diese Fragen werden in diesem Bereich der neuen digitalen Unternehmensarchitektur beantwortet. ML-Modelle sollten dort eingesetzt werden, wo die von ihnen gewonnenen Erkenntnisse am besten genutzt werden können, entweder lokal oder zentral. Dies hängt von den folgenden Faktoren ab:
-
Wo können die gesammelten Daten gespeichert werden?
-
Wo ist das Datenmodell für die Verarbeitung dieser Daten lokal gespeichert?
-
Wie lange müssen diese Daten gespeichert werden, bevor sie verarbeitet werden?
-
Welche Art der Verarbeitung ist erforderlich?
-
Wo befindet sich die Verarbeitungskapazität in Bezug auf den Ort der Speicherung der Daten?
Bei einem Videogespräch zum Beispiel ist das lokale Gerät der wahrscheinlichste Ort, an dem Betriebsdaten über die Qualität des Erlebnisses generiert werden können. Da das Gerät auch über die entsprechenden Verarbeitungskapazitäten und die richtige Speicherung verfügt, wird die ML, die erkennt, wann Anpassungen der Bitrate notwendig sind, um das Erlebnis zu erhalten, am besten auf dem Gerät selbst ausgeführt. Bei einem Anpassungsintervall von 10 Sekunden muss das lokale Gerät trotz des konstanten Datenflusses nur 10 Sekunden dieser Daten speichern, während die lokale ML ausgeführt wird, danach können sie gelöscht werden. Außerdem muss nur ein einziger Referenzdatensatz nach oben gesendet werden, und das auch nur, wenn innerhalb eines 10-Sekunden-Zeitraums eine Anpassung erforderlich war; ansonsten wird nichts gesendet.
Sobald ein Basisdesign durch die Beantwortung der vorangegangenen Fragen auf lokaler Geräteebene festgelegt wurde, kann der Prozess auf höheren Aggregationsebenen wiederholt werden, um die entsprechende Schichtung von Datenspeicherung, Verarbeitung, Dienstanpassungen und betrieblicher Datenweiterleitung zu erreichen. Bei einem Videoanruf, der von einem Smartphone ausgeht oder dort endet, könnte die nächste Aggregationsebene ein einzelner Mobilfunkmast sein. Auf dieser Ebene werden Probleme, die sich auf die Erfahrung aller mit diesem Sendemast verbundenen Nutzer/innen auswirken, wie z. B. das Nichtzustandekommen eines Anrufs oder unbeabsichtigte Verbindungsabbrüche, nützlich. Wenn du diese Überlegungen bis zur zentralen Datenverarbeitungsstelle (in der Regel ein Metro- oder regionales Rechenzentrum) durchführst, werden die benötigten Daten in geeigneten Silos gespeichert und/oder mit Daten aus verschiedenen Quellen vermischt, um den jeweiligen Zweck zu erfüllen. Unnötige Daten werden an jedem Punkt gelöscht. Dieser mehrschichtige Ansatz führt effizient zu zielgerichteten Erkenntnissen, da die Architektur die beabsichtigten Verwendungszwecke jedes Datensatzes in jeder Schicht und an jedem Punkt der Nutzererfahrung berücksichtigt. Die Architektur ermöglicht eine zielgerichtete Analyse und Verarbeitung der Daten, was wiederum sicherstellt, dass der entsprechende geschäftliche Nutzen erzielt wird.
In der gesamten Architektur und auf jeder Ebene werden die Daten, die ML-Modelle und die daraus resultierenden Erkenntnisse als verwaltete Objekte - ähnlich wie Code - behandelt, wobei Versionen, Aktionen und Werte kontinuierlich abgeleitet werden. Sie haben einen ähnlichen Lebenszyklus wie Anwendungscode: Sie werden nach vorgegebenen Anforderungen erstellt, an bestimmten Orten eingesetzt und unter bestimmten Bedingungen ausgeführt, um bestimmte Ergebnisse zu erzielen. Anpassungen der gesammelten Daten, der Art und Weise ihrer Analyse, der gewonnenen Erkenntnisse und der daraus resultierenden Maßnahmen setzen den Lebenszyklus der Daten und des Datenmodells fort, der von den geschäftlichen Anforderungen bestimmt wird, ähnlich wie der Anwendungscode in einem Kreislauf der Verbesserung iteriert.
Wenn Daten und Datenmodelle wie Code behandelt werden, lassen sich nicht nur Probleme automatisch aufdecken und beheben, sondern auch die Erkenntnisse, die ein Unternehmen gewinnt, optimal nutzen. In Anlehnung an das Videobeispiel kann das Datenmodell, mit dem eine Verschlechterung des Nutzererlebnisses auf einem lokalen Gerät erkannt wird, wie Code verwaltet werden: Es wird an einem zentralen Ort aufbewahrt, versioniert, aktualisiert und bei Bedarf auf die Geräte übertragen. Der nächste Schritt in der Entwicklung der Technologie wäre in diesem Fall die Aggregation von Anpassungsdaten an einem zentralen oder halbzentralen Ort, so dass ein ML-Modell höherer Ordnung verwendet werden kann, um Gelegenheiten zur Anpassung des lokalen ML-Modells zu erkennen (und was zu ändern ist), so dass die Aktualisierung des lokalen ML-Modells selbst automatisiert wird. Auf diese Weise sind die intelligente Datennutzung, die Datenmodelle und die Verarbeitung anpassungsfähig - einwichtiger Grundsatz der digitalen Unternehmensarchitektur.
Während sich das Spannungsverhältnis zwischen statischem und transaktionalem und anpassungsfähigem und datengesteuertem digitalem Geschäft sicherlich in Bezug auf die Investition in neue technische Talente manifestiert, sollte Datentechnik eher als Erweiterung der Fähigkeiten und als Wachstumschance denn als Hindernis betrachtet werden. Unternehmen können und sollten die Entwicklung datenbezogener Fähigkeiten ihrer technischen Mitarbeiter fördern und in sie investieren. Die technische Effizienz, die durch die Optimierung der Wartung bestehender Geschäftsanwendungen erzielt wird, sollte als Hebel genutzt werden, um das Lernen und die Zuweisung von technischen Talenten auf die Datenerfassung, -verwaltung und -steuerung für das Unternehmen zu verlagern.
In dem Maße, in dem die Erfahrung mit dem Betrieb und der Verfeinerung der operativen Datenpipeline zunimmt, wird das Muster der Suche nach den richtigen Daten, der Entwicklung der Algorithmen, des Trainings der Algorithmen und der Bewertung und Optimierung der Ergebnisse immer natürlicher. Darüber hinaus werden die Kataloge der verfügbaren Modelle und der damit verbundenen Fähigkeiten zunehmend als Service von Drittanbietern zur Verfügung gestellt, so dass Unternehmen immer bessere Optionen für die häufigsten KI- und ML-Anforderungen haben. Die Umstellung auf Daten und Algorithmen statt auf Code wird sich beschleunigen, da die Anwendungen dynamischer werden, mehr auf Microservices basieren, stärker von Diensten abhängig sind und globaler werden. Daher empfiehlt sich ein kombinierter Ansatz aus dem Aufbau interner Erfahrungen und der Nutzung von Fortschritten von Branchenanbietern und offenen Gemeinschaften.
Datenschutz und Souveränität
Da die Daten über alles immer wertvoller werden, institutionalisiert die Gesellschaft den Schutz dieser Daten, was zu Governance-Strukturen führt, die sich an die sich ändernden Bedürfnisse der Gesellschaft anpassen und abstimmen lassen. Die Governance entwickelt sich weiter und umfasst Sicherheit, Datenschutz, Souveränität, Algorithmen, Datenmodelle, Nutzung, abgeleitete Anwendungen und kaskadierende Verantwortlichkeiten. All diese Aspekte der betrieblichen Datenverwaltung zeigen, dass eine Organisation anpassungsfähiger werden kann.
Das regulatorische Umfeld, die Souveränitätsregeln und der Schutz der Privatsphäre sowie die Anforderungen an die Einhaltung spezieller Daten werden eine übergreifende Triebkraft dafür sein, wie Daten verwaltet werden, wo sie gespeichert werden, wie sie verarbeitet werden und wer/welche Maschinen Zugriff auf sie haben. Es entstehen neue Fälle, weil einige maschinell erzeugte Daten, die früher isoliert waren, jetzt direkt geteilt, zusammengefasst oder anderweitig von außerhalb des Systems abgerufen werden. In den nächsten Jahren werden fast alle Daten in irgendeiner Form der Compliance unterliegen, um die Risiken für Kunden und Unternehmen zu minimieren.
Eine der größten Herausforderungen bei der Nutzung von Daten, insbesondere von strukturierten Daten, ist der Alles-oder-Nichts-Ansatz: Entweder wird jemandem vertraut, der alle Rohdaten sehen kann, oder er hat keinen Zugang zu ihnen.11 Eine Lösung, die sich abzeichnet, um mit dieser Spannung umzugehen, ist differential privacy. Sie ermöglicht den Zugriff auf Teilmengen von Daten, ohne dass die Personen, die mit diesen Daten verbunden sind, identifiziert werden können. Einige Start-ups nutzen dieses Konzept bereits, um in kritischen Bereichen wie dem Gesundheitswesen und den Finanzdienstleistungen ein neues Maß an Privatsphäre zu schaffen.12
Granularität der Kontrolle über den Datenzugriff ist erforderlich, um die Governance-Anforderungen zu unterstützen und das mit dem Datenzugriff verbundene Risiko zu mindern. Diese Granularität wird in zwei Dimensionen gemessen: Umfang und Verwendung. Umfang ist die Genauigkeit des Datensatzes; je granularer, desto kleiner (z. B. pro Feld oder Zeile in einer Tabelle). Die Nutzung ist die Rolle des Nutzers, die Art des Zugriffs und die damit verbundenen Bedingungen. Ein und derselbe Nutzer kann zum Beispiel mehrere Rollen innehaben, die einen Datenzugriff zu unterschiedlichen Zwecken erforderlich machen, und jeder Zweck kann mit Einschränkungen wie Zeitfenstern verbunden sein, die den erlaubten Zugriff begrenzen. Die erforderliche Granularität wird im Laufe der Zeit zunehmen, da es immer wieder Fälle von Datenmissbrauch gibt und die behördlichen Auflagen als Reaktion darauf verschärft werden.
Data Governance entwickelt sich weiter
Die Fähigkeit einer Organisation, Daten zu verwalten und zu steuern, wird der Schlüssel zu ihrer Fähigkeit sein, ihr Geschäft mit einer digitalen Unternehmensarchitektur zu modernisieren. Dies erfordert einen viel umfassenderen Governance-Ansatz als bisher, da menschliche Prozesse die Governance in die ausgeführten Geschäftsprozesse integriert haben. Die Governance muss in die digitale Unternehmensarchitektur und die Geschäftspraktiken integriert werden.
Die meisten Unternehmen (80 %) geben an, dass Data Governance für die Erzielung von Geschäftsergebnissen wichtig ist.13 Trotzdem haben weniger als die Hälfte (43 %) entweder ein Data-Governance-Programm oder eine Strategie, die als unausgereift gilt.14 Die Faktoren, die einer Data-Governance-Praxis im Wege stehen, sind bekannt: Kosten, fehlende Unterstützung durch die Geschäftsführung, geringe bis keine Beteiligung der Unternehmen und fehlende Priorisierung. Die Realität ist jedoch, dass ein digitales Unternehmen auf operative Daten angewiesen ist. Früher lieferten die Besucherzahlen und -muster in den Geschäften den Unternehmen die Informationen, die sie brauchten, um Entscheidungen zu treffen und ihr Wachstum zu fördern. Das digitale Äquivalent sind Betriebsdaten. Da ein digitales Unternehmen von diesen Daten abhängig ist, muss die Datenverwaltung als eine geschäftskritische Funktion betrachtet werden, ähnlich wie die treuhänderische Kontrolle der Finanzen oder das Testen der Codequalität.
Data Governance erfordert ein Rahmenwerk, das in der Lage ist, eine Datenoperationspraxis zu unterstützen und Richtlinien durchzusetzen, die den Zugang und die Nutzung von Daten regeln und gleichzeitig die Anforderungen an die Datensouveränität und den Datenschutz erfüllen. Abbildung 4-2 zeigt einen einfachen Data-Governance-Rahmen, der diese Anforderungen erfüllt.
Die Umsetzung eines solchen Rahmens, selbst eines einfachen, wird ohne den Einsatz von KI, ML und Automatisierung eine Herausforderung sein, da die Menge der erfassten Daten, die Komplexität der angewandten Analysen und die Geschwindigkeit, mit der reagiert werden muss, sehr hoch sind.
Traditionell nutzen Unternehmen die menschliche Interaktion als Steuerungsmechanismus für Daten. Digitale Unternehmen verlassen sich auf Daten, um Entscheidungen für das Geschäft und den Betrieb zu treffen. Das bedeutet, dass die digitale Governance in die Infrastruktur und den Entwicklungszyklus integriert werden muss, damit die Datenverwaltung automatisiert wird. Das bedeutet, dass jede Komponente der gesamten Architektur in der Lage sein muss, eine Governance-Aktion auszuführen. Diese Fähigkeit muss in jede Komponente integriert und überall angewendet werden, transparent sein, sich selbst regulieren und von den Eigentümern leicht geändert werden können. Unternehmen aus stärker regulierten Wirtschaftszweigen haben einen Vorsprung, weil sie bereits durch Vorschriften dazu angehalten sind, Organisationsstrukturen und Prozesse einzuführen, die ganz auf Datenzugriff und -nutzung ausgerichtet sind.15
Fazit
Die Etablierung einer Unternehmensdatenpraxis ist unerlässlich, um aus allen Arten von Daten neuen geschäftlichen Nutzen zu ziehen, wie das Aufkommen von Betriebsdaten im zunehmend digitalen Unternehmen gezeigt hat. Der Weg dorthin ist in der Regel schrittweise, da Zeit, Budget und qualifizierte Ressourcen den Einsatz verfügbarer Technologien - ob von Anbietern oder Open Source - bremsen.
Der erfolgreiche Aufbau einer Datenpraxis hängt von der Entwicklung einer Insights-Plattform ab, die auf einer Architektur basiert, die auf Standards beruht und so flexibel ist, dass die einzelnen Teile in einem Tempo erweitert werden können, das mit den jeweiligen Beschränkungen übereinstimmt. Die drei grundlegenden Elemente der Insights-Plattform sind die Datenerfassung, die Datenverarbeitung und die Datenverwaltung.
Parallel dazu ist es von größter Bedeutung, dass die Geschäftspraktiken und die technologischen Fähigkeiten eines Unternehmens im Gleichschritt reifen, damit die Geschäftsprozesse und Betriebsabläufe weniger statisch und dynamischer werden, wenn die operative Transparenz, der Umfang der Erkenntnisse und die Qualität der Erkenntnisse zunehmen. In dem Maße, in dem das gesamte Unternehmen mit der neuen Arbeitsweise vertrauter wird, wird die IT von einer Unterstützerrolle zu einem strategischen Wegbereiter der Transformation.
1 "Uses for Oil," Canadian Association of Petroleum Producers, Zugriff am 30. Mai 2022, https://oreil.ly/D2R54.
2 Motley Fool Transkription, "Kroger (KR) Q3 2020 Earnings Call Transcript," December 3, 2020, https://oreil.ly/dprcw.
3 Russell Redman, "Kroger Banks on Burgeoning Sources of Revenue", Supermarket News, 31. Oktober 2018, https://oreil.ly/JDd3Q.
4 "The State of Application Strategy in 2022", F5, 12. April 2022, https://oreil.ly/LH0Yj.
5 Bradley Barth, "Uncontrolled API 'Sprawl' Creates Unique Visibility and Asset Management Challenges", SC Media, November 5, 2021, https://oreil.ly/Ks9i1.
6 Juhi Batra, "Collecting Processor Trace in Intel System Debugger", Intel, Zugriff am 30. Mai 2022, https://oreil.ly/vbPJH.
7 "GPU Trace", NVIDIA Developer, Zugriff am 30. Mai 2022, https://oreil.ly/SQAKu.
8 Laurent Quérel, "Multivariate Metrics-Benchmark," GitHub, July 23, 2021, https://oreil.ly/lEBYP.
9 Thomas H. Davenport und DJ Patil, "Data Scientist: The Sexiest Job of the 21st Century", Harvard Business Review, Oktober 2012, https://oreil.ly/LdwKt.
10 F5, "The State of Application Strategy in 2022".
11 Adrian Bridgwater, "The 13 Types of Data", Forbes, 15. Juli 2008, https://oreil.ly/KvwID.
12 "5 Top Emerging Data Privacy Startups" StartUs Insights, abgerufen am 30. Mai 2022, https://oreil.ly/YHqZj.
13 Heather Devane, "This Is Why Your Data Governance Strategy Is Failing", Immuta, April 8, 2021, https://oreil.ly/UHfvY.
14 Ataccama, "Data: Fast 8 von 10 Unternehmen kämpfen mit Datenqualität, und Excel ist immer noch ein Hindernis", Cision PR Newswire, 7. April 2021, https://oreil.ly/o35qo.
15 Immuta und 451 Research, "DataOps Dilemma: Survey Reveals Gap in the Data Supply Chain", Immuta, August 2021, https://oreil.ly/i4lIi.
Get Unternehmensarchitektur für das digitale Geschäft now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.