Kapitel 1. Was ist Data Governance?

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Data Governance ist in erster Linie eine Datenmanagementfunktion, die die Qualität, Integrität, Sicherheit und Nutzbarkeit der von einer Organisation gesammelten Daten gewährleistet. Data Governance muss von dem Zeitpunkt, an dem Daten gesammelt oder erzeugt werden, bis zu dem Zeitpunkt, an dem diese Daten vernichtet oder archiviert werden, vorhanden sein. Während dieses gesamten Lebenszyklus der Daten konzentriert sich die Data Governance darauf, die Daten allen Beteiligten in einer Form zur Verfügung zu stellen, auf die sie leicht zugreifen können. Außerdem müssen die Daten so genutzt werden können, dass sie die gewünschten Geschäftsergebnisse (Erkenntnisse, Analysen) liefern und ggf. den gesetzlichen Vorschriften entsprechen. Diese Normen sind oft eine Schnittmenge aus branchenspezifischen (z.B. Gesundheitswesen), behördlichen (z.B. Datenschutz) und betrieblichen (z.B. überparteiliche) Regeln und Verhaltenskodizes. Darüber hinaus muss Data Governance sicherstellen, dass die Beteiligten einen hochwertigen, integrierten Überblick über alle Daten im Unternehmen erhalten. Hochwertige Daten haben viele Facetten - sie müssen korrekt, aktuell und konsistent sein. Und schließlich muss Data Governance dafür sorgen, dass die Daten sicher sind, d. h., dass:

  • Der Zugriff erfolgt nur durch erlaubte Benutzer auf erlaubte Weise

  • Sie ist auditierbar, d.h. alle Zugriffe, einschließlich Änderungen, werden protokolliert

  • Es ist konform mit den Vorschriften

Das Ziel von Data Governance ist es, das Vertrauen in die Daten zu stärken. Vertrauenswürdige Daten sind notwendig, damit die Nutzer Unternehmensdaten zur Unterstützung der Entscheidungsfindung, Risikobewertung und des Managements mit Hilfe von Leistungskennzahlen (KPIs) nutzen können. Mit Hilfe von Daten kannst du das Vertrauen in den Entscheidungsprozess stärken, indem du Beweise vorlegst. Die Grundsätze der Data Governance sind unabhängig von der Größe des Unternehmens oder der Menge der Daten gleich. Allerdings werden Data-Governance-Praktiker/innen ihre Entscheidungen in Bezug auf Tools und Implementierung auf der Grundlage praktischer Überlegungen treffen, die von dem Umfeld abhängen, in dem sie tätig sind.

Was Data Governance beinhaltet

Das Aufkommen der Big-Data-Analytik, die durch die einfache Verlagerung in die Cloud und die ständig steigende Leistungsfähigkeit und Kapazität der Rechenleistung angetrieben wird, hat eine schnell wachsende Gemeinschaft von Datenkonsumenten dazu motiviert und angeregt, Daten zu sammeln, zu speichern und zu analysieren, um Erkenntnisse zu gewinnen und Entscheidungen zu treffen. Nahezu jede Computeranwendung wird heutzutage von Geschäftsdaten beeinflusst. Es ist daher nicht verwunderlich, dass neue Ideen zwangsläufig die Analyse bestehender Daten auf neue Art und Weise sowie die Sammlung neuer Datensätze erfordern, sei es durch neue Systeme oder durch den Kauf von externen Anbietern. Verfügt dein Unternehmen über einen Mechanismus, um neue Datenanalysetechniken zu prüfen und sicherzustellen, dass alle gesammelten Daten sicher gespeichert werden, dass die gesammelten Daten von hoher Qualität sind und dass die daraus resultierenden Fähigkeiten zu deinem Markenwert beitragen? Auch wenn es verlockend ist, nur auf die zukünftige Macht und die Möglichkeiten der Datenerfassung und Big-Data-Analytik zu blicken, ist Data Governance eine sehr reale und sehr wichtige Überlegung, die nicht ignoriert werden darf. Im Jahr 2017 berichtete die Harvard Business Review, dass mehr als 70 % der Beschäftigten Zugang zu Daten haben, die sie nicht haben sollten.1 Das soll nicht heißen, dass Unternehmen eine defensive Haltung einnehmen sollten; es soll nur verdeutlichen, wie wichtig Data Governance ist, um Datenschutzverletzungen und eine unangemessene Nutzung der Daten zu verhindern. Gut verwaltete Daten können für ein Unternehmen messbare Vorteile bringen.

Ganzheitlicher Ansatz für Data Governance

Vor einigen Jahren, als Smartphones mit GPS-Sensoren allgegenwärtig wurden, arbeitete einer der Autoren dieses Buches an Algorithmen für maschinelles Lernen, um das Auftreten von Hagel vorherzusagen. Maschinelles Lernen erfordert markierte Daten - und die waren in der zeitlichen und räumlichen Auflösung, die das Forschungsteam brauchte, Mangelware. Unser Team kam auf die Idee, eine mobile Anwendung zu entwickeln, die es Bürgerwissenschaftlern ermöglicht, Hagel an ihrem Standort zu melden.2 Zum ersten Mal mussten wir selbst entscheiden, welche Daten wir sammeln wollten - bis dahin hatten wir meist nur die Daten erhalten, die der Nationale Wetterdienst sammelte. In Anbetracht des rudimentären Stands der Informationssicherheitsinstrumente in einem akademischen Umfeld entschieden wir uns, auf alle persönlichen Daten zu verzichten und die Meldungen völlig anonym zu machen, auch wenn das bedeutete, dass bestimmte Arten von gemeldeten Informationen etwas unzuverlässig wurden. Selbst diese anonymen Daten brachten enorme Vorteile mit sich - wir konnten die Hagelalgorithmen mit einer höheren Auflösung bewerten, was die Qualität unserer Prognosen verbesserte. Dieser neue Datensatz ermöglichte es uns, bestehende Datensätze zu kalibrieren und damit auch die Datenqualität anderer Datensätze zu verbessern. Die Vorteile gingen über die Datenqualität hinaus und begannen sich auf die Vertrauenswürdigkeit auszuwirken - die Beteiligung von Bürgerwissenschaftlern war so neu, dass das National Public Radio einen Bericht über das Projekt brachte und die Anonymität der Datenerhebung hervorhob.3 Mit Hilfe der Data Governance konnten wir sorgfältig darüber nachdenken, welche Meldedaten gesammelt werden sollten, die Qualität der Unternehmensdaten verbessern, die Qualität der vom National Weather Service erstellten Vorhersagen erhöhen und sogar zur allgemeinen Marke unseres Wetterdienstes beitragen. Diese Kombination von Effekten - Einhaltung von Vorschriften, bessere Datenqualität, neue Geschäftsmöglichkeiten und erhöhte Vertrauenswürdigkeit - war das Ergebnis eines ganzheitlichen Ansatzes für Data Governance.

Ein paar Jahre später gehören wir alle bei Google Cloud zu einem Team, das Technologien für skalierbare Cloud Data Warehouses und Data Lakes entwickelt. Eine der immer wiederkehrenden Fragen unserer Unternehmenskunden ist, welche bewährten Methoden und Richtlinien sie einführen sollten, um die Klassifizierung, Erkennung, Verfügbarkeit, Zugänglichkeit, Integrität und Sicherheit ihrer Daten zu verwalten - Data Governance - und die Kunden gehen an dieses Thema mit der gleichen Besorgnis heran wie unser kleines Team in der Wissenschaft.

Dabei sind die Werkzeuge und Möglichkeiten, die einem Unternehmen zur Umsetzung von Data Governance zur Verfügung stehen, ziemlich leistungsfähig und vielfältig. Wir hoffen, dich davon überzeugen zu können, dass du keine Angst vor Data Governance haben solltest und dass die richtige Anwendung von Data Governance neue Welten der Möglichkeiten eröffnen kann. Auch wenn du Data Governance zunächst nur unter dem Gesichtspunkt der Einhaltung von Gesetzen und Vorschriften betrachtest, kann die Anwendung von Governance-Richtlinien das Wachstum fördern und Kosten senken.

Das Vertrauen in Daten stärken

Letztendlich besteht der Zweck von Data Governance darin, Vertrauen in Daten zu schaffen. Data Governance ist in dem Maße wertvoll, in dem sie das Vertrauen der Beteiligten in die Daten stärkt - insbesondere in die Art und Weise, wie diese Daten gesammelt, analysiert, veröffentlicht oder genutzt werden.

Um das Vertrauen in Daten zu gewährleisten, muss eine Data-Governance-Strategie drei wichtige Aspekte berücksichtigen: Auffindbarkeit, Sicherheit und Verantwortlichkeit (siehe Abbildung 1-2). Die Auffindbarkeit selbst erfordert, dass Data Governance technische Metadaten, Informationen zur Herkunft und ein Geschäftsglossar leicht zugänglich macht. Darüber hinaus müssen geschäftskritische Daten korrekt und vollständig sein. Schließlich ist eine Stammdatenverwaltung notwendig, um zu gewährleisten, dass die Daten genau klassifiziert sind und somit einen angemessenen Schutz vor versehentlichen oder böswilligen Änderungen oder Lecks bieten. In Bezug auf die Sicherheit können die Einhaltung gesetzlicher Vorschriften, die Verwaltung sensibler Daten (z. B. personenbezogener Daten) sowie die Datensicherheit und die Verhinderung der Datenexfiltration je nach Geschäftsfeld und Datensatz wichtig sein. Wenn die Auffindbarkeit und die Sicherheit gewährleistet sind, kannst du beginnen, die Daten selbst als ein Produkt zu behandeln. An diesem Punkt wird die Rechenschaftspflicht wichtig und es ist notwendig, ein Betriebsmodell für den Besitz und die Rechenschaftspflicht an den Grenzen der Datendomänen zu schaffen.

Abbildung 1-2. Die drei Hauptaspekte der Data Governance, die berücksichtigt werden müssen, um das Vertrauen in Daten zu stärken

Klassifizierung und Zugriffskontrolle

Obwohl der Zweck von Data Governance darin besteht, die Vertrauenswürdigkeit von Unternehmensdaten zu erhöhen, um daraus geschäftliche Vorteile zu ziehen, besteht die wichtigste Aktivität im Zusammenhang mit Data Governance nach wie vor in der Klassifizierung und Zugriffskontrolle. Um zu verstehen, welche Rollen bei der Data Governance eine Rolle spielen, ist es daher hilfreich, eine typische Klassifizierung und Zugriffskontrolle zu betrachten.

Nehmen wir das Beispiel des Schutzes der Personaldaten von Mitarbeitern, wie in Abbildung 1-3 dargestellt.

Abbildung 1-3. Schutz der Personaldaten von Mitarbeitern

Die Personalinformationen enthalten mehrere Datenelemente: den Namen jedes Mitarbeiters, das Einstellungsdatum, frühere Gehaltszahlungen, das Bankkonto, auf das diese Gehaltszahlungen eingezahlt wurden, das aktuelle Gehalt usw. Jedes dieser Datenelemente ist je nach Geheimhaltungsgrad auf unterschiedliche Weise geschützt. Mögliche Klassifizierungsstufen sind öffentlich (Dinge, die für Personen zugänglich sind, die nicht mit dem Unternehmen verbunden sind), extern (Dinge, die für Partner und Lieferanten mit autorisiertem Zugriff auf die internen Systeme des Unternehmens zugänglich sind), intern (Dinge, die für jeden Mitarbeiter des Unternehmens zugänglich sind) und eingeschränkt. Zum Beispiel wären Informationen über die Gehaltszahlungen eines Mitarbeiters und das Bankkonto, auf das sie überwiesen wurden, nur den Managern der Gehaltsabrechnungsgruppe zugänglich. Andererseits können die Beschränkungen auch dynamischer sein. Das aktuelle Gehalt eines Mitarbeiters könnte nur für seinen Vorgesetzten sichtbar sein, und jeder Vorgesetzte könnte die Gehaltsinformationen nur für seine jeweiligen Berichte einsehen. In der Zugriffskontrolle wird festgelegt, was die Benutzer/innen tun können, wenn sie auf die Daten zugreifen - ob sie einen neuen Datensatz erstellen oder bestehende Datensätze lesen, aktualisieren oder löschen können.

Die Governance-Richtlinie wird in der Regel von der Gruppe festgelegt, die für die Daten verantwortlich ist (in diesem Fall die Personalabteilung) - diese Gruppe wird oft als " Governors" bezeichnet. Die Richtlinie selbst kann von dem Team umgesetzt werden, das das Datenbanksystem oder die Anwendung betreibt (hier die IT-Abteilung). Daher werden Änderungen wie das Hinzufügen von Nutzern zu zulässigen Gruppen oft von dem IT-Team durchgeführt - daher werden die Mitglieder dieses Teams oft als Genehmiger oder Datenverwalter bezeichnet. Die Personen, deren Handlungen durch Data Governance eingeschränkt oder ermöglicht werden, werden oft als Nutzer bezeichnet. In Unternehmen, in denen nicht alle Mitarbeiter/innen Zugang zu den Unternehmensdaten haben, können die Mitarbeiter/innen mit Zugang als Wissensarbeiter/innen bezeichnet werden, um sie von denen ohne Zugang zu unterscheiden.

Manche Unternehmen sind standardmäßig offen -wenn es zum Beispiel um Geschäftsdaten geht, kann der Bereich der autorisierten Benutzer alle Wissensarbeiter im Unternehmen umfassen. Andere Unternehmen sind standardmäßig geschlossen - Geschäftsdatensind vielleicht nur für diejenigen zugänglich, die sie kennen müssen. Richtlinien wie diese fallen in den Zuständigkeitsbereich des Data Governance Boards im Unternehmen - es gibt keine einzig richtige Antwort darauf, welcher Ansatz der beste ist.

Data Governance vs. Data Enablement und Datensicherheit

Data Governance wird oft mit Data Enablement und mit Datensicherheit verwechselt. Diese Themen überschneiden sich, haben aber unterschiedliche Schwerpunkte:

  • Bei der Data Governance geht es vor allem darum, die Daten für die Suche durch die relevanten Akteure - in der Regel die Wissensarbeiter der gesamten Organisation - zugänglich, erreichbar und indexiert zu machen. Dies ist ein entscheidender Teil der Data Governance und erfordert Werkzeuge wie einen Metadatenindex oder einen Datenkatalog, um Daten zu "kaufen". Data Governance erweitert Data Enablement um einen Workflow, in dem die Datenerfassung stattfinden kann. Die Nutzer können nach Kontext und Beschreibung nach Daten suchen, die entsprechenden Datenspeicher finden und den Zugriff beantragen, wobei sie den gewünschten Anwendungsfall als Begründung angeben. Ein Genehmiger (Data Steward) muss die Anfrage prüfen, feststellen, ob sie gerechtfertigt ist und ob die angeforderten Daten tatsächlich für den Anwendungsfall genutzt werden können, und einen Prozess in Gang setzen, durch den die Daten zugänglich gemacht werden können.

  • Data Enablement geht weiter, als Daten zugänglich und auffindbar zu machen; es erstreckt sich auf Werkzeuge, die eine schnelle Analyse und Verarbeitung der Daten ermöglichen, um geschäftsbezogene Fragen zu beantworten: "Wie viel gibt das Unternehmen für dieses Thema aus?", "Können wir die Lieferkette optimieren?" und so weiter. Das Thema ist von entscheidender Bedeutung und erfordert Wissen darüber, wie man mit den Daten arbeitet und was die Daten eigentlich bedeuten - am besten, indem man von Anfang an Metadaten einfügt, die die Daten beschreiben und Angaben zu ihrem Wert, ihrer Herkunft, ihrer Abstammung und einer Kontaktperson enthalten, die die fraglichen Daten pflegt und besitzt, um weitere Untersuchungen zu ermöglichen.

  • Datensicherheit, die sich sowohl mit Data Enablement als auch mit Data Governance überschneidet, wird normalerweise als eine Reihe von Maßnahmen zur Verhinderung und Blockierung unbefugten Zugriffs betrachtet. Data Governance beruht auf den Mechanismen der Datensicherheit, geht aber über die Verhinderung unbefugten Zugriffs hinaus und umfasst auch Richtlinien für die Daten selbst, ihre Umwandlung je nach Datenklasse (siehe Kapitel 7) und die Fähigkeit, nachzuweisen, dass die für den Zugriff und die Umwandlung der Daten festgelegten Richtlinien im Laufe der Zeit eingehalten werden. Die korrekte Umsetzung von Sicherheitsmechanismen fördert das Vertrauen, das erforderlich ist, um Daten auf breiter Basis zu teilen oder den Zugang zu den Daten zu "demokratisieren".

Warum Data Governance immer wichtiger wird

Data Governance gibt es, seit es Daten zu verwalten gibt, obwohl sie oft auf IT-Abteilungen in regulierten Branchen und auf Sicherheitsbedenken in Bezug auf bestimmte Datensätze, wie z. B. Authentifizierungsdaten, beschränkt war. Auch bei älteren Datenverarbeitungssystemen musste ein Weg gefunden werden, um nicht nur die Datenqualität zu gewährleisten, sondern auch den Zugriff auf die Daten zu kontrollieren.

Traditionell wurde Data Governance als eine IT-Funktion betrachtet, die in Silos je nach Art der Datenquelle durchgeführt wurde. So wurden z. B. die Personal- und Finanzdaten eines Unternehmens - in der Regel stark kontrollierte Datenquellen mit streng kontrolliertem Zugriff und spezifischen Nutzungsrichtlinien - von einem IT-Silo kontrolliert, während die Verkaufsdaten in einem anderen, weniger restriktiven Silo lagen. Ganzheitliche oder "zentralisierte" Data Governance mag es in einigen Unternehmen gegeben haben, aber die Mehrheit der Unternehmen betrachtete Data Governance als eine Angelegenheit der Abteilungen.

Data Governance ist durch die jüngste Einführung der GDPR- und CCPA-ähnlichen Vorschriften, die alle Branchen betreffen, in den Vordergrund gerückt - nicht nur das Gesundheitswesen, das Finanzwesen und einige andere regulierte Branchen. Außerdem hat sich die Erkenntnis durchgesetzt, dass Daten für Unternehmen von großem Wert sind. Aus diesem Grund ist die Datenlandschaft heute eine ganz andere.

Im Folgenden sind nur einige Beispiele dafür aufgeführt, wie sich die Topografie im Laufe der Zeit verändert hat, was sehr unterschiedliche Ansätze und Methoden für die Datenverwaltung rechtfertigt.

Der Umfang der Daten wird immer größer

Es gibt fast keine Grenzen für die Art und Menge der Daten, die jetzt gesammelt werden können. In einem im November 2018 veröffentlichten Whitepaper prognostiziert die International Data Corporation, dass die globale Datensphäre bis 2025 auf 175 ZB anwachsen wird (siehe Abbildung 1-4).4

Diese Zunahme der mit Hilfe von Technologien erfassten Daten, gepaart mit prädiktiven Analysen, führt dazu, dass Systeme heute fast mehr über die Nutzer/innen wissen als die Nutzer/innen selbst.

Abbildung 1-4. Die Größe der globalen Datensphäre wird voraussichtlich dramatisch wachsen

Die Zahl der Personen, die mit den Daten arbeiten und/oder sie ansehen, ist exponentiell gewachsen

Ein Bericht von Indeed zeigt, dass die Nachfrage nach Jobs in der Datenwissenschaft zwischen 2015 und 2018 um 78 % gestiegen ist.5 IDC berichtet außerdem, dass inzwischen mehr als fünf Milliarden Menschen auf der Welt mit Daten interagieren, und geht davon aus, dass diese Zahl im Jahr 2025 auf sechs Milliarden (fast 75 % der Weltbevölkerung) ansteigen wird. Unternehmen sind geradezu besessen davon, "datengesteuerte Entscheidungen" treffen zu können, was einen enormen Personalbedarf mit sich bringt: von den Ingenieuren, die Datenpipelines aufbauen, über die Analysten, die Daten aufbereiten und analysieren, bis hin zu den Stakeholdern, die sich Dashboards und Berichte ansehen. Je mehr Menschen mit den Daten arbeiten und sie einsehen, desto größer ist der Bedarf an komplexen Systemen zur Verwaltung des Zugriffs, der Verarbeitung und der Nutzung der Daten, da die Gefahr des Datenmissbrauchs steigt.

Die Methoden der Datenerhebung haben sich weiterentwickelt

Daten müssen nicht mehr nur im Stapel verarbeitet und zur Analyse geladen werden. Unternehmen nutzen Echtzeit- oder echtzeitnahe Streaming-Daten und Analysen, um ihre Kunden besser und individueller ansprechen zu können. Die Kunden erwarten heute, dass sie überall, über jede Verbindung und auf jedem Gerät auf Produkte und Dienstleistungen zugreifen können. IDC prognostiziert, dass bis 2025 fast 30 % der globalen Datensphäre in Echtzeit sein wird, wie in Abbildung 1-5 dargestellt.6

Abbildung 1-5. Mehr als 25% der globalen Datensphäre werden bis 2025 Echtzeitdaten sein

Das Aufkommen des Streamings erhöht zwar die Geschwindigkeit der Analysen, birgt aber auch das Risiko der Infiltration und macht eine komplexe Einrichtung und Überwachung zum Schutz erforderlich.

Es werden jetzt mehr Daten (einschließlich sensiblerer Daten) gesammelt

Es wird prognostiziert, dass bis zum Jahr 2025 jede Person, die Technologie nutzt und Daten erzeugt, mehr als 4.900 digitale Datenkontakte pro Tag haben wird; das ist etwa eine digitale Interaktion alle achtzehn Sekunden (siehe Abbildung 1-7).8

Abbildung 1-7. Bis 2025 wird eine Person mehr als 4.900 Mal pro Tag mit datenerzeugender Technologie interagieren

Bei vielen dieser Interaktionen werden unzählige sensible Daten wie Sozialversicherungsnummern, Kreditkartennummern, Namen, Adressen und Gesundheitsdaten, um nur einige Kategorien zu nennen, erhoben und gesammelt. Die zunehmende Erfassung dieser äußerst sensiblen Daten führt zu großen Bedenken bei den Kunden (und den Aufsichtsbehörden), wie diese Daten verwendet und behandelt werden und wer sie einsehen darf.

Die Anwendungsfälle für Daten haben sich ausgeweitet

Unternehmen streben danach, Daten zu nutzen, um bessere Geschäftsentscheidungen zu treffen, was unter als datengesteuerte Entscheidungsfindung bezeichnet wird. Sie nutzen Daten nicht nur intern, um das Tagesgeschäft voranzutreiben, sondern auch, um ihren Kunden zu helfen, bessere Entscheidungen zu treffen. Amazon ist ein Beispiel für ein Unternehmen, das dies tut: Es sammelt und analysiert die Artikel, die Kunden in der Vergangenheit gekauft haben, die Artikel, die sie sich angesehen haben, die Artikel in ihren virtuellen Warenkörben sowie die Artikel, die sie nach dem Kauf bewertet haben, um gezielte Nachrichten und Empfehlungen für zukünftige Einkäufe zu erhalten.

Während dieser Amazon-Nutzungsfall geschäftlich absolut sinnvoll ist, gibt es (sensible) Datentypen in Verbindung mit bestimmten Nutzungsfällen für diese Daten, die nicht angemessen (oder sogar legal) sind. Bei sensiblen Daten ist es nicht nur wichtig, wie sie behandelt werden, sondern auch, wie sie verwendet werden. Mitarbeiterdaten können zum Beispiel intern von der Personalabteilung eines Unternehmens verwendet/eingesehen werden, aber es wäre nicht angemessen, wenn diese Daten von der Marketingabteilung verwendet/eingesehen werden.

Neue Vorschriften und Gesetze rund um den Umgang mit Daten

Die Zunahme der Daten und der Datenverfügbarkeit hat zu dem Wunsch und der Notwendigkeit von Vorschriften über Daten, Datenerfassung, Datenzugang und Datennutzung geführt. Einige Vorschriften gibt es schon seit geraumer Zeit, wie z.B. den Health Insurance Portability and Accountability Act of 1996 (HIPAA), das Gesetz zum Schutz der Erhebung und Nutzung personenbezogener Gesundheitsdaten. Sie sind nicht nur gut bekannt, sondern die Unternehmen, die sie einhalten müssen, tun dies schon seit Jahrzehnten. Neue Vorschriften wie die EU-Datenschutzgrundverordnung (GDPR) und der California Consumer Privacy Act (CCPA) in den USA sind nur zwei Beispiele für die Kontrolle der Nutzung und Erfassung von Daten, die für unzählige Unternehmen gelten, von denen viele eine solche Datenkontrolle nicht in ihre ursprüngliche Datenarchitekturstrategie aufgenommen haben. Deshalb haben es Unternehmen, die sich bisher nicht um die Einhaltung von Vorschriften kümmern mussten, schwerer, ihre Technologie und Geschäftsprozesse so zu ändern, dass sie die neuen Vorschriften einhalten.

Ethische Bedenken bei der Verwendung von Daten

Während die Anwendungsfälle selbst in die Kategorie der ethischen Datennutzung passen, haben neue Technologien rund um maschinelles Lernen und künstliche Intelligenz neue Bedenken hinsichtlich der ethischen Datennutzung hervorgerufen.

Ein aktuelles Beispiel aus dem Jahr 2018 ist der Fall von Elaine Herzberg, die mit ihrem Fahrrad eine Straße in Tempe, Arizona, überquerte und dabei von einem selbstfahrenden Auto angefahren und getötet wurde.9 Dieser Vorfall warf Fragen zur Verantwortung auf. Wer war für den Tod von Elaine Herzberg verantwortlich? Die Person, die auf dem Fahrersitz saß? Das Unternehmen, das die Fähigkeiten des Autos testet? Die Entwickler des KI-Systems?

Die folgenden Beispiele sind zwar nicht tödlich, aber dennoch interessant:

  • 2014 entwickelte Amazon ein Rekrutierungstool zur Identifizierung von Softwareentwicklern, die das Unternehmen einstellen wollte; es wurde jedoch festgestellt, dass das Tool Frauen diskriminierte. Amazon musste das Tool 2017 schließlich aufgeben.

  • Im Jahr 2016 analysierte ProPublica ein kommerziell entwickeltes System, das Richtern helfen sollte, bessere Entscheidungen bei der Strafzumessung zu treffen, indem es die Wahrscheinlichkeit einer erneuten Straftat vorhersagt, und stellte fest, dass es Schwarze benachteiligt.10

Vorfälle wie diese sind ein riesiger PR-Alptraum für Unternehmen.

Daher haben die Regulierungsbehörden Richtlinien zur ethischen Nutzung von Daten veröffentlicht. Die EU-Regulierungsbehörden haben zum Beispiel eine Reihe von sieben Anforderungen veröffentlicht, die erfüllt sein müssen, damit KI-Systeme als vertrauenswürdig gelten:

  • KI-Systeme sollten unter menschlicher Aufsicht stehen.

  • Sie müssen einen Ausweichplan haben, falls etwas schief geht. Außerdem müssen sie genau, zuverlässig und reproduzierbar sein.

  • Sie müssen sicherstellen, dass die Privatsphäre und der Datenschutz in vollem Umfang respektiert werden.

  • Daten-, System- und KI-Geschäftsmodelle sollten transparent sein und Nachvollziehbarkeit bieten.

  • KI-Systeme müssen unfaire Vorurteile vermeiden.

  • Sie müssen allen Menschen zugutekommen.

  • Sie müssen für Verantwortung und Rechenschaftspflicht sorgen.

Das Streben nach datengesteuerten Entscheidungen, die durch mehr Daten und robuste Analysen vorangetrieben werden, erfordert jedoch eine Betrachtung und Konzentration auf die Ethik der Daten und der Datennutzung, die über diese gesetzlichen Anforderungen hinausgeht.

Beispiele für Data Governance in Aktion

Dieser Abschnitt wirft einen genaueren Blick auf mehrere Unternehmen und darauf, wie sie aus ihren Governance-Bemühungen Nutzen ziehen konnten. Diese Beispiele zeigen, dass Data Governance genutzt wird, um die Zugänglichkeit und Sicherheit zu verwalten, dass sie das Problem des Vertrauens angeht, indem sie die Datenqualität direkt angeht, und dass die Governance-Struktur diese Bemühungen erfolgreich macht.

Management von Auffindbarkeit, Sicherheit und Verantwortlichkeit

Im Juli 2019 entdeckte Capital One, einer der größten Herausgeber von Kreditkarten für Verbraucher und kleine Unternehmen, dass ein Außenstehender eine falsch konfigurierte Web Application Firewall in seinem Apache-Webserver ausnutzen konnte. Der Angreifer war in der Lage, temporäre Zugangsdaten zu erhalten und auf Dateien zuzugreifen, die persönliche Daten von Capital One-Kunden enthielten.11 Das daraus resultierende Informationsleck betraf mehr als 100 Millionen Personen, die eine Capital One-Kreditkarte beantragt hatten.

Zwei Aspekte dieses Lecks begrenzten den Radius des Angriffs. Erstens handelte es sich um Anwendungsdaten, die an Capital One gesendet wurden. Die Informationen enthielten zwar Namen, Sozialversicherungsnummern, Kontonummern und Adressen, aber keine Anmeldedaten, mit denen der Angreifer Geld hätte stehlen können. Zweitens wurde der Angreifer schnell vom FBI geschnappt. Der Grund, warum der Angreifer geschnappt wurde, ist der Grund, warum wir diese Anekdote in dieses Buch aufnehmen.

Da die fraglichen Dateien in einer öffentlichen Cloud-Speicherung gespeichert waren, in der jeder Zugriff auf die Dateien protokolliert wurde, waren die Zugriffsprotokolle den Ermittlern auch im Nachhinein zugänglich. Sie konnten die IP-Routen herausfinden und die Quelle des Angriffs auf ein paar Häuser eingrenzen. Falsch konfigurierte IT-Systeme, die Sicherheitslücken schaffen, können zwar überall vorkommen, aber Angreifer, die Zugangsdaten von lokalen Systemen stehlen, verwischen ihre Spuren in der Regel, indem sie die Zugriffsprotokolle des Systems ändern. In der öffentlichen Cloud können diese Zugriffsprotokolle jedoch nicht verändert werden, da der Angreifer keinen Zugriff darauf hat.

Dieser Vorfall wirft ein Schlaglicht auf eine Handvoll Lektionen:

  • Achte darauf, dass deine Datenerhebung zielgerichtet ist. Außerdem solltest du einen möglichst kleinen Ausschnitt der Daten speichern. Es war ein Glücksfall, dass der Datenspeicher der Kreditkartenanträge nicht auch die Details der daraus resultierenden Kreditkartenkonten enthielt.

  • Aktiviere die Audit-Logs auf Organisationsebene in deinem Data Warehouse. Hättest du dies nicht getan, wäre es nicht möglich gewesen, den Übeltäter zu finden.

  • Führe regelmäßig Sicherheitsprüfungen aller offenen Ports durch. Wenn dies nicht geschieht, wird kein Alarm ausgelöst, wenn versucht wird, die Sicherheitsvorkehrungen zu umgehen.

  • Wenden Sie eine zusätzliche Sicherheitsebene für sensible Daten in Dokumenten an. Sozialversicherungsnummern zum Beispiel sollten mit Hilfe eines Dienstes für künstliche Intelligenz, der PII-Daten erkennt und sie unkenntlich macht, maskiert oder mit Token versehen werden.

Die vierte bewährte Methode ist eine zusätzliche Sicherheitsmaßnahme: Wenn nur absolut notwendige Daten erhoben und gespeichert werden, ist eine Maskierung nicht erforderlich. In den meisten Unternehmen werden die Daten jedoch mehrfach verwendet, und in einigen Fällen wird die entschlüsselte Sozialversicherungsnummer benötigt. Um eine solche Mehrfachnutzung effektiv zu gestalten, muss jedes Attribut auf der Grundlage mehrerer Kategorien gekennzeichnet werden, um sicherzustellen, dass die entsprechenden Kontrollen und Sicherheitsvorkehrungen getroffen werden. Dies ist in der Regel ein gemeinsames Unterfangen vieler Organisationen innerhalb des Unternehmens. Es ist erwähnenswert, dass Systeme wie diese, die Daten aus der Betrachtung herausnehmen, ihre eigenen Herausforderungen und Risiken mit sich bringen.12

Mit der Zunahme der von Unternehmen gesammelten und gespeicherten Daten wird es immer wichtiger sicherzustellen, dass bewährte Methoden wie diese gut verstanden und korrekt umgesetzt werden. Solche bewährten Methoden und die Richtlinien und Instrumente zu ihrer Umsetzung sind das Herzstück der Data Governance.

Verbesserung der Datenqualität

Bei Data Governance geht es nicht nur um Sicherheitsverletzungen. Damit Daten für ein Unternehmen nützlich sind, müssen sie vertrauenswürdig sein. Die Qualität der Daten ist wichtig, und ein Großteil der Data Governance konzentriert sich darauf, sicherzustellen, dass nachgelagerte Anwendungen sich auf die Integrität der Daten verlassen können. Das ist besonders schwierig, wenn die Daten nicht im Besitz der Organisation sind und wenn sie sich in Bewegung befinden.

Ein gutes Beispiel für Data-Governance-Aktivitäten zur Verbesserung der Datenqualität kommt von der US-Küstenwache (USCG). Die USCG konzentriert sich auf Such- und Rettungsaktionen auf See, die Beseitigung von Meeresverschmutzungen, die Sicherheit auf See und die Strafverfolgung. Unser Kollege Dom Zippilli gehörte zu dem Team, das die Data-Governance-Konzepte und -Techniken für den sogenannten Authoritative Vessel Identification Service (AVIS) erprobte. Der folgende Abschnitt über AVIS ist in seinen Worten gehalten.

Das USCG-Programm ist eine praktische Erinnerung daran, dass Datenqualität etwas ist, das man anstreben und ständig im Auge behalten sollte. Je sauberer die Daten sind, desto wahrscheinlicher ist es, dass sie auch für kritischere Anwendungsfälle genutzt werden können. Im Fall der USCG sehen wir dies an der Verwendbarkeit der Daten für Such- und Rettungsaufgaben sowie.

Der Geschäftswert von Data Governance

Data Governance ist nicht nur eine Kontrollmethode. Wenn sie kohärent umgesetzt wird, ist Data Governance eine Antwort auf die strategische Notwendigkeit, Wissensarbeiter/innen mit einem klaren Prozess für die "Datenbeschaffung" die benötigten Erkenntnisse zu liefern. Dies ermöglicht die Gewinnung von Erkenntnissen aus mehreren Quellen, die zuvor in verschiedenen Geschäftsbereichen isoliert waren.

In Organisationen, in denen Data Governance ein strategischer Prozess ist, können Wissensarbeiter/innen erwarten, dass sie alle Daten, die sie für die Erfüllung ihrer Aufgaben benötigen, leicht finden, den Zugriff darauf sicher beantragen und im Rahmen eines einfachen Prozesses mit klaren Zeitvorgaben und einem transparenten Genehmigungsverfahren Zugriff auf die Daten erhalten. Genehmigungsbehörden und Datenverwalter können sich leicht einen Überblick darüber verschaffen, welche Daten für wen zugänglich sind und welche Daten sich "außerhalb" des Kontrollbereichs der Governance befinden (und was bei Unstimmigkeiten zu tun ist). CIOs können erwarten, dass sie eine umfassende Analyse der Daten in der Organisation durchführen können, um quantifizierbare Kennzahlen wie die Gesamtmenge der Daten oder die Daten, die nicht den Vorschriften entsprechen, ganzheitlich zu überprüfen und sogar die Risiken für die Organisation aufgrund von Datenlecks zu verstehen (und zu mindern).

Förderung von Innovation

Eine gute Data-Governance-Strategie kombiniert mehrere Faktoren, die es einem Unternehmen ermöglichen, mehr Wert aus seinen Daten zu ziehen. Ganz gleich, ob es darum geht, die Abläufe zu verbessern, zusätzliche Einnahmequellen zu erschließen oder Daten direkt zu verwerten - eine Data-Governance-Strategie ist ein Wegbereiter für verschiedene Werttreiber in Unternehmen.

Wenn eine Data-Governance-Strategie gut funktioniert, ist sie eine Kombination aus Prozessen (um Daten im Rahmen der Governance verfügbar zu machen), Menschen (die Richtlinien verwalten und den Datenzugriff im gesamten Unternehmen einführen, indem sie Silos aufbrechen, wo es nötig ist) und Tools, die das oben Genannte erleichtern, indem sie maschinelle Lerntechniken anwenden, um Daten zu kategorisieren und die für die Entdeckung verfügbaren Daten zu indizieren.

Data Governance ermöglicht es idealerweise allen Mitarbeitern des Unternehmens, auf alle Daten zuzugreifen (vorbehaltlich eines Governance-Prozesses), und zwar im Rahmen einer Reihe von Governance-Regeln (die weiter unten genauer definiert werden), während die Risikostruktur des Unternehmens erhalten bleibt (d.h. es werden keine zusätzlichen Risiken durch die Bereitstellung von Daten im Rahmen einer Governance-Strategie geschaffen). Da die Risikolage erhalten bleibt und durch die zusätzlichen Kontrollen, die Data Governance mit sich bringt, möglicherweise sogar verbessert wird, könnte man argumentieren, dass die Zugänglichmachung von Daten nur Vorteile mit sich bringt. Wenn alle Wissensarbeiter/innen auf geregelte Weise Zugang zu den Daten erhalten, kann dies die Innovation fördern, da die Mitarbeiter/innen auf der Grundlage der im Unternehmen vorhandenen Daten schnell Antworten auf Fragen finden können. Dies kann zu einer besseren Entscheidungsfindung, einer besseren Entdeckung von Chancen und einer insgesamt produktiveren Organisation führen.

Die Qualität der verfügbaren Daten ist eine weitere Möglichkeit, um festzustellen, ob die Governance in der Organisation gut umgesetzt wird. Ein Teil der Data Governance ist ein gut verstandener Weg, ein "Qualitätssignal" für die Daten zu kodifizieren und zu vererben. Dieses Signal sollte potenziellen Datennutzern und -analysten mitteilen, ob die Daten kuratiert wurden, ob sie normalisiert wurden oder fehlen, ob fehlerhafte Daten entfernt wurden und wie vertrauenswürdig die Quelle der Daten ist. Qualitätssignale sind entscheidend, wenn es darum geht, Entscheidungen über die potenzielle Verwendung der Daten zu treffen, z. B. bei Trainingsdatensätzen für maschinelles Lernen.

Das Spannungsverhältnis zwischen Data Governance und Demokratisierung der Datenanalyse

Sehr oft wird die vollständige Demokratisierung von Daten als ein Widerspruch zu Data Governance angesehen. Dieser Konflikt ist nicht unbedingt ein Axiom. Datendemokratisierung kann in ihrer extremsten Auslegung bedeuten, dass alle Analysten oder Wissensarbeiter auf alle Daten zugreifen können, egal welcher Klasse sie angehören. Der hier beschriebene Zugang ist für ein modernes Unternehmen unangenehm, wenn man konkrete Beispiele wie Mitarbeiterdaten (z.B. Gehälter) und Kundendaten (z.B. Kundennamen und -adressen) betrachtet. Es ist klar, dass nur bestimmte Personen auf die genannten Daten zugreifen können sollten, und zwar nur im Rahmen ihrer jeweiligen beruflichen Zuständigkeit.

Data Governance ist hier ein Wegbereiter, um diese Spannung zu lösen. Das wichtigste Konzept, das du dir merken musst, ist, dass die Daten aus zwei Schichten bestehen: den Daten selbst (z.B. Gehälter) und den Metadaten (Daten über die Daten - z.B. "Ich habe eine Tabelle mit Gehältern, aber ich werde dir nichts weiter sagen").

Mit Data Governance kannst du drei Dinge erreichen:

  • Greife auf einen Metadatenkatalog zu, der einen Index aller verwalteten Daten enthält (gewissermaßen eine vollständige Demokratisierung) und dir die Suche nach der Existenz bestimmter Daten ermöglicht. Ein guter Datenkatalog enthält auch bestimmte Zugriffskontrollregeln, die die Suche einschränken (z. B. kann ich nach "vertriebsbezogenen Daten" suchen, aber "HR" ist für mich nicht zugänglich, und daher sind auch HR-Metadaten für mich unzugänglich).

  • Den Zugang zu den Daten regeln, was einen Akquisitionsprozess (wie oben beschrieben) und einen Weg zur Einhaltung des Prinzips des geringsten Zugangs einschließt: Sobald der Zugang angefordert wird, gewährst du nur innerhalb der Grenzen der spezifischen Ressource Zugang; gib nicht zu viel davon weiter.

  • Stelle unabhängig von den anderen Schritten einen "Prüfpfad" für die Datenzugriffsanfrage, den Datenzugriffsgenehmigungszyklus und den Genehmigenden (Datenverwalter) sowie für alle nachfolgenden Zugriffsvorgänge zur Verfügung. Dieser Prüfpfad sind die Daten selbst und müssen daher mit der Data Governance übereinstimmen.

In gewisser Weise wird Data Governance zu einer Einrichtung, mit der du die Demokratisierung von Daten ermöglichen kannst, so dass mehr deiner Daten für einen größeren Teil der wissenden Mitarbeiter/innen zugänglich sind und somit die Nutzung von Daten für das Unternehmen einfacher und schneller wird.

Geschäftsergebnisse wie die Einsicht in alle Teile einer Lieferkette, das Verständnis des Kundenverhaltens auf jedem Online-Asset, die Verfolgung des Erfolgs einer mehrgleisigen Kampagne und der daraus resultierenden Customer Journeys werden immer mehr möglich. Im Rahmen der Governance können verschiedene Geschäftsbereiche Daten zusammenführen, sie analysieren, um tiefere Einblicke zu erhalten, und schnell auf lokale und globale Veränderungen reagieren.

Risiken managen (Diebstahl, Missbrauch, Datenkorruption)

Die wichtigsten Bedenken, die CIOs und verantwortliche Datenverwalter seit langem haben (und das hat sich mit dem Aufkommen von Big Data Analytics nicht geändert), waren schon immer: Was sind meine Risikofaktoren, wie sieht mein Plan zur Risikominderung aus, und wie hoch ist der potenzielle Schaden?

CIOs haben diese Bedenken genutzt, um Ressourcen auf der Grundlage der Antworten auf diese Fragen zuzuweisen. Data Governance stellt eine Reihe von Werkzeugen, Prozessen und Positionen für Mitarbeiter bereit, um die Risiken für Daten zu managen, neben anderen Themen, die darin behandelt werden (z.B. Dateneffizienz oder die Wertschöpfung aus Daten). Zu diesen Risiken gehören:

Diebstahl
Datendiebstahl ist ein Problem in Unternehmen, in denen Daten entweder das Produkt oder ein Schlüsselfaktor für die Wertschöpfung sind. Der Diebstahl von Daten über Teile, Zulieferer oder Preise in der Lieferkette eines Elektronikherstellers kann dem Unternehmen einen schweren Schlag versetzen, wenn die Konkurrenz diese Informationen nutzt, um mit denselben Zulieferern zu verhandeln oder um aus den Informationen über die Lieferkette einen Produktplan abzuleiten. Der Diebstahl einer Kundenliste kann für jedes Unternehmen sehr schädlich sein. Die Festlegung von Data Governance für Informationen, die das Unternehmen als sensibel einstuft, kann das Vertrauen in die gemeinsame Nutzung von Umgebungsdaten, Aggregaten usw. fördern und so zur Effizienz des Unternehmens beitragen und Barrieren für die gemeinsame Nutzung und Wiederverwendung von Daten abbauen.
Missbrauch
Missbrauch ist oft die unwissentliche Verwendung von Daten in einer Weise, die nicht dem Zweck entspricht, für den sie erhoben wurden - manchmal auch, um falsche Schlussfolgerungen zu ziehen. Dies ist oft das Ergebnis mangelnder Informationen über die Datenquelle, ihre Qualität oder sogar über ihre Bedeutung. Manchmal werden Daten auch böswillig missbraucht, d.h. Informationen, die mit Zustimmung für harmlose Zwecke gesammelt wurden, werden für andere, unbeabsichtigte und manchmal sogar ruchlose Zwecke verwendet. Ein Beispiel dafür ist die Zahlung von AT&T an die FCC im Jahr 2015, nachdem festgestellt wurde, dass Mitarbeiter des Call Centers persönliche Daten von Verbrauchern an Dritte weitergegeben hatten, um sich zu bereichern. Data Governance kann auf mehreren Ebenen vor Missbrauch schützen. Erstens: Schaffe Vertrauen, bevor du Daten weitergibst. Eine weitere Möglichkeit, sich vor Missbrauch zu schützen, ist die Deklaration: Gib die Quelle der Daten im Container an, die Art und Weise, wie sie gesammelt wurden und wofür sie bestimmt waren. Schließlich kann auch die Begrenzung der Zeitspanne, für die Daten zugänglich sind, einen möglichen Missbrauch verhindern. Das bedeutet nicht, dass man einen Deckel auf die Daten legt und sie unzugänglich macht. Erinnere dich daran, dass die Tatsache, dass es die Daten gibt, zusammen mit ihrem Zweck und ihrer Beschreibung geteilt werden sollte - so wird die Demokratisierung der Daten Wirklichkeit.
Datenkorruption
Datenkorruption ist ein heimtückisches Risiko, weil sie schwer zu erkennen und schwer zu schützen ist. Das Risiko tritt auf, wenn aus beschädigten (und damit falschen) Daten betriebliche Schlussfolgerungen gezogen werden. Datenverfälschungen treten oft außerhalb der Kontrolle der Data Governance auf und können auf Fehler bei der Dateneingabe zurückzuführen sein, wenn "saubere" Daten mit verfälschten Daten kombiniert werden (wodurch ein neues, verfälschtes Produkt entsteht). Unvollständige Daten, die automatisch korrigiert wurden, um einige Standardwerte einzuschließen, können zum Beispiel als kuratierte Daten missverstanden werden. Data Governance kann hier eingreifen und es ermöglichen, sogar auf der Ebene der strukturierten Datenspalten die Prozesse und die Herkunft der Daten sowie den Grad des Vertrauens oder die Qualität der Datenquelle auf oberster Ebene zu erfassen.

Einhaltung von Vorschriften

Data Governance kommt häufig zum Einsatz, wenn für das Unternehmen und insbesondere für die Daten, die das Unternehmen verarbeitet, eine Reihe von Vorschriften gelten. Vorschriften sind im Wesentlichen Richtlinien, die eingehalten werden müssen, um in dem Geschäftsumfeld, in dem das Unternehmen tätig ist, zu funktionieren. Die GDPR wird oft als Beispiel für eine Verordnung über Daten genannt. Das liegt unter anderem daran, dass die GDPR vorschreibt, personenbezogene Daten (der europäischen Bürgerinnen und Bürger) von anderen Daten zu trennen und mit diesen Daten anders umzugehen, insbesondere mit Daten, die zur Identifizierung einer Person verwendet werden können. In diesem Manuskript soll nicht auf die Einzelheiten der DSGVO eingegangen werden.

Die Vorschriften beziehen sich in der Regel auf eine oder mehrere der folgenden Besonderheiten:

  • Feinkörnige Zugriffskontrolle

  • Datenspeicherung und Datenlöschung

  • Audit-Protokollierung

  • Sensible Datenklassen

Lass uns diese nacheinander besprechen.

Regulierung der feinkörnigen Zugriffskontrolle

Die Zugriffskontrolle ist bereits ein etabliertes Thema, das vor allem mit Sicherheit zu tun hat. Die feingranulare Zugriffskontrolle fügt der Zugriffskontrolle die folgenden Überlegungen hinzu:

Wenn du Zugang gewährst, gewährst du dann auch Zugang zu der richtigen Containergröße?
Das bedeutet, dass du sicherstellen musst, dass du die Mindestgröße des Datencontainers (Tabelle, Datensatz usw.) angibst, in dem die angeforderten Informationen enthalten sind. Bei einer strukturierten Speicherung handelt es sich meist um eine einzelne Tabelle und nicht um den gesamten Datensatz oder die projektweite Genehmigung.
Wenn du Zugang gewährst, gewährst du dann das richtige Maß an Zugang?

Es sind verschiedene Zugriffsebenen auf die Daten möglich. Ein gängiges Zugriffsmuster ist die Möglichkeit, die Daten entweder zu lesen oder zu schreiben, aber es gibt noch weitere Ebenen: Du kannst einem Mitwirkenden erlauben, die Daten hinzuzufügen (aber möglicherweise nicht zu ändern), oder ein Redakteur kann Zugang haben, um Daten zu ändern oder sogar zu löschen. Ziehe außerdem geschützte Systeme in Betracht, in denen einige Daten beim Zugriff verändert werden. Du könntest bestimmte Spalten schwärzen (z.B. die US-Sozialversicherungsnummer, die als nationale ID dient), um nur die letzten vier Ziffern offenzulegen, oder GPS-Koordinaten auf Stadt und Land vergröbern. Eine nützliche Methode, um Daten zu teilen, ohne zu viel preiszugeben, ist die Tokenisierung (Verschlüsselung) der Daten mit symmetrischer (umkehrbarer) Verschlüsselung, so dass die Schlüsseldatenwerte (z. B. die ID einer Person) eindeutig bleiben (und du somit zählen kannst, wie viele verschiedene Personen du in deinem Datensatz hast), ohne dass die spezifischen Details der ID einer Person preisgegeben werden.

Alle hier genannten Zugriffsebenen sollten berücksichtigt werden (lesen/schreiben/löschen/aktualisieren und redact/maskieren/tokenize).

Wie lange sollte der Zugang offen bleiben, wenn er gewährt wird?
Erinnere dich daran, dass der Zugang in der Regel aus einem bestimmten Grund beantragt wird (ein bestimmtes Projekt muss abgeschlossen werden), und die erteilten Genehmigungen sollten nicht ohne entsprechende Begründung "baumeln". Die Aufsichtsbehörde wird sich fragen, "wer Zugang zu was hat", und daher kann es sinnvoll und effizient sein, die Anzahl der Personen zu begrenzen, die Zugang zu einer bestimmten Klasse von Daten haben.

Datenspeicherung und Datenlöschung

Ein großer Teil der Vorschriften befasst sich mit der Löschung und Aufbewahrung von Daten. Es ist üblich, dass Daten für einen bestimmten Zeitraum aufbewahrt werden müssen, und zwar mindestens für diesen Zeitraum. Bei Vorschriften zu Finanztransaktionen ist es zum Beispiel nicht ungewöhnlich, dass alle Informationen zu Geschäftstransaktionen bis zu sieben Jahre lang aufbewahrt werden müssen, damit die Ermittler bei Finanzbetrug zurückverfolgen können.

Umgekehrt kann ein Unternehmen die Aufbewahrungszeit für bestimmte Informationen begrenzen wollen, um schnelle Schlussfolgerungen ziehen zu können und gleichzeitig die Haftung zu begrenzen. Ständig aktuelle Informationen über den Standort aller Lieferfahrzeuge zu haben, ist zum Beispiel nützlich, um schnelle Entscheidungen über "Just-in-Time"-Abholungen und -Lieferungen zu treffen, aber es wird zu einer Belastung, wenn du diese Informationen über einen längeren Zeitraum aufbewahrst und dir theoretisch ein Bild vom Standort eines bestimmten Lieferfahrers über mehrere Wochen hinweg machen kannst.

Audit-Protokollierung

Die Möglichkeit, Audit-Protokolle für eine Aufsichtsbehörde aufzurufen, ist ein nützlicher Beweis dafür, dass die Richtlinien eingehalten werden. Du kannst zwar keine gelöschten Daten vorlegen, aber du kannst einen Prüfpfad zeigen, auf welche Weise die Daten erstellt, manipuliert, weitergegeben (und mit wem), abgerufen (und von wem) und später abgelaufen oder gelöscht wurden. Der Prüfer kann so nachprüfen, ob die Richtlinien eingehalten werden. Audit-Protokolle können auch als nützliches forensisches Werkzeug dienen.

Um für Data Governance-Zwecke nützlich zu sein, müssen Audit-Protokolle unveränderlich und schreibgeschützt sein (d. h. sie dürfen weder von internen noch von externen Parteien geändert werden) und müssen für einen langen Zeitraum aufbewahrt werden - so lange, wie es die anspruchsvollsten Richtlinien zur Datenaufbewahrung vorsehen (und darüber hinaus, um zu zeigen, dass die Daten gelöscht werden).

Audit-Protokolle müssen nicht nur Informationen über die Daten und die Datenoperationen selbst enthalten, sondern auch über die Vorgänge rund um die Datenverwaltungseinrichtung. Richtlinienänderungen müssen protokolliert werden, ebenso wie Änderungen am Datenschema. Berechtigungsmanagement und Berechtigungsänderungen müssen protokolliert werden, und die Protokollierungsinformationen sollten nicht nur das Subjekt der Änderung enthalten (sei es ein Datencontainer oder eine Person, der eine Berechtigung erteilt werden soll), sondern auch den Urheber der Aktion (den Administrator oder den Dienstprozess, der die Aktivität initiiert hat).

Sensible Datenklassen

Sehr oft legt eine Aufsichtsbehörde fest, dass eine Klasse von Daten anders behandelt werden sollte als andere Daten. Dies ist der Kern der Verordnung, der sich meist auf eine Gruppe von geschützten Personen oder eine Art von Aktivität bezieht. Die Aufsichtsbehörde verwendet juristische Ausdrücke (z. B. personenbezogene Daten von in der Europäischen Union ansässigen Personen oder "Finanztransaktionsdaten"). Es liegt an der Organisation, korrekt zu bestimmen, welchen Teil dieser Daten sie tatsächlich verarbeitet und wie diese Daten im Vergleich zu den in strukturierter oder unstrukturierter Speicherung gespeicherten Daten zu bewerten sind. Bei strukturierten Daten ist es manchmal einfacher, eine Datenklasse in eine Reihe von Spalten einzubinden (in diesen Spalten werden personenbezogene Daten gespeichert) und die Spalten so zu kennzeichnen, dass bestimmte Richtlinien speziell für diese Spalten gelten, einschließlich Zugriff und Aufbewahrung. Dies unterstützt die Grundsätze der feingranularen Zugriffskontrolle und die Einhaltung der Vorschriften für die Daten (nicht für den Datenspeicher oder das Personal, das die Daten bearbeitet).

Überlegungen für Organisationen, wenn sie über Data Governance nachdenken

Wenn ein Unternehmen sich hinsetzt und beginnt, ein Data-Governance-Programm und die Ziele eines solchen Programms zu definieren, sollte es das Umfeld berücksichtigen, in dem es tätig ist. Insbesondere sollte sie überlegen, welche Vorschriften relevant sind und wie oft sich diese ändern, ob eine Cloud-Bereitstellung für das Unternehmen sinnvoll ist und welche Fachkenntnisse von der IT und den Datenanalysten/-verantwortlichen benötigt werden. Auf diese Faktoren gehen wir im Folgenden ein.

Sich ändernde Vorschriften und Compliance-Anforderungen

In den vergangenen Jahren haben die Vorschriften zur Datenverwaltung mehr Aufmerksamkeit erregt. Mit GDPR und CCPA, die sich in die Reihe der HIPAA- und PCI-bezogenen Vorschriften einreihen, reagieren die betroffenen Organisationen.

Das sich verändernde regulatorische Umfeld hat dazu geführt, dass Organisationen wachsam bleiben müssen, wenn es um Governance geht. Kein Unternehmen möchte in die Schlagzeilen geraten, wenn es verklagt wird, weil es mit seinen Kundendaten nicht vorschriftsmäßig umgegangen ist. In einer Welt, in der Kundeninformationen sehr wertvoll sind, müssen Unternehmen vorsichtig sein, wie sie mit Kundendaten umgehen. Die Unternehmen sollten nicht nur über die bestehenden Vorschriften Bescheid wissen, sondern sich auch über alle neuen Vorschriften informieren, die sich auf ihre Geschäftstätigkeit auswirken könnten. Darüber hinaus hat der technologische Wandel zusätzliche Herausforderungen mit sich gebracht. Mithilfe von maschinellem Lernen und künstlicher Intelligenz können Unternehmen zukünftige Ergebnisse und Wahrscheinlichkeiten vorhersagen. Diese Technologien schaffen auch eine Menge neuer Datensätze. Wie sollen Unternehmen angesichts dieser neuen Vorhersagewerte über Governance nachdenken? Sollten für diese neuen Datensätze dieselben Richtlinien und Kontrollmechanismen gelten wie für die ursprünglichen Datensätze, oder sollten sie ihre eigenen Richtlinien für die Kontrolle haben? Wer sollte Zugang zu diesen Daten haben? Wie lange sollten sie aufbewahrt werden? Das sind alles Fragen, die berücksichtigt und beantwortet werden müssen.

Datenakkumulation und Organisationswachstum

Da die Infrastrukturkosten rapide sinken und Unternehmen sowohl organisch als auch durch die Übernahme zusätzlicher Geschäftsbereiche (mit ihren eigenen Datenspeichern) wachsen, wird das Thema Datenakkumulation und die richtige Reaktion auf die schnelle Anhäufung großer Datenmengen immer wichtiger. Mit der Datenanhäufung sammelt ein Unternehmen mehr Daten aus mehr Quellen und für mehr Zwecke.

Big Data ist ein Begriff, den du immer wieder hören wirst und der auf die riesigen (strukturierten und unstrukturierten) Datenmengen anspielt, die heute von vernetzten Geräten, Sensoren, sozialen Netzwerken, Clickstreams und so weiter gesammelt werden. Die Menge, Vielfalt und Geschwindigkeit der Daten hat sich in den letzten zehn Jahren verändert und beschleunigt. Die Bemühungen, diese Daten zu verwalten und sogar zu konsolidieren, haben zu Datensümpfen (ungeordnete und inkonsistente Datensammlungen ohne klare Kuration) und zu noch mehr Silos geführt - d.h. die Kunden entschieden sich für eine Konsolidierung auf System Applications and Products (SAP), dann für eine Konsolidierung auf Hive Metastore, und einige konsolidierten in der Cloud usw. Angesichts dieser Herausforderungen ist es kompliziert, zu wissen, was man hat, und diese Daten zu verwalten, aber es ist eine Aufgabe, der sich Unternehmen stellen müssen. Unternehmen dachten, dass der Aufbau eines Data Lakes alle ihre Probleme lösen würde, aber jetzt werden diese Data Lakes zu Datensümpfen mit so vielen Daten, dass es unmöglich ist, sie zu verstehen und zu verwalten. In einem Umfeld, in dem IDC vorhersagt, dass bis 2025 mehr als ein Viertel der erzeugten Daten in Echtzeit anfallen werden, wie können Unternehmen sicherstellen, dass sie auf diesen Paradigmenwechsel vorbereitet sind?

Daten in die Cloud verschieben

Traditionell befanden sich alle Daten in einer Infrastruktur, die von der Organisation bereitgestellt und gewartet wurde. Das bedeutete, dass die Organisation die volle Kontrolle über den Zugriff hatte und dass es keine dynamische gemeinsame Nutzung von Ressourcen gab. Mit dem Aufkommen von Cloud Computing - was in diesem Zusammenhang billige, aber gemeinsam genutzte Infrastrukturen bedeutet - müssen Organisationen über ihre Reaktion und ihre Investitionen in lokale und Cloud-Infrastrukturen nachdenken.

Viele große Unternehmen geben immer noch an, dass sie nicht vorhaben, ihre Kerndaten oder verwalteten Daten in absehbarer Zeit in die Cloud zu verlagern. Obwohl die größten Cloud-Anbieter Geld und Ressourcen in den Schutz von Kundendaten in der Cloud investiert haben, haben die meisten Kunden immer noch das Bedürfnis, diese Daten vor Ort zu speichern. Das ist verständlich, denn Datenschutzverletzungen in der Cloud haben mehr Konsequenzen. Der potenzielle Schaden, sowohl in finanzieller Hinsicht als auch für den Ruf, erklärt, warum Unternehmen mehr Transparenz bei der Governance zum Schutz ihrer Daten in der Cloud wünschen. Aufgrund dieses Drucks haben die Cloud-Unternehmen mehr Sicherheitsvorkehrungen getroffen. Sie müssen zeigen, wie die Governance umgesetzt wird, und Kontrollen anbieten, die nicht nur das Vertrauen der Kunden stärken, sondern ihnen auch ein gewisses Maß an Macht verleihen. Wir besprechen diese Themen in Kapitel 7.

Kompetenz in Sachen Dateninfrastruktur

Eine weitere Überlegung für Unternehmen ist die schiere Komplexität der Infrastrukturlandschaft. Wie denkst du über Governance in einer hybriden und Multi-Cloud-Welt? Hybrid Computing ermöglicht es Unternehmen, sowohl eine On-Premise- als auch eine Cloud-Infrastruktur zu nutzen, während Multicloud es ihnen ermöglicht, mehr als einen Cloud-Provider zu verwenden. Wie setzt du Governance im gesamten Unternehmen um, wenn sich die Daten sowohl vor Ort als auch in anderen Clouds befinden? Das macht Governance kompliziert und geht daher über die Tools hinaus, die zur Umsetzung verwendet werden. Wenn Unternehmen anfangen, über die Menschen, die Prozesse und die Werkzeuge nachzudenken und einen Rahmen zu definieren, der diese Aspekte umfasst, wird es etwas einfacher, die Governance auf On-Premises und in der Cloud auszuweiten.

Warum Data Governance in der Public Cloud einfacher ist

Data Governance bedeutet Risikomanagement. Der Praktiker muss immer einen Kompromiss zwischen der Sicherheit, die darin besteht, keinen Zugriff auf die Daten zuzulassen, und der Flexibilität, die möglich ist, wenn die Daten innerhalb des Unternehmens leicht verfügbar sind, um verschiedene Arten von Entscheidungen und Produkten zu unterstützen, finden. Die Einhaltung gesetzlicher Vorschriften schreibt oft die Mindestanforderungen für die Zugriffskontrolle, die Datenabfolge und die Aufbewahrungsrichtlinien vor. Wie in den vorangegangenen Abschnitten beschrieben, kann die Umsetzung dieser Richtlinien aufgrund von sich ändernden Vorschriften und organischem Wachstum eine Herausforderung darstellen.

Die öffentliche Cloud bietet mehrere Funktionen, die die Implementierung, Überwachung und Aktualisierung von Data Governance erleichtern. In vielen Fällen sind diese Funktionen in On-Premises-Systemen nicht verfügbar oder zu teuer.

Standort

DieDatenlokalität ist vor allem für globale Unternehmen relevant, die Daten auf der ganzen Welt speichern und nutzen, aber ein genauerer Blick auf die Vorschriften zeigt, dass die Situation nicht so einfach ist. Wenn du z. B. aus geschäftlichen Gründen ein Rechenzentrum an einem zentralen Ort (z. B. in den USA, in der Nähe deiner potenziellen Kunden) nutzen willst, dein Unternehmen aber ein deutsches Unternehmen ist, verlangen die Vorschriften, dass die Daten der Beschäftigten auf deutschem Boden bleiben.

Die Notwendigkeit, Nutzerdaten innerhalb der Grenzen der EU zu speichern, ist eine immer häufiger vorkommende gesetzliche Anforderung. Im Jahr 2016 verabschiedete das EU-Parlament Maßnahmen zur Datenhoheit im Rahmen der DSGVO, wonach die Speicherung und Verarbeitung von Daten über EU-Bürger/innen und -Einwohner/innen in einer Weise erfolgen muss, die dem EU-Recht entspricht. Bestimmte Datenkategorien (z. B. Gesundheitsdaten in Australien, Telekommunikations-Metadaten in Deutschland oder Zahlungsdaten in Indien) können auch den Vorschriften zur Datenlokalisierung unterliegen, die über bloße Souveränitätsmaßnahmen hinausgehen und vorschreiben, dass die gesamte Datenverarbeitung und -speicherung innerhalb der nationalen Grenzen erfolgen muss. Die großen öffentlichen Cloud-Provider bieten die Möglichkeit, deine Daten in Übereinstimmung mit diesen Vorschriften zu speichern. Es kann praktisch sein, einen Datensatz einfach als innerhalb der EU-Multiregion zu kennzeichnen und zu wissen, dass du sowohl Redundanz (weil es sich um eine Multiregion handelt) als auch Compliance (weil die Daten die EU nie verlassen) hast. Eine solche Lösung in deinem Rechenzentrum vor Ort zu implementieren, kann ziemlich schwierig sein, da es zu kostspielig ist, Rechenzentren an jedem souveränen Standort zu errichten, an dem du Geschäfte machen möchtest und an dem es örtliche Vorschriften gibt.

Ein weiterer Grund, warum der Standort wichtig ist, ist der sichere, transaktionsorientierte globale Zugang. Wenn deine Kunden reisen oder ihre eigenen Niederlassungen gründen, werden sie von dir verlangen, dass du ihnen Zugang zu Daten und Anwendungen gewährst, wo immer sie sich befinden. Das kann schwierig sein, wenn die Einhaltung von Vorschriften damit beginnt und endet, dass Anwendungen und Daten in regionalen Silos untergebracht werden. Du musst in der Lage sein, Compliance-Rollen nahtlos auf Basis von Benutzern und nicht nur von Anwendungen zuzuweisen. Wenn du deine Anwendungen in einer öffentlichen Cloud betreibst, die ihre eigenen privaten Glasfaserkabel betreibt und eine durchgängige physische Netzwerksicherheit und globale Zeitsynchronisation bietet (nicht alle Clouds bieten dies), vereinfacht das die Architektur deiner Anwendungen.

Reduzierte Oberfläche

In stark regulierten Branchen ist es von großem Vorteil, wenn es eine einzige "goldene" Quelle der Wahrheit für Datensätze gibt, insbesondere für Daten, die revisionssicher sein müssen. Wenn du dein Enterprise Data Warehouse (EDW) in einer öffentlichen Cloud hast, insbesondere in einer Umgebung, in der du die Berechnung von der Speicherung trennen und auf die Daten von ephemeren Clustern aus zugreifen kannst, hast du die Möglichkeit, verschiedene Data Marts für unterschiedliche Anwendungsfälle zu erstellen. Diese Data Marts werden mit Daten aus dem EDW versorgt, die on the fly erstellt werden. Es müssen keine Kopien aufbewahrt werden, und die Prüfung der Ansichten reicht aus, um die Nachvollziehbarkeit der Daten zu gewährleisten.

Das Fehlen einer permanenten Speicherung in diesen Data Marts wiederum vereinfacht ihre Verwaltung erheblich. Da es keine Speicherung gibt, ist die Einhaltung von Regeln zur Datenlöschung auf der Data Mart-Ebene trivial. Alle diese Regeln müssen nur im EDW durchgesetzt werden. Andere Regeln für die ordnungsgemäße Nutzung und Kontrolle der Daten müssen natürlich weiterhin durchgesetzt werden. Deshalb sprechen wir hier von einer reduzierten Oberfläche und nicht von Zero Governance.

Ephemeral Compute

Um eine einzige Datenquelle zu haben und trotzdem aktuelle und zukünftige Unternehmensanwendungen unterstützen zu können, müssen wir sicherstellen, dass die Daten nicht in einem Compute-Cluster gespeichert oder im Verhältnis dazu skaliert werden. Wenn unser Geschäft schnelllebig ist oder wenn wir interaktive oder gelegentliche Arbeitslasten unterstützen müssen, benötigen wir eine unbegrenzt skalierbare und leicht zu erweiternde Rechenkapazität, die von der Speicherung getrennt ist. Dies ist nur möglich, wenn unsere Datenverarbeitungs- und -analysearchitektur serverlos ist und/oder Rechenleistung und Speicherung klar voneinander trennt.

Warum müssen sowohl die Datenverarbeitung als auch die Analytik serverlos erfolgen? Weil der Nutzen von Daten oft erst dann erkannt wird, wenn eine Reihe von Aufbereitungs-, Bereinigungs- und Intelligenz-Tools auf sie angewendet werden. All diese Tools müssen die Trennung von Rechenleistung und Speicherung sowie die automatische Skalierung unterstützen, um die Vorteile einer serverlosen Analyseplattform zu nutzen. Es reicht nicht aus, nur ein serverloses Data Warehouse oder eine Anwendungsarchitektur zu haben, die um serverlose Funktionen herum aufgebaut ist. Auch deine Tooling-Frameworks müssen serverlos sein. Dies ist nur in der Cloud möglich.

Serverlos und leistungsfähig

In vielen Unternehmen ist nicht der Mangel an Daten das Problem, sondern die Verfügbarkeit von Werkzeugen, um Daten in großem Umfang zu verarbeiten. Die Aufgabe von Google, die Informationen der Welt zu organisieren, bedeutete, dass Google Methoden zur Datenverarbeitung entwickeln musste, einschließlich Methoden zur Sicherung und Kontrolle der verarbeiteten Daten. Viele dieser Forschungstools wurden durch den Einsatz in der Produktion bei Google gehärtet und sind in der Google Cloud als serverlose Tools verfügbar (siehe Abbildung 1-14). Äquivalente gibt es auch in anderen öffentlichen Clouds. Die Aurora-Datenbank auf Amazon Web Services (AWS) und Azure Cosmos DB von Microsoft sind zum Beispiel serverlos; S3 auf AWS und Azure Cloud Storage sind das Äquivalent zu Google Cloud Storage. Ebenso bieten Lambda auf AWS und Azure Functions die Möglichkeit, eine zustandslose serverlose Datenverarbeitung durchzuführen. Elastic Map Reduce (EMR) auf AWS und HDInsight auf Azure sind das Pendant zu Google Cloud Dataproc. Zum Zeitpunkt der Erstellung dieses Artikels ist die zustandslose Datenverarbeitung (Dataflow auf Google Cloud) in anderen öffentlichen Clouds noch nicht verfügbar, aber das wird sich im Laufe der Zeit sicherlich ändern. Diese Art von Funktionen sind vor Ort nur mit hohem Kostenaufwand zu implementieren, da Serverless-Tools effizient eingesetzt werden müssen und gleichzeitig die Last- und Datenverkehrsspitzen über Tausende von Workloads hinweg ausgeglichen werden müssen.

Abbildung 1-14. Viele der bei Google erfundenen Datenverarbeitungstechniken (oberes Feld; siehe auch http://research.google.com/pubs/papers.html) gibt es als verwaltete Dienste in der Google Cloud (unteres Feld).

Beschriftete Ressourcen

Public Cloud-Provider bieten eine granulare Kennzeichnung von Ressourcen an, um eine Vielzahl von Abrechnungsfragen zu unterstützen. So kann es sein, dass die Organisation, die Eigentümerin der Daten in einem Data Mart ist, nicht diejenige ist, die die Datenverarbeitung durchführt (und daher auch dafür bezahlt). Dies gibt dir die Möglichkeit, zusätzlich zu den ausgefeilten Kennzeichnungs- und Tagging-Funktionen dieser Plattformen die Einhaltung gesetzlicher Vorschriften zu gewährleisten.

Diese Fähigkeiten können die Möglichkeit beinhalten, Objekte zu entdecken, zu kennzeichnen und zu katalogisieren (frage deinen Cloud-Provider, ob dies der Fall ist). Es ist wichtig, Ressourcen nicht nur im Hinblick auf das Identitäts- und Zugriffsmanagement zu kennzeichnen, sondern auch im Hinblick auf Attribute, z. B. ob eine bestimmte Spalte in bestimmten Ländern als PII gilt. Dann ist es möglich, überall in deinem Unternehmen einheitliche Richtlinien auf all diese Felder anzuwenden.

Sicherheit in einer hybriden Welt

Der letzte Punkt über konsistente Richtlinien, die leicht anwendbar sind, ist entscheidend. Konsistenz und ein einziger Sicherheitsbereich sind die wichtigsten Vorteile, wenn du deine Unternehmenssoftware-Infrastruktur in der Cloud hostest. Ein solcher Alles-oder-Nichts-Ansatz ist jedoch für die meisten Unternehmen unrealistisch. Wenn dein Unternehmen Geräte (Handhelds, Videokameras, Registrierkassen usw.) "am Rand" betreibt, ist es oft notwendig, einen Teil deiner Software-Infrastruktur auch dort zu haben. Manchmal, wie z. B. bei Wahlcomputern, kann die Einhaltung gesetzlicher Vorschriften eine physische Kontrolle der verwendeten Geräte erfordern. Deine Altsysteme sind vielleicht noch nicht bereit, die Vorteile der Trennung von Rechenleistung und Speicherung, die die Cloud bietet, zu nutzen. In diesen Fällen würdest du gerne weiterhin vor Ort arbeiten. Systeme mit Komponenten, die in einer öffentlichen Cloud und an einem anderen Ort betrieben werden - in zwei öffentlichen Clouds, in einer öffentlichen Cloud und am Rand oder in einer öffentlichen Cloud und vor Ort - werden als Hybrid-Cloud-Systeme bezeichnet.

Es ist möglich, den Geltungsbereich deiner Cloud-Sicherheitsmaßnahmen und -richtlinien erheblich zu erweitern, indem du Lösungen einsetzt, die es dir ermöglichen, sowohl die lokale als auch die Cloud-Infrastruktur mit denselben Werkzeugen zu kontrollieren. Wenn du zum Beispiel eine lokale Anwendung und ihre Datennutzung geprüft hast, ist es einfacher, die identische Anwendung in der Cloud zu genehmigen, als eine umgeschriebene Anwendung erneut zu prüfen. Die Kosten für den Einstieg in diese Fähigkeit liegen in der Containerisierung deiner Anwendungen, die sich allein schon wegen der Governance-Vorteile lohnen könnte.

Zusammenfassung

Bei der Diskussion über eine erfolgreiche Data-Governance-Strategie geht es um mehr als nur um die Datenarchitektur/Datenpipeline-Struktur oder die Tools, die "Governance"-Aufgaben übernehmen. Auch die Menschen, die hinter den Governance-Tools stehen, und die "menschlichen Prozesse", die eingerichtet werden, sind sehr wichtig und sollten nicht außer Acht gelassen werden. Eine wirklich erfolgreiche Governance-Strategie muss sich nicht nur mit den Instrumenten befassen, sondern auch mit den Menschen und Prozessen. In den Kapiteln 2 und 3 werden wir diese Bestandteile der Data Governance erörtern.

In Kapitel 4 betrachten wir anhand eines beispielhaften Datenkorpus, wie Data Governance über den gesamten Lebenszyklus dieser Daten durchgeführt wird: von der Aufnahme über die Aufbereitung und Speicherung bis hin zur Einbindung in Berichte, Dashboards und maschinelle Lernmodelle sowie zu Aktualisierungen und eventueller Löschung. Ein zentrales Problem dabei ist, dass die Datenqualität ein ständiges Anliegen ist; es werden neue Datenverarbeitungsmethoden erfunden, und die Geschäftsregeln ändern sich. Wie du die kontinuierliche Verbesserung der Datenqualität handhaben kannst, wird in Kapitel 5 behandelt.

Bis 2025 werden voraussichtlich mehr als 25 % der Unternehmensdaten Streaming-Daten sein. In Kapitel 6 befassen wir uns mit den Herausforderungen bei der Verwaltung von Daten, die sich im Umlauf befinden. Bei Daten im Flug geht es um die Verwaltung von Daten an der Quelle und am Zielort sowie um alle Aggregationen und Manipulationen, die während des Fluges vorgenommen werden. Die Datenverwaltung muss sich auch mit den Herausforderungen von spät eintreffenden Daten befassen und damit, was es für die Korrektheit von Berechnungen bedeutet, wenn Speichersysteme nur bedingt korrekt sind.

In Kapitel 7 befassen wir uns mit dem Datenschutz und den verfügbaren Lösungen für Authentifizierung, Sicherheit, Backup und so weiter. Die beste Data Governance nützt nichts, wenn sie nicht überwacht wird und Lecks, Missbrauch und Unfälle nicht früh genug entdeckt werden, um sie einzudämmen. Die Überwachung wird in Kapitel 8 behandelt.

In Kapitel 9 schließlich fassen wir die Themen dieses Buches zusammen und behandeln bewährte Methoden zum Aufbau einer Datenkultur - einer Kultur, in der sowohl die Nutzer als auch die Möglichkeiten respektiert werden.

Eine Frage, die uns oft gestellt wird, ist, wie Google intern Data Governance betreibt. In Anhang A zeigen wir am Beispiel von Google (das wir gut kennen), wie ein Data-Governance-System funktioniert, und erläutern die Vorteile und Herausforderungen der Ansätze, die Google verfolgt, sowie die Zutaten, die das alles möglich machen.

1 Leandro DalleMule und Thomas H. Davenport, "What's Your Data Strategy?" Harvard Business Review (Mai-Juni 2017): 112-121.

2 Bei dieser Anwendung handelt es sich um das Meteorological Phenomena Identification Near the Ground (mPING) Project, das im Rahmen einer Partnerschaft zwischen dem NSSL, der University of Oklahoma und dem Cooperative Institute for Mesoscale Meteorological Studies entwickelt wurde.

3 Es war im Radio, aber du kannst es auch auf dem NPR Blog All Tech Considered nachlesen.

4 David Reinsel, John Gantz und John Rydning, "The Digitization of the World: Vom Rand zum Kern", November 2018.

5 "The Best Aufträge in the US: 2019", Indeed, 19. März 2019.

6 Reinsel et al. "Die Digitalisierung der Welt".

7 Kaggle: NFL Big Data Bowl.

8 Reinsel et al. "Die Digitalisierung der Welt".

9 Aarian Marshall und Alex Davies, "Uber's Self-Driving Car Saw the Woman It Killed, Report Says", Wired, 24. Mai 2018.

10 Jonathan Shaw, "Artificial Intelligence and Ethics", Harvard Magazine, Januar-Februar 2019, 44-49, 74.

11 "Information on the Capital One Cyber Incident", Capital One, aktualisiert am 23. September 2019; Brian Krebs, "What We Can Learn from the Capital One Hack", Krebs on Security (Blog), 2. August 2019.

12 Siehe z.B. das Buch Dark Data: Why What You Don't Know Matters von David Hand (Princeton University Press).

13 David Winkler, "AIS Data Quality and the Authoritative Vessel Identification Service (AVIS)" (PowerPoint Präsentation, National GMDSS Implementation Task Force, Arlington, VA, 10. Januar 2012).

Get Data Governance: Der endgültige Leitfaden now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.