Kapitel 1. Einführung in Datenkataloge
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
In diesem Kapitel erfährst du, wie ein Datenkatalog funktioniert, wer ihn benutzt und warum. Zunächst gehen wir auf die Kernfunktionen eines Datenkatalogs ein und erklären, wie er einen Überblick über die IT-Landschaft deines Unternehmens schafft, wie die Daten organisiert sind und wie er die Suche nach deinen Daten erleichtert. Die Suche wird als Teil eines Datenkatalogs oft nicht ausreichend genutzt und unterbewertet, was ein großer Nachteil für Datenkataloge ist. Deshalb werden wir über deinen Datenkatalog als Suchmaschine sprechen, die das Potenzial für deinen Erfolg freisetzen wird.
In diesem Kapitel erfährst du auch, welche Vorteile ein Datenkatalog in einem Unternehmen hat: Ein Datenkatalog verbessert die Auffindbarkeit von Daten, was wiederum die Data Governance sicherstellt und datengetriebene Innovationen fördert. Außerdem erfährst du, wie du ein Data Discovery Team einrichtest und wer die Nutzer deines Datenkatalogs sind. Zum Abschluss dieses Kapitels erkläre ich dir die Rollen und Verantwortlichkeiten im Datenkatalog.
Okay, los geht's.
Die Kernfunktionalität eines Datenkatalogs
Unter ist ein Datenkatalog im Kern eine organisierte Bestandsaufnahme der Daten in deinem Unternehmen. Das war's.
Der Datenkatalog bietet nur einen Überblick auf der Ebene der Metadaten, d.h. es werden keine tatsächlichen Datenwerte angezeigt. Das ist der große Vorteil eines Datenkatalogs: Du kannst alles für alle sichtbar machen, ohne Angst zu haben, dass vertrauliche oder sensible Daten preisgegeben werden. In Abbildung 1-1 siehst du eine Beschreibung eines Datenkatalogs auf hoher Ebene.
Ein Datenkatalog ist im Grunde eine Datenbank mit Metadaten, die aus Datenquellen in der IT-Landschaft eines bestimmten Unternehmens gepusht oder gezogen wurden. Der Datenkatalog enthält auch eine Suchmaschine, mit der du die aus den Datenquellen gesammelten Metadaten durchsuchen kannst. Ein Datenkatalog wird fast immer noch viel mehr Funktionen haben, aber Abbildung 1-1 zeigt die notwendigen Kernkomponenten. Und in diesem Buch behaupte ich, dass die Suchfunktion die wichtigste Funktion von Datenkatalogen ist.
In diesem Abschnitt werden wir die drei Hauptmerkmale des Datenkatalogs besprechen: Er schafft einen Überblick über die Daten in deiner IT-Landschaft, er organisiert deine Daten und er ermöglicht es dir, deine Daten zu durchsuchen. Werfen wir einen kurzen Blick darauf, wie Datenkataloge das tun.
Hinweis
Mit einem Datenkatalog erhält dein gesamtes Unternehmen die Möglichkeit, die Daten zu sehen, über die es verfügt. Richtig eingesetzt, kann diese Transparenz sehr nützlich sein. So müssen Datenwissenschaftler/innen nicht mehr die Hälfte ihrer Zeit mit der Suche nach Daten verbringen und haben einen viel besseren Überblick über die Daten, die wirklich einen Wert darstellen. Stell dir die Möglichkeiten vor. Sie könnten ihre neu gewonnene Zeit nutzen, um diese Daten zu analysieren und Erkenntnisse zu gewinnen, die dem Unternehmen helfen, bessere Produkte zu entwickeln!
Erstelle einen Überblick über die IT-Landschaft
Unter kannst du dir einen Überblick über deine IT-Landschaft verschaffen, indem du alle darin enthaltenen Datenquellen auffindest und anzeigst sowie die Personen oder Rollen auflistest, die mit ihnen verbunden sind.
Ein Datenkatalog kann Metadaten mit einem eingebauten Crawler beziehen, der deine IT-Landschaft durchsucht. Alternativ können Metadaten auch gepusht werden, indem deine Datensysteme Metadaten an deinen Katalog melden. Wir werden in den Kapiteln 2 und 6 ausführlicher auf Push und Pull eingehen.
Die IT-Landschaft, die sich in deinem Datenkatalog widerspiegelt, wird mit geschäftlicher Terminologie in Form von "Tags"-Begriffen versehen, die im Datenkatalog erstellt und in Glossaren organisiert werden. Wir werden in Kapitel 2 auf Glossarbegriffe eingehen und in Kapitel 3 erklären, wie du mit ihnen suchen kannst. Neben den Glossarbegriffen kannst du die Assets deines Datenkatalogs auch mit Metadaten anreichern, die zusätzliche Beschreibungen, Klassifizierungen und vieles mehr enthalten.
Außerdem sind in einem Datenkatalog verschiedene Rollen und Berechtigungen eingebaut, z. B. Datenverwalter, Dateneigentümer (Datenkataloge haben unterschiedliche Rollentypen) und andere Rollen, die alle bestimmte Aufgaben im Datenkatalog ausführen. Ich werde diese Rollen am Ende dieses Kapitels beschreiben.
Sobald du deine IT-Landschaft gezogen/geschoben und ihr ausgewählte Begriffe, andere Metadaten und Rollen zugewiesen hast, ist sie im Katalog durchsuchbar.
Kein Mitarbeiter kann alle Daten in der IT-Landschaft sehen. Und was noch verwirrender ist: Kein Mitarbeiter kann sehen, welche Daten andere sehen können. Im Grunde genommen weiß niemand über alle Daten in der IT-Landschaft Bescheid: Sie ist undurchsichtig.1 Diese Realität wird auch als Datensilos bezeichnet.
Hinweis
Datensilos entstehen, wenn mehrere Gruppen von Beschäftigten mit ihren eigenen Daten in ihren eigenen Systemen arbeiten, isoliert und ohne Kenntnis der Daten im Rest des Unternehmens.
Dieser Zustand - die Datensilos - ist in vielen Unternehmen die Ursache für eine ganze Reihe von Problemen, die der Datenkatalog anspricht und letztlich löst. Zu diesen Problemen gehören Datenanalysen, die auf Daten angewandt werden, denen es an Qualität mangelt, unvollständige Datensätze und Daten ohne Sicherheits- und Sensibilitätskennzeichnungen.
Tipp
Diese Perspektive kann auch umgedreht werden: Datensilos sind miteinander verbunden, aber niemand kann es sehen oder weiß wie. Das macht den Zustand der Datensilos noch gefährlicher, aber wie du sehen wirst, können die Funktionen des Datenkatalogs dabei helfen, die Daten abzubilden.
Im Datenkatalog ist die Situation genau umgekehrt wie in der IT-Landschaft. Alles im Datenkatalog ist für alle Mitarbeiter/innen sichtbar. Jeder kann alles sehen - auf der Ebene der Metadaten. Dementsprechend können sich alle Beschäftigten anhand der Metadaten ein Bild von allen Daten in ihrem Unternehmen machen. Sie sind sich der Daten außerhalb ihres eigenen, nun vergangenen Datensilos bewusst.
Je mehr sich der Datenkatalog ausweitet, desto mehr kann jeder sehen. Wenn du jetzt denkst, dass ein Datenkatalog ein bemerkenswertes Potenzial hat, liegst du nicht falsch - und du wirst das Ausmaß dieses Potenzials in diesem Buch entdecken.
Aus meiner Erfahrung heraus schlage ich vor, dass du die Daten in einem Datenkatalog wie folgt organisierst.
Daten organisieren
Während die IT-Landschaft durchforstet, organisiert ein Datenkatalog die Metadaten für Dateneinheiten innerhalb der Landschaft als Assets, die zu einer Datenquelle gehören, und speichert sie in Domänen. Dabei spielst du jedoch eine große Rolle: Du musst die Domänen und einen Teil der Metadaten, die den Assets zugewiesen werden, entwerfen. Und bedenke, dass die meisten Datenkataloge diesen Prozess automatisieren - es sollte keine manuelle Aufgabe sein, den Assets Metadaten hinzuzufügen.
Was ist ein Asset? Ein Asset ist eine Einheit von Daten, die in deiner IT-Landschaft existiert. Dabei kann es sich um eine Datei, einen Ordner oder eine Tabelle handeln, die in einer Datenquelle wie einer Anwendung oder einer Datenbank gespeichert ist, usw. Assets sind z.B. Dokumente in einem Data Lake, SQL-Tabellen in einer Datenbank und so weiter. Wenn der Datenkatalog Metadaten über ein Asset sammelt, egal ob durch Push- oder Pull-Methoden, erhält er Informationen wie den Namen des Assets, das Erstellungsdatum, den Eigentümer, den Spaltennamen, den Schemanamen, den Dateinamen und die Ordnerstruktur. Insgesamt hängen die gesammelten Metadaten von der Datenquelle und den darin befindlichen Daten ab. Du musst dem Asset Metadaten hinzufügen, die über das hinausgehen, was durch die Push/Pull-Operation erfasst wurde. Mehr darüber erfahren wir in Kapitel 5.
Und, was ist eine Datenquelle? Einfach ausgedrückt: Eine Datenquelle ist der Ort, an dem die Daten, die auf Metadatenebene im Datenkatalog veröffentlicht werden, entstehen. Dabei kann es sich um ein IT-System, eine Anwendung oder eine Plattform handeln, aber auch um eine Tabellenkalkulation. Im Kontext dieses Buches ist die Art der Datenquelle irrelevant, da alle Datenquellen auf dieselbe Weise behandelt werden können.
Du musst dir darüber im Klaren sein, dass Datenkataloge, die IT-Landschaften crawlen (d.h. die pullen, nicht pushen), mit Standardkonnektoren zu nur einer ausgewählten Gruppe von Datenquellen ausgestattet sind. Nicht alles kann also vom Datenkatalog gecrawlt werden. Daher müssen nützliche Daten manchmal manuell von Stewards oder anderen Fachleuten eingegeben werden.
Eine Domain ist eine Gruppe von Werten, die logisch zusammengehören. Diese Werte können aus einer oder mehreren Datenquellen stammen. Ein Bereich mit Finanzdaten kann zum Beispiel sowohl analytische Datenquellen als auch Budgetdatenquellen enthalten. Es ist wichtig, dass du deine Domänen sorgfältig definierst, denn sie sollten für Mitarbeiter/innen außerhalb der Domäne intuitiv sein - und sie sollten für diese Mitarbeiter/innen interessant zu erkunden sein - ein Datenkatalog ist ein erster Schritt, um Datensilos zu durchbrechen!
Hinweis
Bislang wurden Datenkataloge nur in der Datenmanagement-Literatur beschrieben. In dieser Literatur bezieht sich das Verständnis von Domänen ausschließlich auf domain-driven design (DDD), als Versuch, das DDD-Denken auf die Abbildung von Daten in der gesamten IT-Landschaft auszuweiten. In diesem Buch wird das Domänendenken auf die jahrhundertelange Tradition der Domänenstudien in der Informationswissenschaft ausgeweitet. Dadurch erhältst du ein tieferes, funktionaleres Verständnis von Domänen als in der normalen Datenmanagement-Literatur - all das findest du in Kapitel 2.
Nachdem du jetzt eine bessere Vorstellung davon hast, wie Assets, Datenquellen und Domänen funktionieren, sehen wir uns ein paar Beispiele an, wie sie alle zusammenpassen. Abbildung 1-2 zeigt eine Tabelle in einer Datenbank (in einem Datenkatalog auch als Datenquelle bezeichnet) und wie sie als Asset im Datenkatalog sichtbar ist.
Wie du auf der rechten Seite der Abbildung sehen kannst, sind keine Werte im Asset im Datenkatalog enthalten. In diesem Fall sind die sensiblen Daten - die Kundennamen - im Datenkatalog nicht sichtbar, da sie in der Datenquelle enthalten sind. Im Datenkatalog wird nur der Spaltenname angezeigt. Auf diese Weise kann jeder alles im Datenkatalog sehen. Es sind die tatsächlichen Werte in z.B. Tabellen, die bisher einen vollständigen Überblick über die Daten in deinem Unternehmen verhindert haben. Mit dem Datenkatalog sind diese Zeiten vorbei, und du kannst datengetriebene Innovationen anstoßen und die Datenverwaltung verbessern.
Warnung
Datensatznamen, Spaltennamen und andere im Datenkatalog sichtbare Metadaten können auch sensible oder vertrauliche Daten enthalten. Wenn du Metadaten in deinen Datenkatalog schiebst oder ziehst, müssen Methoden vorhanden sein, die sicherstellen, dass solche Metadaten für die Benutzer des Datenkatalogs nicht sichtbar sind.
Du kannst deinem Asset - in diesem Fall einer Tabelle - Metadaten hinzufügen, sowohl auf Tabellenebene als auch für jede Spalte. Jedes Stück Metadaten, das du deinem Asset hinzufügst, verleiht ihm einen Kontext, der für das Wissensuniversum deines Unternehmens relevant ist. Dadurch wird dein Asset besser durchsuchbar. In Kapitel 2 erfahren wir mehr darüber, wie du sie organisierst und in Kapitel 3, wie du nach ihnen suchst.
Außerdem ist es wichtig zu verstehen, dass Vermögenswerte in vertikalen, horizontalen und relationalen Strukturen organisiert werden sollten, wie in Abbildung 1-3 und ausführlicher in Abbildung 2-12 in Kapitel 2 zu sehen ist.
Die vertikale Organisation ermöglicht es dir, genau zu bestimmen, welche Art von Daten dein Asset repräsentiert. Dies wird durch Domänen und Subdomänen erreicht. Im Asset Produktverkaufsdetails in Abbildung 1-3 gibt die vertikale Organisation an, aus welchem Teil des Unternehmens die Daten stammen, z. B. aus dem Finanzbereich.
Die horizontale Organisation der Assets ermöglicht es dir darzustellen, wie sich das Asset in deiner IT-Landschaft bewegt. Dies geschieht mit data lineage. Die Datenabfolge zeigt, wie die Daten von System zu System wandern und idealerweise auch, wie die Daten dabei umgewandelt werden. In den Produktverkaufsdetails in Abbildung 1-3 würde die Datenabfolge zum Beispiel zeigen, dass der Datensatz in einer Datenbank liegt und in einem Business Intelligence (BI)-Bericht verwendet wird.
Die relationale Organisation von Assets zeigt, wie Teile eines Assets mit anderen Assets zusammenhängen, und kann diese Beziehungen in einer Diagrammdatenbank darstellen, wenn sie korrekt ausgeführt wird. In den Produktverkaufsdetails in Abbildung 1-3 könnte die relationale Organisation der Spalte "Größe" zum Beispiel mit anderen Volumenkennzahlen in anderen Assets in Beziehung stehen, z. B. aus den Herstellungsdaten, die sich auf die Volumenkapazität der Maschinen beziehen, usw.
Ein vollständig organisierter Tabellenbestand in einem Datenkatalog ist in Abbildung 1-3 dargestellt.
Wenn du deine Bestände in ordentlichen vertikalen, horizontalen und relationalen Strukturen organisiert hast (Beispiele dafür findest du in Kapitel 2), könntest du versucht sein zu denken, dass deine Arbeit getan ist und du nicht mehr an deinem magischen Datenkatalog arbeiten musst. Das ist aber nicht der Fall! Du solltest einen Datenkatalog nicht als ein Repository betrachten, das nur einmal organisiert werden muss. Du solltest immer offen dafür sein, deine Daten neu zu organisieren und die Qualität und den Umfang der Metadaten zu verbessern. Damit sorgst du nicht nur für Ordnung, sondern optimierst auch deine Daten für die Suche.
Werfen wir also einen ersten Blick auf die Suche in einem Datenkatalog.
Suche nach Unternehmensdaten aktivieren
Die Suche ist eine der wichtigsten Funktionalitäten eines Datenkatalogs. Sie wird oft nur als eine Funktion behandelt, aber sie kann so viel mehr sein, wenn du sie zum treibenden Faktor deiner Datenkatalogstrategie machst. Stell dir deinen Datenkatalog als eine Suchmaschine vor, die du auch im Internet benutzen würdest. Ein Datenkatalog und eine Web-Suchmaschine sind sich insofern ähnlich, als sie beide ihre Landschaften durchforsten und indexieren und es dir ermöglichen, diese Landschaften zu durchsuchen. Der Hauptunterschied besteht darin, dass eine Web-Suchmaschine das Internet als Landschaft abdeckt, während ein Datenkatalog die IT-Landschaft deines Unternehmens abdeckt.
Wie sieht es also aus, wenn du deinen Datenkatalog wie eine Suchmaschine behandelst? Schauen wir uns das einmal in Aktion an.
Hinweis
In diesem Buch werden wir uns den Datenkatalog von Hugin & Munin ansehen. Hugin & Munin ist ein fiktives skandinavisches Architekturbüro, das sich auf nachhaltiges Bauen spezialisiert hat und Holz aus Wäldern in der Nähe seiner Baustellen verwendet.
Im Hugin & Munin-Datenkatalog geht es darum, Daten zu organisieren und nach ihnen zu suchen. Abbildung 1-4 zeigt die Oberfläche des Hugin- und Munin-Katalogs. In der Suchleiste kannst du Begriffe eingeben, um eine normale Suche im Datenkatalog durchzuführen, aber du kannst auch auf die Schaltfläche Erweitert klicken, um eine detailliertere Suche durchzuführen. Mit der Lupe kannst du die Browserfunktion nutzen, und ein Bücherstapel-Symbol gibt dir Zugang zu den Glossaren. Beachte, dass diese Funktion den meisten gängigen Suchmaschinen im Internet sehr ähnlich sieht.
Schauen wir uns an, wie du diesen Datenkatalog verwenden könntest. Angenommen, du bist ein Mitarbeiter von Hugin & Munin und hörst in der Mittagspause eine Gruppe von Leuten in der Kantine.2 Sie sprechen über einen cleveren Datenwissenschaftler namens Kris und erwähnen, dass er ein Asset Steward für einige SQL-Tabellen im Datenkatalog deines Unternehmens ist (über Asset Stewards erfährst du später in diesem Kapitel; im Moment ist das nicht wichtig). Solche SQL-Tabellen könnten in den Projekten, an denen du gerade arbeitest, nützlich sein. Bevor du die Gruppe fragen kannst, wie du Kris kontaktieren kannst, haben sie ihr Essen eingesammelt und die Kantine verlassen. Zurück an deinem Schreibtisch, durchsuchst du den Datenkatalog wie in Abbildung 1-5 dargestellt.
Diese Suche liefert eine enorme Anzahl von Treffern. Der Kris, den du suchst, ist höchstwahrscheinlich irgendwo da drin, aber es gibt zu viele ungenaue Treffer, um sie alle durchzugehen. Stattdessen grenzt du die Suche ein und suchst nur nach Vermögensverwaltern, wie in Abbildung 1-6 dargestellt.
Das ist auf jeden Fall besser, aber es gibt immer noch so viele verschiedene Personen mit dem Namen Kris, dass du einen anderen Weg brauchst, um das zu finden, wonach du suchst. Vielleicht kannst du im zentralen Glossar nach dem Begriff "Datenwissenschaft" suchen? Du versuchst es, wie in Abbildung 1-7 dargestellt.
Und du erhältst tonnenweise Treffer. Aber halt! Du kannst nach Asset-Typen filtern, und du erinnerst dich an die Gruppe von Leuten, die SQL-Tabellen erwähnen. Du filterst nach SQL-Tabellen, die mit dem Begriff "Data Science" gekennzeichnet sind. Und dann kommst du auf die Idee, diese Treffer alphabetisch nach dem Asset Steward zu ordnen - ja! Und schon siehst du die Assets, die mit Kris verbunden sind, auf dem Bildschirm! Sie sind alle schön geordnet; jede Spalte in den SQL-Tabellen wurde mit Beschreibungen und Glossarbegriffen versehen. Du möchtest dir diese Daten unbedingt ansehen, also drückst du auf die Schaltfläche "Zugriff anfordern", die Kris für deine Anfrage anpingt. Du warst erfolgreich. Dann stellst du fest, dass du einfach eine erweiterte Suche auf wie in Abbildung 1-8 hättest verwenden können.
In diesem Beispiel hast du einen kleinen Einblick in die Funktionsweise der Suche bekommen, aber die Suche wird in Kapitel 3 ausführlich beschrieben. Je besser deine Daten durchsuchbar sind, desto mehr ermöglichst du den einen großen Vorteil eines Datenkatalogs: das Auffinden von Daten.
Datenentdeckung
Ein Datenkatalog ermöglicht es allen Mitarbeitern, alle Daten in ihrem Unternehmen zu durchsuchen. Das Suchen und Finden von Daten wird data discovery genannt, und genau darum geht es bei einem Datenkatalog.
Dennoch wird Data Discovery selten als Suche nach Daten verstanden, sondern oft als Suche in Daten, in Datenbanken, um neue Erkenntnisse über Kunden, Produkte usw. zu gewinnen.
Die Suche nach Daten kann durch zufällige Gespräche mit Kollegen oder aus dem Gedächtnis erfolgen oder sie kann strukturiert sein, d.h. die Suche nach Daten erfolgt auf formalisierte Weise in einer Lösung, die für die Suche nach Daten entwickelt wurde,3 zum Beispiel in einem Datenkatalog. Der Unterschied zwischen der Suche nach Daten und der Suche in Daten erscheint dir vielleicht nicht sehr wichtig - ist er aber! Und wir werden ihn in Kapitel 3 ausführlich besprechen.
Vereinfacht gesagt, beginnt die Datenermittlung damit, dass man herausfindet, dass bestimmte Daten überhaupt existieren, und nicht damit, was in ihnen enthalten ist. Wenn du deinen Datenkatalog erst einmal zum Laufen gebracht hast, wirst du die Datenermittlung in Daten exponentiell beschleunigen, denn die vorausgehende Suche nach Daten ist mit einem Datenkatalog deutlich effektiver als ohne.
Die Suche nach Daten in einem Datenkatalog hat einen bestimmten Zielzustand: ambient findability. Dieser Begriff wurde von Peter Morville in der ersten Literatur geprägt, die ein intellektuelles Licht auf die leistungsstarken Suchmaschinen im Web warf, die in den Jahren 1995-2005 aufkamen:
Ambient Findability beschreibt eine sich schnell entwickelnde Welt, in der wir jeden oder alles von überall und jederzeit finden können.4
Heute sind Datenkataloge das betriebliche Äquivalent zu Web-Suchmaschinen. Und auch Datenkataloge sollten sich um eine gute Auffindbarkeit bemühen. So reibungslos muss das Auffinden von Daten sein: In deinem Datenkatalog solltest du jeden oder alles von überall her und zu jeder Zeit finden können - in deinem Unternehmen.
Hinweis
Die Auffindbarkeit in der Umgebung hat nichts damit zu tun, wie du in Daten suchst. Die Suche in Daten ist so raffiniert und subtil, dass sich daraus ein ganzer Bereich entwickelt hat: die Datenwissenschaft. Ich erkläre das ausführlich in Kapitel 3.
Die Datenerkennung in einem Datenkatalog dient zwei Zwecken:
-
Datenanalytik
-
Datenverwaltung
DieDatenanalyse, die durch einen Datenkatalog unterstützt wird, ist ziemlich einfach: Datenwissenschaftler - Analysten und ähnliche Profile - brauchen alle Daten. Ohne einen einheitlichen, globalen Überblick über alle Daten in deinem Unternehmen arbeiten diese hochbezahlten Mitarbeiter nur mit den Daten, die sie zufällig kennen - in ihrem Datensilo - und nicht mit den Daten, die am besten zu dem passen, was sie tun wollen. Mit einem Datenkatalog kannst du das ändern und einen vollständigen Überblick über alle Daten in deinem Unternehmen schaffen. Das bedeutet, dass datengetriebene Innovationen schneller und mit einem wesentlich höheren Nutzen umgesetzt werden können.
Die von einemDatenkatalog unterstützteData Governance hat viele Vorteile, auf die ich in Kapitel 4 näher eingehen werde. Der wichtigste ist die Möglichkeit, alle Daten in deiner IT-Landschaft sowohl in Bezug auf ihre Sensibilität als auch auf ihre Vertraulichkeit zu klassifizieren. Dies ist von großem Wert für deinen Datenschutzbeauftragten (DSB) und deinen Chief Information Security Officer (CISO) - ja, für dein gesamtes Unternehmen. Ein Datenkatalog wendet Regeln auf seine Pull/Push-Fähigkeit an, so dass allen Assets automatisch eine Sensibilitäts- und Vertraulichkeitsklassifizierung zugewiesen wird. In Kapitel 2 erfährst du mehr darüber. Erinnere dich einfach daran, dass die automatische Einstufung von Sensibilität und Vertraulichkeit direkt in deiner IT-Landschaft eine faszinierende Funktion ist, die sich leicht verkaufen lässt.
Tipp
Datenkataloge werden auch von Menschen genutzt, die nicht viele technische Kenntnisse haben; ich spreche im Folgenden über sie als alltägliche Endnutzer.
Das Data Discovery Team
Ein Datenmanagementauftrag - einschließlich der Verwaltung eines Datenkatalogs - ist nicht die Aufgabe einer Person allein. Vielmehr ist es die Arbeit eines ganzen Teams, das den Datenkatalog in deinem Unternehmen einführt, pflegt und seine Nutzung fördert. Obwohl du dieses Team dein Datenkatalogteam nennen könntest, empfehle ich dir, es stattdessen dein Datenentdeckungsteam zu nennen. Damit sagst du nicht nur, welche Technologie du verwendest, sondern auch, welche Leistung du erbringst, nämlich die Datenermittlung.
Tipp
Data-Discovery-Teams können sich ausschließlich auf Datenkataloge oder auf alle Metadaten-Repositories konzentrieren. Du solltest dich für Letzteres entscheiden: Vorzugsweise besitzt und pflegt das Data-Discovery-Team alle Metadaten-Repositories wie die CMDB (Configuration Management Database), das Data-Sharing-Agreement-System usw., die alles innerhalb der IT-Landschaft beschreiben. Auf diese Weise kann es die Datenermittlung aus der Gesamtheit der Quellen fördern, wenn diese auf Metadatenebene offengelegt sind.
Wer arbeitet in einem Data Discovery Team? Du kannst die Mitglieder eines Data Discovery Teams in zwei grundlegende Profile einteilen: Architekten für das Frontend und Ingenieure für das Backend.
Datenarchitekten
Ein Datenarchitekt berät alle Endnutzer des Datenkatalogs und arbeitet im Datenkatalog-Frontend. Datenarchitekten beraten in bestimmten Zusammenhängen bei der Organisation von Daten und deren Suche. Sie tragen die letzte Verantwortung für die Karte der IT-Landschaft in logischen Domänen und überwachen die Erweiterung der Karte entsprechend dieser Struktur. Datenarchitekten sind für die Überwachung des Lebenszyklus von Assets verantwortlich. In diesem Zusammenhang stellen sie sicher, dass keine Daten ohne die ihnen zugewiesenen Rollen bleiben und dass die Aufbewahrungsfristen für die Daten korrekt verwaltet werden.
Eine zeitaufwändige Aufgabe für Datenarchitekten ist es, die Endnutzer dazu zu erziehen, unabhängig zu sein und nur mit einem Minimum an Unterstützung durch das Data Discovery Team selbst zu arbeiten. Dementsprechend entwerfen und unterrichten Datenarchitekten Kurse im Datenkatalog darüber, wie man Daten organisiert und durchsucht:
- Daten organisieren
-
Unter findest du Themen, die es den Endnutzern ermöglichen, ihre Datenquellen im Katalog selbst hinzuzufügen und zu verwalten, wie z.B:
-
Pushing/Pulling von Datenquellen in den Datenkatalog. Dazu gehört es, die Datenquelle zu identifizieren, ihr alle Rollen zuzuweisen und Regeln für die automatische Klassifizierung der Daten zu verwenden. (Auf Rollen und Verantwortlichkeiten gehen wir später in diesem Kapitel ein).
-
Entwicklung und Anwendung automatisierter Prozesse zum Hinzufügen von Metadaten zu Assets. Zum Beispiel Beschreibungen und Terminologie aus den Glossaren, entweder über die Nutzung von APIs oder über integrierte Funktionen im Frontend des Datenkatalogs.
-
Glossarbegriffe erstellen und verwalten.
-
- Daten suchen
-
Dazu gehört auch, dass du den Endnutzern beibringst, wie man Daten mit Techniken wie:
-
Einfache Suche, was sie tut und wie du sie nutzen kannst. Höchstwahrscheinlich wird die einfache Suche nicht so reibungslos und intuitiv sein wie die Suchmaschinen im Internet, aber es gibt Möglichkeiten, sich diesem Zustand anzunähern.
-
Durchsuchen in allen Dimensionen, d.h. vertikal in Domänen und Subdomänen, horizontal in der Datenabfolge und relational in assoziativen Strukturen, die mit deinem Asset verbunden sind.
-
Die Information Retrieval Query Language (IRQL), die hinter der erweiterten Suchfunktion steht, und was diese Abfragesprache im Vergleich zur einfachen Suche und zum Browsen ermöglicht und was nicht.
-
Darüber hinaus können den Datenarchitekten zwei zusätzliche Aufgaben zugewiesen werden, wenn das Data Discovery Team eher auf Data Governance ausgerichtet ist:
- Second-Level-Support im gesamten Unternehmen bei behördlichen Inspektionen leisten
-
Wenn der Datenkatalog in einer stark regulierten Branche verwendet wird, kann er ein mächtiges Werkzeug sein, um komplexe Fragen von Inspektoren zu beantworten. Fragen, die von einer Kontrollbehörde gestellt werden, unterliegen in der Regel kurzen Fristen - sie brauchen schnelle Antworten. Jede Abteilung sollte in der Lage sein, ihre eigenen Daten im Datenkatalog zu suchen und Fragen während der Inspektionen zu beantworten. Wenn sie jedoch nicht finden können, wonach sie suchen, fungiert der Datenkatalogverwalter als Second-Level-Support, der in der Lage ist, absolut alles im Datenkatalog zu suchen.
- Ausführen oder Entwerfen von Abfragen, um alle rechtlichen Verpflichtungen im Unternehmen zu erfüllen
-
Nach den US Federal Rules of Civil Procedure ist ein Unternehmen gesetzlich verpflichtet, Daten, sogenannte elektronisch gespeicherte Informationen (ESI), nicht zu löschen. Dazu müssen die Daten identifiziert und vor der Löschung gesperrt werden. Daher kann ein Datenkatalog eine wichtige Rolle bei der korrekten Adressierung und Durchsetzung von Legal Holds spielen.
Schließlich pflegen die Datenarchitekten den konzeptionellsten Überblick über den Datenkatalog, das sogenannte Metamodell. Ein Beispiel für ein Metamodell siehst du in Abbildung 1-9. Das Metamodell ist das Modell, das einen Überblick über alle Entitäten des Datenkatalogs gibt. Das Metamodell enthält auch alle Beziehungen zwischen den Entitäten. Abteilungen haben zum Beispiel Mitarbeiter, führen Prozesse durch und werden durch Technologie unterstützt. Im Grunde legt das Metamodell fest, wie du deinen Datenkatalog auf der Grundlage von konzeptionellen Metadatenstrukturen physisch strukturieren kannst.
Betrachte das Metamodell in Abbildung 1-9. In diesem hypothetischen Beispiel hat ein Unternehmen zwei Entitäten, Abteilungen und Domänen. Abteilungen und Bereiche sind nicht gleich, wie wir in Kapitel 2 erläutern werden. Eine Abteilung besteht aus Menschen, führt einen Prozess durch und wird durch Technologie unterstützt. Außerdem verfügt eine Abteilung über eine Fähigkeit. Die Fähigkeit definiert eine Domäne, und die Domäne gruppiert die Daten, die die Technologie enthält.
Auf den ersten Blick mag ein Metamodell Schwindelgefühle auslösen. Aber das Metamodell ist dazu da, die Daten, die im Datenkatalog dargestellt sind, bestmöglich zu strukturieren. Es ordnet die Daten nach ihren wichtigsten Dimensionen, damit sie so einfach wie möglich zu finden sind.
Die Metamodelle unterscheiden sich von Anbieter zu Anbieter erheblich, von sehr einfachen Metamodellen bis hin zu sehr komplexen Modellen. Einfache Metamodelle sind nicht weniger wünschenswert als komplexe; sie haben beide Vor- und Nachteile. Einfache Metamodelle erleichtern die Implementierung deines Datenkatalogs, können aber auf lange Sicht Schwächen in Bezug auf die Verfeinerung der Organisation deines Datenkatalogs aufweisen. Komplexe Metamodelle bieten Letzteres, können aber übermäßig kompliziert und schwierig zu implementieren sein.
Hinweis
Wissensgraphenbasierte Datenkataloge haben flexible Metamodelle. Das Metamodell in solchen Datenkatalogen lässt sich unbegrenzt visualisieren, erweitern und durchsuchen. Diese Technologie wird wahrscheinlich mehr Einfluss auf den Markt für Datenkataloge gewinnen, da sie die wichtigste Funktion eines Datenkatalogs sehr gut erfüllt: die Suche.
Daten-Ingenieure
Data Engineers arbeiten im Backend des Datenkatalogs und unterstützen den Datenarchitekten bei eher technischen Fragen zur Organisation der Daten, zur Suche und zum Zugriff darauf.
Der Datenkatalog-Ingenieur unterstützt Datenarchitekten und Endnutzer bei der Einrichtung des eigentlichen Push/Pulls von Datenquellen in den Datenkatalog. Dazu kann die Nutzung einer API gehören, um Assets mit Metadaten, Abstammung oder Ähnlichem zu kuratieren. Sie überwachen die Funktionalität der Regeln, die Daten klassifizieren und profilieren, wenn sie Daten in den Datenkatalog ziehen/schieben, und sie erstellen zusätzliche Regeln zur Klassifizierung von Daten. Der Ingenieur stellt lediglich sicher, dass die Regeln funktionieren, und zwar auf der Grundlage von Feedback und Gesprächen mit dem Datenarchitekten, der sein Wissen aus Gesprächen mit Endnutzern und Mitarbeitern der CISO- und DSB-Funktionen bezieht.
Der Datenkatalog-Ingenieur stellt sicher, dass die Suchaktivitäten im Datenkatalog angemessen protokolliert und gemessen werden, damit der Datenkatalog-Berater die besten Chancen hat, die Suchfunktionen des Katalogs zu verbessern.
Sobald die Endnutzer die Daten entdecken, auf die sie zugreifen möchten, ist der Datenkatalogingenieur daran beteiligt, sie anzuleiten und bei Bedarf praktische Hilfe zu leisten. Einfachere Zugriffsanfragen können einfach beinhalten, dass der Zugriffsanforderer als Endnutzer in/von der Datenquelle angelegt wird. Wenn die Datenquelle jedoch in einem Softwarekontext verwendet werden muss, in dem die Daten in der Quelle offengelegt oder verarbeitet werden sollen, wird der Zugriff auf die Quelle immer komplexer. Es gibt drei Möglichkeiten, Daten von der Datenquelle zu demjenigen zu bringen, der sie anfordert: Read-Only Data Stores (RDS), APIs und Streaming.
Schließlich verwaltet der Data Catalog Engineer die Datenkatalogumgebungen auf Test, Dev und Prod (falls mehr als eine Umgebung existiert), einschließlich aller Sicherheitsaspekte und der Backend-Verwaltung der Benutzerprofile.
Einrichtung des Data Discovery Teams
Das Datenermittlungsteam kann auf drei verschiedene Arten zusammengestellt werden, die sich auf die Unterstützung konzentrieren :
-
Datenverwaltung
-
Chief Data Officer (CDO)
-
Datenanalytik
Ich erkläre sie ausführlich in Kapitel 5. Aber in aller Kürze lassen sich die Vorteile der einzelnen Methoden wie folgt beschreiben:
Data Governance stellt sicher, dass die Daten in Übereinstimmung mit den Vorschriften und Standards verwaltet werden. Sie konzentriert sich auch auf Aspekte der Datenqualität, des Eigentums usw. Der Vorteil, das Data-Discovery-Team in einem Data-Governance-Teil des Unternehmens anzusiedeln, liegt darin, dass es zu einer besseren Datenkonformität und Effizienz des operativen Rückgrats führt. Du stellst sicher, dass vertrauliche und sensible Daten geschützt werden. Dennoch sollte ein Datenkatalog bei einem solchen Ansatz lediglich als Ausgabe betrachtet werden, um Data Governance zu gewährleisten, und nicht als die Schlüsselkomponente, die er für datengetriebene Innovation sein soll.
Ein CDO, der für das Datenermittlungsteam verantwortlich ist, ist die ideale, aber auch eine seltene Variante für einen Datenkatalog. In diesem Fall ist das Data Discovery Team eine Stabsstelle für den CDO. Der CDO schreibt und setzt die Datenstrategie des Unternehmens um und sollte daher einen vollständigen Überblick über alle vorhandenen Daten haben. In diesem Fall basiert die Datenstrategie der Geschäftsführung auf empirischen Fakten und die Ergebnisse sind messbar.
Durch die Unterbringung des Datenkatalogs in einer Geschäftseinheit für Datenanalyse wird der Datenkatalog direkt dort eingesetzt, wo er den größten Nutzen bringt: bei der Innovation. Das Risiko dieser Einrichtung ist jedoch ein Mangel an Kontrolle. Ohne eine solide Data Governance besteht die Gefahr, dass der Datenkatalog vertrauliche Daten preisgibt oder sensible Daten auf eine Art und Weise verarbeitet, die eine Belastung für dein Unternehmen darstellt oder der die Betroffenen nicht zugestimmt haben. Außerdem kann es zu Schwierigkeiten bei der Datenqualität kommen, einem zeitaufwändigen Unterfangen, das ein motiviertes Team, das nach Ergebnissen strebt, leicht vernachlässigen könnte.
Rollen und Verantwortlichkeiten der Endnutzer
Ende Nutzer eines Datenkatalogs lassen sich in drei Kategorien einteilen:
-
Endnutzer der Datenanalyse
-
Governance Endnutzer
-
Alltägliche Endverbraucher (Effizienz)
Die Endnutzer von Data Analytics suchen im Datenkatalog nach Datenquellen, um sich über Innovationen zu informieren, und ihre Datenentdeckung endet nicht im Datenkatalog, wenn sie nach Daten suchen. Die Entdeckung von Daten für Daten führt zur Entdeckung von Daten und zur Erforschung von Daten in Daten, wie wir in Kapitel 3 erörtern werden. Die Endnutzer der Datenanalyse sollten als die wichtigsten Endnutzer des Katalogs betrachtet werden, da sie den Return on Investment (ROI) für den Datenkatalog liefern. Sie tun dies, indem sie neue Angebote für Kunden entwickeln, die auf Daten basieren, die sie gesucht, gefunden, analysiert und für Geschäftsmöglichkeiten und Wachstum genutzt haben.
Governance-Endbenutzer durchsuchen den Datenkatalog in erster Linie entweder nach vertraulichen Daten oder nach sensiblen Daten - oder nach beidem -, um diese Daten zu schützen. Sie tun dies sowohl, wenn der Katalog um neue Datenquellen erweitert wird (darauf gehe ich in Kapitel 5 ein), als auch laufend bei der Durchführung von Risikobewertungen und im Tagesgeschäft. Sie nutzen den Datenkatalog auch, um besser kontrollieren zu können, wer welche Daten im Unternehmen sehen kann. Der Datenkatalog ermöglicht es ihnen, die Data Governance des Unternehmens zu verbessern, aber ein ROI ist im Vergleich zu den Endnutzern der Datenanalyse schwieriger zu dokumentieren.
Alltägliche Endnutzer/innen werden in Zukunft wahrscheinlich die größte Gruppe von Endnutzer/innen sein. In Kapitel 8 kannst du nachlesen, wie diese Zukunft im Detail aussieht. An dem Punkt, an dem sich der Datenkatalog wirklich zu einer Suchmaschine für das Unternehmen entwickelt, werden die Beschäftigten ihn für den täglichen Informationsbedarf nutzen. Diese äußern sich in einfachen Suchanfragen und zielen auf Berichte, Strategiepapiere, SOPs und den einfachen Zugang zu Systemen ab. Derzeit sind die alltäglichen Endnutzer eines Datenkatalogs keine sehr große Gruppe. Du kannst deine Implementierung jedoch so planen, dass die Zahl der täglichen Endnutzer/innen zunimmt und der Datenkatalog in deinem Unternehmen eine größere Verbreitung findet. Darauf gehe ich in Kapitel 5 ein.
Alle Endnutzer haben eine oder mehrere der folgenden Rollen und Verantwortlichkeiten im Datenkatalog:
- Eigentümer der Datenquelle
-
Der Eigentümer der Datenquelle wird im traditionellen Datenmanagement auch einfach als Systemeigentümer oder Datenverwalter bezeichnet.
- Domaininhaber
-
Ein Domänenbesitzer verwaltet eine bestimmte Sammlung von Vermögenswerten. Er legt fest, welche Güter in die Domäne gehören und wer die verschiedenen Rollen in der Domäne übernehmen soll.
- Domainverwalter
-
Ein Domain Steward übernimmt praktischere Aufgaben, wie z.B. die Durchführung von Interviews mit den zukünftigen Eigentümern der Datenquellen, die Verwaltung der Domain-Architektur und die Bereitstellung des Zugangs zu den Daten.
- Vermögensinhaber
-
Der Asset Owner ist der Eigentümer der Daten in der Datenquelle. In der Regel erstreckt sich das Eigentum an den Daten über mehrere Datenquellen (so wie sich das Eigentum an den Daten über mehrere Systeme erstreckt), und in seltenen Fällen kann es auch mehrere Domänen umfassen. Der Asset-Eigentümer gewährt auf Anfrage Zugriff auf die Daten.
- Vermögensverwalter
-
Ein Asset Steward hat Fachwissen über eine bestimmte Teilmenge von Assets (eine ganze Datenquelle oder Teile von Datenquellen) in einem Bereich.
- Begriff Eigentümer
-
Begriffseigentümer besitzen in der Regel einen großen Teil der Glossare, die sich auf eine oder mehrere Domänen im Datenkatalog beziehen.
- Begriff Steward
-
Term Stewards sind für die Verwaltung der Lebenszyklen von Terms verantwortlich. (Siehe Kapitel 7 für weitere Informationen).
- Alltäglicher Endverbraucher
-
Alltägliche Endnutzer/innen können den Datenkatalog durchsuchen und Daten von den Eigentümern der Anlagen anfordern.
Tipp
Die Endnutzer eines Datenkatalogs bilden zusammen ein soziales Netzwerk. Wenn sie in Gruppen unabhängig vom Datenermittlungsteam arbeiten können, wird der Datenkatalog den größten Nutzen bringen. In Kapitel 5 findest du weitere Informationen dazu.
Zusammenfassung
Du hast jetzt einen ersten Eindruck von einem Datenkatalog bekommen. Dieses einzigartige Tool ist ein wichtiger Schritt für dein Unternehmen auf dem Weg zu einer besseren und sichereren Nutzung deiner Daten.
Hier sind die wichtigsten Erkenntnisse aus diesem Kapitel:
-
Datenkataloge sind in Domänen organisiert, die Assets enthalten. Die Assets sind Metadaten, die die Daten in den Quellsystemen darstellen. Die Assets wurden entweder gezogen (gecrawlt) oder in den Datenkatalog gepusht.
-
Wenn du deinen Datenkatalog so gut wie möglich organisierst, kannst du eine völlig freie und flexible Suche durchführen, von der einfachen Suche über verschiedene Arten des Browsens bis hin zur erweiterten Suche.
-
Der strategische Vorteil eines Datenkatalogs ist die Datenentdeckung. Zum ersten Mal sind Unternehmen in der Lage, alle ihre Daten strukturiert und endlos zu entdecken.
-
Data Discovery dient der datengesteuerten Innovation und der Data Governance. Innovation ist das Wichtigste und der Grund, warum Datenkataloge überhaupt erst entstanden sind. Data Governance hingegen ist nicht so profitabel, aber an sich wichtig - sie sichert die Daten.
-
Dementsprechend lassen sich die Endnutzer in die Kategorien Datenanalyse, Governance und Alltagsnutzer einteilen. Die Endnutzer können verschiedene und sogar mehrere Rollen und Verantwortlichkeiten im Datenkatalog haben.
-
Anstatt ein "Datenkatalogteam" zu haben, solltest du die Fähigkeiten, die ein solches Team bietet, als "Datenentdeckungsteam" bezeichnen. Das Datenermittlungsteam besteht aus Architekten, die im Frontend des Datenkatalogs arbeiten, und Ingenieuren, die im Backend tätig sind.
-
Es gibt drei verschiedene Möglichkeiten für Datenermittlungsteams:
-
Das Team kann sich auf die Datenverwaltung konzentrieren, wobei die Gefahr besteht, dass das innovative Potenzial des Datenkatalogs verloren geht.
-
Das Team kann sich auf Innovationen konzentrieren, ohne das Risiko, die Datenverwaltung zu gefährden.
-
Am besten ist es, wenn der CDO eine Stabsfunktion innehat, die alle strategischen Entscheidungen auf der Grundlage der im Unternehmen vorhandenen Daten trifft, sei es für innovative oder für Governance-Zwecke.
-
Im nächsten Kapitel werden wir darüber sprechen, wie du Daten im Datenkatalog organisierst.
1 Wenn deine IT-Abteilung sehr gut organisiert ist, können einige wenige Mitarbeiter mit Hilfe von Tools wie einer Configuration Management Database (CMDB) und einem Active Directory (AD) einen sehr guten Überblick über alle Arten von Daten haben. Erinnere dich daran, dass in Abbildung 1-1 die Zustände für die große Mehrheit der Beschäftigten im Unternehmen dargestellt sind, nicht für die wenigen Auserwählten in einer IT-Abteilung.
2 In einigen europäischen Ländern ist es üblich, dass Unternehmen eine kleine Cafeteria oder einen Imbiss auf dem Betriebsgelände unterhalten, wo die Beschäftigten Lebensmittel kaufen und gemeinsam essen können.
3 G. G. Chowdhury, Introduction to Modern Information Retrieval (New York: Neal-Schuman Publishers, 2010), Chaps. 1 und 2.
4 Peter Morville, Ambient Findability: What We Find Changes Who We Become (Sebastopol, CA: O'Reilly, 2005), 6.
Get Der Unternehmensdatenkatalog now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.