Vorwort

Als ich Mitte der 2010er Jahre begann, mich mit Datenkatalogisierung zu beschäftigen, war die Welt der Datenanalyse an einem Wendepunkt angelangt. Die großen modernen Dateninfrastrukturprojekte, die sich auf Data Lakes konzentrierten und meist mit internen Hadoop-Clustern verbunden waren, hatten einen gewissen Reifegrad erreicht. Die technische Architektur war vorhanden. Das Versprechen von Innovation und Wertschöpfung, das das ursprüngliche Argument für die massiven Investitionen in die Infrastrukturen von Unternehmen war, hatte jedoch kaum mehr als ein paar Anwendungsfälle hervorgebracht, die von begeisterten Pionierteams vorangetrieben wurden.

Meiner Meinung nach hat dieses relative Versagen seine Wurzeln eher in der Verwaltung dieser neuen transversalen Infrastrukturen als in der Technologie an sich. Dieses Versagen hat sich auf zwei gegensätzliche Arten manifestiert.

In einigen Fällen führte der Mangel an Governance dazu, dass sich Data Lakes in Datensümpfe verwandelten - riesige Speicherbereiche mit Daten, deren Inhalt und Herkunft niemand kannte und mit denen niemand etwas anzufangen wusste.

In anderen Fällen wurden die Daten durch den Einsatz ausgeklügelter Governance-Tools in komplexen und bürokratischen Verfahren eingeschlossen, was die Flexibilität und Experimentierfreudigkeit hemmte, die für Innovationen unabdingbar sind.

Infolgedessen begannen die Unternehmen, ihre analytischen Infrastrukturen in die Cloud zu verlagern (oder neu zu schaffen) (der Stand der Technik von Cloud-Lösungen hat sich seit Mitte der 2010er Jahre massiv verbessert) und zu überdenken, wie sie die riesigen Datenmengen, die sie auswerten mussten, am besten verwalten konnten.

Es gibt natürlich viel über moderne Datenarchitekturen zu sagen, aber ich interessiere mich besonders für den Aspekt des Datenmanagements, den es schon länger gibt, als man denkt.

Schon in der griechischen Antike haben wir große Mengen an Informationen verarbeitet. Seitdem sind wir mit der Herausforderung konfrontiert, Informationen so zu organisieren, dass sie unter den bestmöglichen Bedingungen nützlich sind.

Kallimachos war ein antiker griechischer Dichter, Gelehrter und Bibliothekar der Großen Bibliothek von Alexandria. Er übernahm wahrscheinlich die Leitung der Großen Bibliothek von Zenodotus, der seinerseits ein Nachfolger von Demetrius Phalereus war. Demetrius, der als einer der größten griechischen Denker galt, war der Schöpfer und Architekt der Großen Bibliothek und hatte die Sammlung von Zehntausenden von Papyrusrollen beaufsichtigt. Es ist ziemlich wahrscheinlich, dass Demetrius, wie die meisten vormodernen Gelehrten, ein phänomenales Gedächtnis hatte, das ihm wahrscheinlich half, sich an jedes einzelne Buch in der Bibliothek und deren Standort zu erinnern und ihm so ermöglichte, die Fragen seiner Kollegen und Forscher, die die Bibliothek besuchten, zu beantworten. Dieses Überblickswissen starb natürlich mit ihm und ließ Callimachus mit einem Problem zurück, das jeder Datenmanager heute nachvollziehen kann, wenn das Team, das den Datensee erstellt hat, zu neuen Weiden weiterzieht - die Personalfluktuation in Datenteams kann sehr hoch sein. Demetrius war im Grunde ein lebender Index und eine Suchmaschine, und ohne ihn konnten die Bibliotheksbesucher nicht schnell erkennen, welche Materialien sie brauchten, und sie auch nicht schnell finden. Sie mussten die Bibliothek durchsuchen, um zu finden, was sie brauchten.

Ich habe das Gefühl, dass Callimachus mit denselben Herausforderungen konfrontiert war, vor denen moderne Unternehmen heute mit ihren Data Lakes stehen.

Callimachus dachte sich eine Lösung aus, deren Prinzipien auch heute noch gültig sind. Er erstellte ein vollständiges Register aller Papyrusrollen in der Bibliothek und ordnete sie in alphabetischer Reihenfolge, um den Inhalt zu indexieren. Diese Register, Pinakes genannt, von denen einige Fragmente gefunden wurden, enthielten biografische Informationen über die Autoren sowie bibliografische Beschreibungen der Schriftrollen: Titel, Anfangsworte, Anzahl der Zeilen auf jeder Rolle, literarische Gattung/Disziplin und Thema. Die Autoren innerhalb einer bestimmten Kategorie und die Titel desselben Autors wurden in alphabetischer Reihenfolge geordnet, was auf Aristoteles' kategorialen Praktiken aufbaut, aber in einem viel größeren Maßstab angewandt wurde.

Im Wesentlichen entwickelte er ein System für Metadaten, das Informationen über jede Rolle lieferte, ohne dass man die Schriftrolle lesen musste. Anschließend ordnete und organisierte er die Metadaten in einem indizierten Register. Er katalogisierte sozusagen den Inhalt der Bibliothek. Ich nehme an, dass er auch eine Reihe von Verfahren festlegte, die die Pflege des Katalogs sicherstellten, wenn die Bibliothek im Laufe der Zeit neue Bücher hinzufügte. Im vordigitalen Zeitalter muss das ein gewaltiges Unterfangen gewesen sein.

Wie zu Zeiten der alexandrinischen Größe sind auch heute die Verwaltung, Organisation und Indexierung von Metadaten der Schlüssel, um Informationen zu verwalten und einer möglichst großen Zahl von Nutzern zugänglich zu machen. Spezialisten für die Informationsverteilung wissen das sehr gut. Das gilt natürlich für Mediatheken, aber auch für Videostreaming-Plattformen (kannst du dir Netflix ohne indexierte Informationen vorstellen?), E-Commerce-Websites, Bilddatenbanken, Marktdatenbroker oder sogar das Internet. Google ist schließlich ein riesiges Werkzeug zur Sammlung, Produktion und strukturierten Indexierung von Metadaten. Spezialisten für die Informationsverteilung wissen, dass Metadaten genauso wichtig sind wie die Daten selbst. Tatsächlich sind es die Metadaten, die es ihren Kunden ermöglichen, die Inhalte auszuwählen, die sie nutzen möchten, und es sind die Metadaten, die es den Daten ermöglichen, einen Wert zu schaffen. Wir alle erleben das, wenn wir unsere eigenen Festplatten durchsuchen. Das Dateisystem ist nichts anderes als eine eher minimalistische Metadatenverwaltung, ohne die es unmöglich wäre, die Tausenden von Dokumenten, die wir gespeichert haben, zu verstehen.

Die zentrale Rolle von Metadaten ist etwas, das traditionelle Organisationen manchmal nur schwer begreifen können. Die Kunst des Metadatenmanagements im Unternehmen wurde lange Zeit als repetitiv und überflüssig angesehen, obwohl sie meiner Meinung nach einer der wichtigsten Hebel ist, um das Potenzial der neuen Datenarchitekturen voll auszuschöpfen. Um es ganz offen zu sagen: Ich glaube nicht, dass es möglich ist, eine groß angelegte Datenstrategie ohne einen angemessen strukturierten und gepflegten Katalog umzusetzen, weshalb ich mich vor einigen Jahren auf das Abenteuer Zeenea eingelassen habe.

Als ich Ole vor ein paar Jahren zum ersten Mal traf, war ich beeindruckt von der Flüssigkeit seiner Gedanken über die Rolle des Unternehmensdatenkatalogs und auch von der Übereinstimmung unserer Überzeugungen zu diesem Thema. Damals vertrat ich noch einen pragmatischen Ansatz für den Datenkatalog als Such- und Erkundungsinstrument, und jemanden zu treffen, der dieselbe Vision vertritt, hat meine eigenen Überzeugungen weiter gestärkt.

Die Stärke seines Buches " The Enterprise Data Catalog" geht darüber hinaus, dass es die Datenerfassung in den Mittelpunkt des Datenkatalogs stellt. Es bietet auch einen vollständigen und strukturierten Leitfaden für den Einsatz im Unternehmen. Er liefert einen klaren Fahrplan für Unternehmen, die das Beste aus ihren Dateninvestitionen machen wollen, und ist auch eine großartige Inspirationsquelle für Lösungsanbieter, wie mich.

Es steckt viel Ehrlichkeit und Intelligenz in diesen Seiten, und egal, welche Rolle du derzeit bei der Umsetzung deiner Unternehmensdatenstrategie spielst, dieses Buch wird deine Wahrnehmung der Bedeutung von Metadaten und des Datenkatalogs in deiner Strategie radikal verändern und dir letztlich neue Horizonte auf dem Weg zum Erfolg eröffnen.

Get Der Unternehmensdatenkatalog now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.