Kapitel 1. Einführung in die Wissensgraphen
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Wir werden von Daten überschwemmt. Sie sind überall und werden mit einer fantastischen Geschwindigkeit gesammelt und zu erheblichen Kosten gespeichert. Aber wir ziehen nicht unbedingt einen Nutzen aus diesen Daten, obwohl sie einen erheblichen Wert haben, wenn wir sie nur verstehen könnten.
Es ist noch nicht alles verloren. In den letzten zehn Jahren ist eine neue Kategorie von Technologie, die auf Graphen basiert, aus dem Verborgenen in den Vordergrund getreten. Graphen bilden die Grundlage für alles, von verbrauchernahen Systemen wie Navigation und sozialen Netzwerken bis hin zu kritischen Infrastrukturen wie Lieferketten und Stromnetzen.
Diese wichtigen Anwendungsfälle für Graphen haben eine gemeinsame Schlussfolgerung: Die Anwendung von Wissen im Kontext ist das mächtigste Werkzeug, das den meisten Unternehmen zur Verfügung steht. Eine Reihe von Mustern und Praktiken, die Wissensgraphen genannt werden, haben sich herausgebildet, um Daten im Kontext zu verstehen, wobei der Kontext als Graph von miteinander verbundenen Datenelementen dargestellt wird. Mit Wissensgraphen besteht die Hoffnung, dass du aus Daten einen Geschäftswert destillieren kannst. Dieses Buch ist ein Versuch, zu zeigen, wie das geht.
Wissensgraphen sind nützlich, weil sie ein kontextbezogenes Verständnis von Daten ermöglichen. Der Kontext ergibt sich aus der Ebene der Metadaten (Graphtopologie und andere Merkmale), die Regeln für Struktur und Interpretation bereitstellen. Dieses Buch zeigt, wie der verknüpfte Kontext, den Wissensgraphen bieten, es dir ermöglicht, einen größeren Wert aus vorhandenen Daten zu ziehen, die Automatisierung und Prozessoptimierung voranzutreiben, Vorhersagen zu verbessern und eine agile Reaktion auf sich verändernde Geschäftsumgebungen zu unterstützen.
Wir haben dieses Buch für Technologieexperten geschrieben, die sich für den Aufbau und den Betrieb von Wissensgraphen in ihren Unternehmen interessieren. In gewisser Weise ist es eine Fortsetzung oder Erweiterung von O'Reillys Knowledge Graphs: Data in Context for Responsive Businesses, das wir 2021 verfassen durften. Dieser Bericht richtete sich an Chief Information Officers (CIOs) und Chief Data Officers (CDOs) und half ihnen,die Vorteile von Wissensgraphenzu verstehen. Dieses Mal richten wir uns an Daten- und Softwareexperten, die anspruchsvolle Informationssysteme aufbauen.
Das Buch ist in zwei Teile gegliedert: Der erste Teil befasst sich mit den Grundlagen des Graphen, einschließlich Graphen-Datenbanken, Abfragesprachen, Data Wrangling und Graph Data Science. Er vermittelt technischen Praktikern die grundlegenden Werkzeuge, die für das Verständnis des zweiten Teils dieses Buches erforderlich sind, der sich mit wichtigen Anwendungsfällen von Wissensgraphen und deren Implementierung befasst, komplett mit Codebeispielen und Systemarchitekturen.
Für Daten- und Softwareexperten bietet dieses Buch einen Einstieg in die Welt der Wissensgraphen und eine Sprache, um ihre Umsetzung mit Kollegen und dem Management zu diskutieren. Es enthält außerdem ausführliche Beispiele für den Aufbau und die Nutzung von Wissensgraphen - von den Grundlagen der Graphen bis hin zum maschinellen Lernen mit Graphen.
Für CIOs oder CDOs kann dieses Buch trotzdem nützlich sein, da es einen guten Überblick über Wissensgraphen und ihre Erstellung bietet. Du kannst die früheren Kapitel und Codebeispiele überfliegen, wenn das nicht dein Ding ist, aber du wirst trotzdem verstehen können, was deine Kollegen aus der Praxis tun und warum.
In diesem Kapitel werden der Hintergrund und die Motivation für Wissensgraphen erläutert. Wir stellen die Begriffe Graphen und Graphdaten vor und zeigen, wie man mit Wissensgraphen intelligentere Systeme bauen kann.
Was sind Diagramme?
Wissensgraphen sind eine Art von Graphen, daher ist es wichtig, ein grundlegendes Verständnis von Graphen zu haben. Graphen sind einfache Strukturen, die Knoten (oder Scheitelpunkte) verwenden, die durch Beziehungen (oder Kanten) verbunden sind, um realitätsnahe Modelle einer Domäne zu erstellen. Um Verwirrung zu vermeiden, haben die Graphen in diesem Buch nichts mit der Visualisierung von Daten in Form von Histogrammen oder dem Plotten einer Funktion zu tun, die als Diagramme bezeichnet werden, wie in Abbildung 1-1 gezeigt.
Die Diagramme in diesem Buch werden manchmal als Netzwerke bezeichnet. Sie sind eine einfache, aber aussagekräftige Art zu zeigen, wie Dinge zusammenhängen.
Graphen sind nicht neu. Tatsächlich wurde die Graphentheorie von dem Schweizer Mathematiker Leonhard Euler im 18. Jahrhundert erfunden , um die minimale Entfernung zu berechnen, die der Kaiser von Preußen zurücklegen musste, um die Stadt Königsberg (das heutige Kaliningrad) zu sehen, indem er sicherstellte, dass jede der sieben Brücken nur einmal überquert wurde, wie in Abbildung 1-2 dargestellt.
Euler kam zu der Erkenntnis, dass das in Abbildung 1-2 dargestellte Problem auf eine logische Form reduziert werden kann, indem er den ganzen Lärm der realen Welt ausblendet und sich nur darauf konzentriert, wie die Dinge miteinander verbunden sind. Er konnte zeigen, dass das Problem keine Brücken, Inseln oder Kaiser beinhalten muss. Er bewies, dass die physische Geografie von Königsberg in der Tat völlig irrelevant ist.
Hinweis
Für uns ist Eulers Ansatz ähnlich wie die moderne Softwareentwicklung: Das Rauschen der realen Welt wird entfernt, damit eine wertvollere logische Darstellung - die Software - übrig bleibt. Für Softwareexperten fühlt sich das beruhigend vertraut an.
Du kannst den überlagerten Graphen in Abbildung 1-2 verwenden, um die kürzeste Route für einen Spaziergang durch Königsberg zu finden, ohne dass du deine Wanderschuhe anziehen und es wirklich ausprobieren musst. Tatsächlich hat Euler bewiesen, dass der Kaiser nicht durch die ganze Stadt laufen konnte, indem er jede Brücke nur einmal überquerte, da es (mindestens) eine Insel (Knotenpunkt) mit einer geraden Anzahl von Verbindungsbrücken (Beziehungen) geben müsste, von der aus der Kaiser seinen Spaziergang beginnen könnte. In Königsberg gab es keine solche Insel, also ist auch keine solche Route (Weg) möglich.
Aufbauend auf Eulers Arbeit haben Mathematiker verschiedene Graphenmodelle untersucht, die alle das Thema der durch Beziehungen verbundenen Knoten variieren. Einige Modelle erlauben gerichtete Beziehungen, die einen expliziten Start- und Endknoten haben, während andere Modelle ungerichtete Beziehungen zwischen den Knoten vorsehen. Einige Modelle, wie Hypergraphen, erlauben Beziehungen, die mehrere Knoten verbinden.
Theoretisch gibt es kein einzelnes bestes Graphenmodell (obwohl man in der Regel von einem Modell zu einem anderen wechseln kann). In der Praxis gibt es jedoch bessere und schlechtere Modelle, vor allem für die Entwicklung von Computersystemen. In diesem Buch haben wir uns für das Modell der beschrifteten Eigenschaftsgraphen als Basismodell entschieden. Es ist ein beliebtes Modell, das für Software- und Datenexperten einfach zu verstehen ist. Es ist aussagekräftig genug, um selbst die kompliziertesten Domänen darzustellen, und ist informationsreich (im Gegensatz zu den von Mathematikern geliebten Graphen).
Abbildung 1-3 zeigt einen kleinen sozialen Graphen, aber im Vergleich zu dem Beispiel in Abbildung 1-2 enthält dieser Graph viel mehr Informationen.
In Abbildung 1-3 hat jeder Knoten eine Beschriftung, die seine Rolle im Graphen darstellt. Einige Knoten sind mit Person
und andere mit Place
beschriftet und stellen Personen bzw. Orte dar. In diesen Knoten sind Eigenschaften gespeichert. Ein Knoten hat zum Beispiel name:'Rosa'
und gender:'f'
, die du als eine weibliche Person namens Rosa interpretieren kannst. Beachte, dass die Knoten Karl
und Fred
leicht unterschiedliche Eigenschaften haben, was ein sehr gutes Werkzeug ist, da es die Unordnung der realen Welt berücksichtigt.
Tipp
Das Modell des Eigenschaftsgraphen erzwingt keine Schemata, die auf Bezeichnungen oder Beziehungstypen basieren. Es ist bewusst flexibel und anpassungsfähig, um die Entwicklung realitätsgetreuer Modelle zu unterstützen. Wenn du wirklich sicherstellen musst, dass Knoten mit bestimmten Bezeichnungen bestimmte Eigenschaften haben, kannst du Beschränkungen auf die Bezeichnung anwenden, um sicherzustellen, dass diese Eigenschaften existieren, eindeutig sind usw. Du kannst dies nicht als schema- oder schemalos, sondern als schema-ähnlich betrachten. Die Idee ist, schema-ähnliche Einschränkungen nur dort zu verwenden, wo du sie brauchst, anstatt das gesamte Datenmodell eifrig festzulegen. Diese schema-ähnlichen Einschränkungen können sich, wie alles andere in einem Graphen-Datenmodell, im Laufe der Zeit ändern. Daten aus der realen Welt sind oft uneinheitlich und unvollständig, daher sollten deine Wissensgraphen diese Realität widerspiegeln.
Zwischen den Knoten in Abbildung 1-3 siehst du Beziehungen. Die Beziehungen sind umfangreicher als in Abbildung 1-2, da sie einen Typ, eine Richtung und optionale Eigenschaften haben. Beziehungen können nicht "baumeln"; sie haben immer einen Startknoten und einen Endknoten, auch wenn Start- und Endknoten gleich sind.
Zum Beispiel gibt es einen Person
Knoten mit der Eigenschaft name:'Rosa'
, der eine ausgehende LIVES_IN
Beziehung mit der Eigenschaft since: 2020
zum Place
Knoten mit der Eigenschaft city:'Berlin'
hat. Du kannst dies als "Rosa lebt seit 2020 in Berlin" lesen, basierend auf der Richtung der Beziehungen. Du kannst auch sehen, dass Fred
ein FRIEND
von Karl
ist und dass Karl
ein FRIEND
von Fred
ist.Rosa
und Karl
sind auch Freunde, aber Rosa
und Fred
sind es nicht.
Im Modell des Eigenschaftsgraphen gibt es keine Beschränkungen für die Anzahl der Knoten oder die Anzahl oder Art der Beziehungen, die sie miteinander verbinden. Einige Knoten sind dicht verbunden, während andere nur spärlich verbunden sind. Wichtig ist nur, dass das Modell zum Problembereich passt. Ebenso haben einige Knoten viele Eigenschaften, während andere nur wenige oder gar keine haben. Einige Beziehungen haben viele Eigenschaften, während viele gar keine haben. Das alles ist völlig normal für Wissensgraphen.
Es ist leicht zu erkennen, wie der Graph in Abbildung 1-3 Fragen zu Freundschaften und Wohnorten beantworten kann. Die Erweiterung des Modells auf andere Daten wie Hobbys, Veröffentlichungen oder Aufträge ist ebenfalls einfach: Füge einfach weitere Knoten und Beziehungen hinzu, die zu deiner Problemdomäne passen. Die Erstellung großer, komplexer Graphen mit Millionen oder Milliarden von Verbindungen ist für moderne Graphdatenbanken und Graphverarbeitungssoftware kein Problem, sodass auch sehr große Wissensgraphen erstellt werden können.
Graphenmodelle können komplexe Beziehungsgeflechte in einer Weise darstellen, die sowohl menschen- als auch maschinenfreundlich ist. Graphen mögen auf den ersten Blick sehr technisch erscheinen, aber sie werden aus sehr einfachen Primitiven erstellt, was sie in der Praxis sehr zugänglich macht. Tatsächlich ist es die Kombination aus einem einfachen Datenmodell und der Leichtigkeit der algorithmischen Verarbeitung zur Entdeckung von Verbindungen, Mustern und Merkmalen, die Graphen so beliebt gemacht hat. Das ist eine leistungsstarke Kombination, die du auch in deinen Wissensgraphen nutzen wirst.
Die Motivation für Wissensgraphen
Das Interesse an Wissensgraphen ist explodiert, und es gibt unzählige Forschungsarbeiten, Lösungen, Analystenberichte, Gruppen und Konferenzen zu diesem Thema. Wissensgraphen sind so populär geworden, weil sich die Graphentechnologie in den letzten Jahren beschleunigt hat, aber auch, weil es einen starken Bedarf gibt, Daten sinnvoll zu nutzen.
Externe Faktoren haben zweifellos dazu beigetragen, dass die Wissensgraphen an Bedeutung gewonnen haben. Der Stress durch die COVID-19-Pandemie und die Auswirkungen der Geopolitik haben einige Unternehmen an den Rand des Zusammenbruchs gebracht. Die Entscheidungsfindung musste noch nie so schnell erfolgen. Gleichzeitig werden Unternehmen durch den Mangel an zeitnahen und genauen Erkenntnissen behindert.
Da historisches Wissen schneller altert und durch die Marktdynamik ungültig wird, brauchen viele Unternehmen neue Wege, um Daten zu erfassen, zu analysieren und daraus zu lernen. Unternehmen brauchen schnelle Einblicke und Empfehlungen, von Kundenerfahrungen und Patientenergebnissen bis hin zu Produktinnovationen, Betrugserkennung und Automatisierung. Sie brauchen kontextbezogene Daten, um Wissen zu generieren.
Wissensgraphen: Eine Definition
Jetzt weißt du ein wenig über Graphen und die Motivation für die Verwendung von Wissensgraphen. Aber natürlich sind nicht alle Graphen Wissensgraphen (trotz des Hypes).Wissensgraphen sind eine besondere Art von Graphen, bei denen der Schwerpunkt auf dem kontextuellen Verständnis liegt. Wissensgraphen sind miteinander verknüpfte Mengen von Fakten, die reale Entitäten, Ereignisse oder Dinge und ihre Zusammenhänge in einem für Menschen und Maschinen verständlichen Format beschreiben.
Entscheidend ist, dass Wissensgraphen ein Ordnungsprinzip haben müssen, damit ein Nutzer (oder ein Computersystem) über die zugrunde liegenden Daten nachdenken kann. Das Ordnungsprinzip bietet eine zusätzliche Strukturebene, die den Kontext hinzufügt, um die Wissensentdeckung zu unterstützen. Das Ordnungsprinzip macht die Daten selbst intelligenter. Diese Idee steht im Gegensatz zur Norm, bei der die Intelligenz in den Anwendungen liegt und die Daten dumm sind, nur etwas, das abgebaut und verfeinert werden muss. Intelligentere Daten vereinfachen die Systeme und fördern eine breite Wiederverwendung.
Zusammenfassung
Die Organisation von Prinzipien, Schlussfolgerungen und Wissensentdeckung mag auf den ersten Blick kompliziert erscheinen, aber in Wirklichkeit kannst du dir Wissensgraphen als einen umfangreichen Index über Daten vorstellen, der eine Kuratierung ermöglicht, ähnlich wie ein erfahrener Bibliothekar, der einem Forscher Bücher und Zeitschriften empfiehlt.
Ab hier wird es etwas technischer. In Kapitel 2 erfährst du, wie wir die Definition eines Organisationsprinzips so erweitern können, dass es als Vertrag zwischen einem Wissensgraphen und seinen Nutzern und Systemen fungiert. Außerdem lernst du verschiedene Möglichkeiten kennen, Organisationsprinzipien zu erstellen.
Get Wissensgraphen aufbauen now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.