Vorwort
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Wissensgraphen, Ontologien, Taxonomien und andere Arten von semantischen Datenmodellen werden in der Welt der Daten und der künstlichen Intelligenz (KI) schon seit mehreren Jahrzehnten entwickelt und verwendet. Sie erfassen die Bedeutung von Daten in einer expliziten und gemeinsam nutzbaren Weise und erhöhen die Effektivität datengesteuerter Anwendungen. In den letzten zehn Jahren hat die Beliebtheit solcher Modelle besonders zugenommen. So hat das Marktforschungsunternehmen Gartner Wissensgraphen in seinen Hype Cycle 2018 für aufstrebende Technologien aufgenommen, und mehrere prominente Unternehmen wie Amazon, LinkedIn, BBC und IBM haben semantische Datenmodelle entwickelt und in ihren Produkten und Dienstleistungen eingesetzt.
Hinter diesem Trend stehen zwei Hauptantriebskräfte:
-
Datenreiche Unternehmen erkennen zunehmend, dass es nicht ausreicht, riesige Datenmengen zu haben. Um daraus einen Nutzen zu ziehen, müssen diese Daten sauber, konsistent, vernetzt und mit einer klaren Semantik versehen sein. So können sich Data Scientists und Business Analysten auf das konzentrieren, was sie am besten können: nützliche Erkenntnisse aus den Daten zu gewinnen. Die semantische Datenmodellierung konzentriert sich genau auf diese Herausforderung.
-
Entwickler und Anbieter von KI-Anwendungen erkennen zunehmend, dass maschinelles Lernen und statistische Argumentationstechniken nicht immer ausreichen, um das benötigte intelligente Verhalten zu entwickeln; eine Ergänzung durch explizites symbolisches Wissen kann notwendig und nützlich sein. Die semantische Datenmodellierung konzentriert sich genau auf den Aufbau und die Bereitstellung solchen Wissens.
Für die Erstellung semantischer Modelle stehen verschiedene Sprachen, Methoden, Plattformen und Werkzeuge zur Verfügung, die aus unterschiedlichen Gemeinschaften stammen und sich auf verschiedene Aspekte des Modells konzentrieren (z. B. Darstellung, Schlussfolgerungen, Speicherung, Abfragen usw.). Die Aufgabe, ein semantisches Modell zu spezifizieren, zu entwickeln, in Betrieb zu nehmen und weiterzuentwickeln, ist jedoch nicht so einfach, wie man denken könnte, vor allem, wenn der Umfang und die Größe des Modells zunehmen. Der Grund dafür ist, dass die menschliche Sprache und das menschliche Denken voller Mehrdeutigkeit, Vagheit, Ungenauigkeit und anderer Phänomene sind, die die formale und allgemein akzeptierte Darstellung der Datensemantik zu einer ziemlich schwierigen Aufgabe machen.
Dieses Buch zeigt dir, was semantische Datenmodellierung bedeutet und welchen Herausforderungen du dich als Ersteller oder Nutzer von semantischen Modellen stellen musst. Noch wichtiger ist, dass es dir konkrete Ratschläge gibt, wie du Gefahren(Fallstricke) vermeiden und Hindernisse(Dilemmas) überwinden kannst. Du lernst einige grundlegende und dauerhafte Prinzipien der semantischen Modellierung kennen, die unabhängig vom verwendeten Framework oder der Technologie gelten, und erfährst, wie du sie in deinem spezifischen Kontext anwenden kannst.
Nach der Lektüre dieses Buches wirst du in der Lage sein, bestehende semantische Modelle und Technologien kritisch zu bewerten und besser zu nutzen, fundierte Entscheidungen zu treffen und die Qualität und Nutzbarkeit der von dir erstellten Modelle zu verbessern.
Wer sollte dieses Buch lesen?
Dieses Buch richtet sich an Datenpraktiker/innen, die in ihrer täglichen Arbeit semantische Darstellungen von Daten entwickeln oder verwenden (Knowledge Engineers, Informationsarchitekten, Data Engineers, Data Scientists usw.) und für die die Explizitheit, Genauigkeit und allgemeine Verständlichkeit der Datenbedeutung eine wichtige Dimension ihrer Arbeit ist.
Du wirst dieses Buch besonders nützlich finden, wenn du dich in einer oder mehreren der folgenden Situationen wiedererkennst:
-
Du bist Taxonom/in, Ontologe/in oder eine andere Art von Datenmodellierer/in, der/die viel über semantische Datenmodellierung weiß, allerdings hauptsächlich aus der akademischen und Forschungsperspektive. Wahrscheinlich hast du in diesem Bereich promoviert und kennst dich mit Modellierungssprachen und Frameworks bestens aus, aber du hattest bisher kaum Gelegenheit, dieses Wissen in der Industrie anzuwenden. Du bist jetzt in der Anfangsphase einer industriellen Tätigkeit und hast die Möglichkeit, dein Wissen auf reale Probleme anzuwenden. Du stellst jedoch fest, dass die Dinge ganz anders sind, als in den akademischen Abhandlungen und Lehrbüchern beschrieben; die Methoden und Techniken, die du gelernt hast, sind nicht so anwendbar oder effektiv, wie du dachtest. Du stehst vor schwierigen Situationen, für die es keine eindeutige Entscheidung gibt, und letztendlich werden die semantischen Modelle, die du entwickelt hast, missverstanden, falsch angewandt oder bieten kaum einen Mehrwert. Dieses Buch wird dir helfen, dein wertvolles und hart erarbeitetes Wissen in die Praxis umzusetzen und die Qualität deiner Arbeit zu verbessern.
-
Du bist ein Daten- oder Informationsarchitekt und hast die Aufgabe, semantische Modelle zu entwickeln, die das Problem der semantischen Heterogenität zwischen den vielen unterschiedlichen Datenquellen und Anwendungen oder Produkten in deinem Unternehmen lösen können. Zu diesem Zweck hast du bereits verschiedene semantische Datenmanagementlösungen eingesetzt, die eine nahtlose Integration versprachen, aber die Ergebnisse waren meist nicht zufriedenstellend. Dieses Buch wird dir helfen, die nicht so offensichtlichen Dimensionen und Herausforderungen besser zu verstehen, die du angehen musst, um die gewünschte semantische Interoperabilität zu erreichen.
-
Du bist Datenwissenschaftler/in, Experte/in für maschinelles Lernen und statistische Datenanalyse und Teil eines multidisziplinären Teams, das semantische Modelle für KI-Anwendungen entwickelt (z. B. Wissensgraphen für virtuelle Assistenten). Du arbeitest täglich mit Ontologen, Linguisten und anderen Semantik-Experten zusammen, aber du hast Schwierigkeiten, ihre Fachsprache zu verstehen und herauszufinden, wie du deine Fähigkeiten mit ihren kombinieren kannst. Dieses Buch führt dich in die Grundlagen der semantischen Datenmodellierung ein und hilft dir dabei, die Aspekte zu identifizieren, bei denen dein Fachwissen den größten Einfluss haben kann.
-
Du bist Datenwissenschaftler/in, Experte/in für maschinelles Lernen und statistische Datenanalyse und arbeitest mit Daten, die von anderen Menschen, Teams und Organisationen erstellt und semantisch beschrieben wurden. Oft bist du dir nicht sicher, was diese semantischen Datenmodelle wirklich darstellen und ob sie für die Art der Analyse, die du durchführen oder die Lösung, die du entwickeln willst, geeignet sind. Noch schlimmer ist es, wenn du falsche Annahmen über die Semantik der Daten triffst und am Ende Machine-Learning-Modelle und Data-Science-Lösungen hast, die nicht so funktionieren, wie du es erwartet hast. Dieses Buch zeigt dir, wie du den semantischen Modellen, mit denen du arbeitest, kritischer gegenüberstehst und mögliche Probleme vorhersehen und lösen kannst.
Kurz gesagt ist dies ein Buch für ein breites Spektrum von Datenexperten, die lernen wollen, wie man "über Semantik spricht", um effektiver zusammenzuarbeiten und die Qualität, Nutzbarkeit und den Wert ihrer Daten zu steigern.
Was du in diesem Buch erwartest
In diesem Buch werde ich nicht versuchen, dir detaillierte Anweisungen zu geben, wie du ein semantisches Datenmodell von Grund auf entwickelst oder wie du bestimmte semantische Modellierungssprachen und Frameworks verwendest. Zu diesem Zweck gibt es bereits eine Fülle von Dokumentationen, auf die ich dich verweisen werde. Stattdessen werde ich den Lebenszyklus der semantischen Modellierung aus der Helikopterperspektive betrachten, grundlegende Prinzipien und Herausforderungen erörtern, relevante Technologien und Ressourcen vorstellen und auf bestimmte Themen und Situationen eingehen, die deine Aufmerksamkeit verdienen und eine sorgfältige Behandlung erfordern.
Mein Ziel ist es nicht, das Feld vollständig abzudecken oder aktuelle Trends vorzustellen, sondern dir praktisches und pragmatisches Wissen zu vermitteln, das dir hilft, deine Arbeit besser zu machen, sowohl als Ersteller als auch als Nutzer von semantischen Modellen. Zu diesem Zweck wird sich das Buch auf Folgendes konzentrieren
- Semantisches Denken, nicht nur Sprachen oder Werkzeuge
-
Die meisten Lehrbücher und Tutorials zur semantischen Modellierung gehen davon aus, dass die Erstellung guter semantischer Modelle in erster Linie eine Frage der richtigen Sprache oder des richtigen Tools ist. In diesem Buch lernst du stattdessen die notwendigen Prinzipien und Techniken, um die verfügbare Modellierungssprache oder das Framework richtig zu nutzen und so den Garbage In, Garbage Out Effekt zu vermeiden.
- Was nicht funktioniert
-
Zu wissen, was nicht funktioniert und warum, kann ein effektiverer Weg sein, die Qualität eines Systems oder Prozesses zu verbessern, als nur zu wissen, was in der Theorie oder in einigen Fällen funktioniert. Dieses Buch wendet dieses Prinzip auf die Aufgabe der semantischen Datenmodellierung an, indem es sich darauf konzentriert, a) möglichst viele Möglichkeiten zu identifizieren, wie etwas schiefgehen kann, b) welche Konsequenzen das hätte und c) was getan werden könnte, um solche Situationen zu vermeiden.
- Nicht-boolesche Phänomene
-
Die meisten semantischen Modellierungsmethoden und Frameworks gehen davon aus, dass alles menschliche Wissen in falsche und wahre Aussagen unterteilt werden kann, und bieten nur wenig Unterstützung für den Umgang mit "verrauschten" Phänomenen wie Vagheit oder Unsicherheit. Die reale Welt ist jedoch voll von solchen Phänomenen, und dieses Buch wird dir dabei helfen, nicht nur damit umzugehen, sondern sie tatsächlich zu deinem Vorteil zu nutzen.
- Entscheidungen im Kontext
-
Die Modellierung semantischer Daten ist eine Herausforderung, und Modellierer stehen vor vielen Arten von Dilemmas, für die sie Entscheidungen treffen müssen. Die Beschreibung von erfolgreichen, aber isolierten Experimenten oder "Erfolgsgeschichten" hilft nur selten aus diesen Dilemmas heraus. Dieses Buch konzentriert sich darauf, so viele schwierige Situationen wie möglich zu identifizieren und dir zu zeigen, wie du sie in deinem eigenen Kontext durchbrechen kannst.
- Organisatorische und strategische Aspekte
-
Eine Initiative zur semantischen Datenmodellierung ist selten ein einmaliges technisches Projekt, sondern eine kontinuierliche Anstrengung, um ein Unternehmen mit aktuellem und nützlichem semantischem Wissen zu versorgen, das seiner Geschäfts- und Datenstrategie dient. Dabei müssen nicht nur technische, sondern auch organisatorische und strategische Aspekte berücksichtigt werden, z. B. wie man produktiv mit einer Vielzahl von Interessengruppen zusammenarbeitet (Führungskräfte, technische Teams, Endnutzer, Vertriebsmitarbeiter usw.).
Im Laufe des Buches werde ich mich auf persönliche Erfahrungen aus Organisationen und semantischen Projekten beziehen, für die ich gearbeitet habe, insbesondere auf Textkernel, das Unternehmen, für das ich arbeite, während ich dieses Buch schreibe. Textkernel ist ein niederländisches Unternehmen, das Software für die semantische Analyse und den Abgleich von Lebensläufen und Stellenangeboten entwickelt und zu diesem Zweck einen Wissensgraphen über die Bereiche Personalwesen, Personalbeschaffung und Arbeitsmarkt entwickelt und nutzt. Viele der Fallstricke und Dilemmas, die du in diesem Buch findest, stammen aus meinen Erfahrungen, die ich dort als Hauptverantwortlicher für die Entwicklung, Anwendung und Weiterentwicklung des Wissensgraphen gemacht habe.
Zur Veranschaulichung vieler Argumente in diesem Buch werde ich Beispiele aus semantischen Sprachen, Frameworks, Standards und Datenmodellen anführen, die von der Semantic-Web-Community entwickelt wurden, ohne zu behaupten, dass dies die einzigen oder besten Mittel zur Entwicklung semantischer Datenmodelle sind. Das Semantic Web ist ein ehrgeiziges Gemeinschaftsprojekt, das die Veröffentlichung von semantischen, maschinenlesbaren und gemeinsam nutzbaren Daten im Internet ermöglichen soll. Um dieses Ziel zu erreichen, hat es Methoden, Technologien und Daten hervorgebracht, die sowohl gute als auch schlechte Praktiken der Datenmodellierung aufzeigen, die du kennen solltest.
Schließlich solltest du dir bewusst sein, dass es in diesem Buch um die Modellierung von Daten auf der konzeptionellen Abstraktionsebene geht und nicht um die Aufgaben und Herausforderungen der effizienten Speicherung und Verarbeitung von Daten in datenintensiven Anwendungen. Zu diesem Zweck sind Martin Kleppmans Designing Data-Intensive Applications (O'Reilly) und andere ähnliche Bücher eine gute Quelle.
Buch Gliederung
Dieses Buch ist in drei Teile gegliedert.
In Teil I erörtern wir die grundlegenden Konzepte, Phänomene und Prozesse der semantischen Datenmodellierung, die den Ton für den Rest des Buches angeben und eine gemeinsame Basis und Terminologie schaffen. In Kapitel 1 gehen wir näher darauf ein, wie semantische Modellierung zu einer besseren Datenwissenschaft und KI beitragen kann, und zeigen, wie schlechte Modellierungspraktiken diese Bemühungen untergraben können. Kapitel 2 gibt einen Überblick über die allgemeinsten und gebräuchlichsten semantischen Modellierungselemente, die in verschiedenen Datenmodellierungs-Frameworks zu finden sind, während Kapitel 3 einige wichtige semantische und linguistische Phänomene beschreibt, die die menschliche Sprache und das menschliche Denken charakterisieren und eine wichtige Rolle für die Qualität eines semantischen Modells spielen. Kapitel 4 beschreibt die Qualitätsdimensionen, die bei der Bewertung eines semantischen Modells berücksichtigt werden sollten, sowie die grundlegenden Metriken und Messmethoden für jede Dimension. Kapitel 5 schließlich befasst sich mit dem Entwicklungsprozess eines semantischen Modells und geht auf die Herausforderungen, Schritte und Aktivitäten ein, die damit verbunden sind, sowie auf die methodische und technologische Unterstützung, die für jeden dieser Schritte zur Verfügung steht.
In Teil II werfen wir einen genauen Blick auf die häufigsten Fallstricke, in die wir bei der Entwicklung und Anwendung semantischer Datenmodelle tappen, und diskutieren konkrete Methoden und Techniken, um sie effektiv zu vermeiden. In Kapitel 6 sehen wir, wie wir die menschliche Interpretierbarkeit eines semantischen Modells beeinträchtigen können, indem wir seine Elemente ungenau und unvollständig beschreiben. In Kapitel 7 sehen wir uns an, wie wir die maschinelle Interpretierbarkeit eines Modells beeinträchtigen können, indem wir die Elemente, die die Modellierungssprachen und Frameworks bereitstellen, auf unbeabsichtigte Weise verwenden. In Kapitel 8 untersuchen wir, unter welchen Umständen wir ein semantisches Modell erstellen können, nach dem niemand gefragt hat, und wie die Entwicklung und Qualität des Modells darunter leiden kann, dass wir nicht die richtigen Mechanismen zur Wissenserfassung verwenden. In Kapitel 9 sehen wir, wie die Qualität eines Modells nicht nur durch Fehler bei seiner Spezifikation und Entwicklung beeinträchtigt wird, sondern auch durch schlechte Praktiken bei seiner Messung und Verwaltung. Kapitel 10 stellt die Annahme in Frage, dass die Semantik eines semantischen Modells, nur weil es für dieselbe Domäne oder dieselben Daten entwickelt wurde, in der eine Anwendung arbeitet, direkt anwendbar und vorteilhaft für diese ist. Kapitel 11 befasst sich schließlich mit dem breiteren strategischen und organisatorischen Kontext, in dem die semantische Datenmodellierung stattfindet, und zeigt relevante Fallstricke und schlechte Praktiken auf, die ein Unternehmen daran hindern können, semantische Dateninitiativen erfolgreich durchzuführen.
In Teil III gehen wir von den Fallstricken der semantischen Modellierung zu den Dilemmas über und untersuchen, wie wir effektiv mit Situationen umgehen, in denen wir zwischen alternativen Handlungsoptionen wählen müssen, die jeweils ihre eigenen Vor- und Nachteile haben. In Kapitel 12 befassen wir uns mit Dilemmas, die mit der Wahl zwischen verschiedenen Arten der Darstellung derselben Bedeutung zusammenhängen, selbst innerhalb derselben Modellierungssprache. In Kapitel 13 befassen wir uns mit der Frage, was in einem semantischen Modell enthalten sein sollte und was weggelassen werden kann (oder sollte), damit das Modell das richtige Gleichgewicht zwischen Ausdruckskraft und Inhalt hat, das es braucht. Kapitel 14 wiederum befasst sich mit den Herausforderungen, die die Entwicklung und Verwaltung eines semantischen Modells mit sich bringt, und beschreibt, wie man eine geeignete Strategie entwickelt, um sie zu bewältigen. Kapitel 15 schließlich fasst einige der wiederkehrenden Themen dieses Buches zusammen und wirft einen Blick in die Zukunft.
In diesem Buch verwendete Konventionen
In diesem Buch werden die folgenden typografischen Konventionen verwendet:
- Kursiv
-
Weist auf neue Begriffe, URLs, E-Mail-Adressen, Dateinamen und Dateierweiterungen hin.
Constant width
-
Wird für Programmlistings sowie innerhalb von Absätzen verwendet, um auf Programmelemente wie Variablen- oder Funktionsnamen, Datenbanken, Datentypen, Umgebungsvariablen, Anweisungen und Schlüsselwörter hinzuweisen.
Tipp
Dieses Element steht für einen Tipp oder eine Anregung.
Hinweis
Dieses Element steht für einen allgemeinen Hinweis.
Warnung
Dieses Element weist auf eine Warnung oder einen Warnhinweis hin.
O'Reilly Online Learning
Hinweis
Seit mehr als 40 Jahren bietet O'Reilly Media Schulungen, Wissen und Einblicke in Technologie und Wirtschaft, um Unternehmen zum Erfolg zu verhelfen.
Unser einzigartiges Netzwerk von Experten und Innovatoren teilt sein Wissen und seine Erfahrung durch Bücher, Artikel und unsere Online-Lernplattform. Die Online-Lernplattform von O'Reilly bietet dir On-Demand-Zugang zu Live-Trainingskursen, ausführlichen Lernpfaden, interaktiven Programmierumgebungen und einer umfangreichen Text- und Videosammlung von O'Reilly und über 200 anderen Verlagen. Weitere Informationen erhältst du unter http://oreilly.com.
Wie du uns kontaktierst
Bitte richte Kommentare und Fragen zu diesem Buch an den Verlag:
- O'Reilly Media, Inc.
- 1005 Gravenstein Highway Nord
- Sebastopol, CA 95472
- 800-998-9938 (in den Vereinigten Staaten oder Kanada)
- 707-829-0515 (international oder lokal)
- 707-829-0104 (Fax)
Wir haben eine Webseite für dieses Buch, auf der wir Errata, Beispiele und zusätzliche Informationen auflisten. Du kannst diese Seite unter https://oreil.ly/semantic-modeling-4-data aufrufen .
Schreib eine E-Mail an bookquestions@oreilly.com, um Kommentare oder technische Fragen zu diesem Buch zu stellen.
Weitere Informationen zu unseren Büchern, Kursen, Konferenzen und Neuigkeiten findest du auf unserer Website unter http://www.oreilly.com.
Finde uns auf Facebook: http://facebook.com/oreilly
Folge uns auf Twitter: http://twitter.com/oreillymedia
Schau uns auf YouTube: http://www.youtube.com/oreillymedia
Danksagungen
Es gibt viele Menschen, denen ich für die Rolle danken möchte, die sie bei der Realisierung dieses Buches gespielt haben.
Erstens George Anadiotis, Paco Nathan und Mike Loukides, die an dieses Projekt geglaubt und die Räder in Bewegung gesetzt haben.
Zweitens meinen Rezensenten und Beta-Lesern, die akribisches und konstruktives Feedback zum Buch gegeben haben: Helen Lippell, Thomas Frisendal, Eben Hewitt, Patrick Harrison, George Sigletos, Guido Vetere, Jelle Jan Bankert, Artemis Parvizi, Boris Villazon Terrazas, Ghislain Atemezing, und Miika Alonen. Natürlich sind alle Meinungen und Fehler in diesem Buch meine eigenen.
Drittens die Redaktions-, Design- und Produktionsteams bei O'Reilly, die mich während des gesamten Entwicklungsprozesses unterstützt, meine langen Sätze und schlampigen Texte ertragen und mir geholfen haben, ein hochwertiges Buch zu produzieren: Michele Cronin, Jonathan Hassell, Kate Galloway, Kim Cofer, David Futato und Karen Montgomery.
Schließlich bin ich meiner geliebten Spyretta unendlich dankbar für ihre Geduld und Unterstützung während des Schreibprozesses, der fast zwei Jahre gedauert hat.
Get Semantische Modellierung für Daten now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.