Kapitel 1. Einführung in die Erzeugung synthetischer Daten

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Zu Beginn dieses Kapitels erläutern wir, was synthetische Daten sind und welche Vorteile sie bieten. Projekte für künstliche Intelligenz und maschinelles Lernen (AIML) werden in verschiedenen Branchen durchgeführt, und die Anwendungsfälle in diesem Kapitel sollen einen Eindruck von den vielfältigen Einsatzmöglichkeiten der Datensynthese vermitteln. Wir definieren den Begriff AIML-Projekt sehr weit, z. B. für die Entwicklung von Softwareanwendungen, dieAIML-Komponenten enthalten.

Synthetische Daten definieren

Auf konzeptioneller Ebene sind synthetische Daten keine echten Daten, sondern Daten, die aus echten Daten generiert wurden und dieselben statistischen Eigenschaften haben wie die echten Daten. Das bedeutet, dass ein Analytiker, der mit einem synthetischen Datensatz arbeitet, ähnliche Analyseergebnisse erhalten sollte, wie er sie mit echten Daten erhalten würde. Der Grad, in dem ein synthetischer Datensatz ein genauer Stellvertreter für reale Daten ist, ist ein Maß für den Nutzen. Wir bezeichnen den Prozess der Erstellung synthetischer Daten als Synthese.

Daten können in diesem Zusammenhang verschiedene Dinge bedeuten. Daten können zum Beispiel strukturierte Daten sein, wie man sie in einer relationalen Datenbank findet. Daten können auch unstrukturierter Text sein, z. B. Arztnotizen, Abschriften von Gesprächen oder Online-Interaktionen per E-Mail oder Chat. Auch Bilder, Videos, Audiodaten und virtuelle Umgebungen sind Arten von Daten, die synthetisiert werden können. Mithilfe von maschinellem Lernen ist es möglich, realistische Bilder von Menschen zu erstellen , die es in der realen Welt nicht gibt.

Es gibt drei Arten von synthetischen Daten. Die erste Art wird aus tatsächlichen/realen Datensätzen erzeugt, die zweite Art verwendet keine realen Daten und die dritte Art ist eine Mischung aus diesen beiden. Wir wollen sie hier untersuchen.

Synthese aus echten Daten

Die erste Art von synthetischen Daten wird aus realen Datensätzen synthetisiert. Das bedeutet, dass der Analytiker einige reale Datensätze hat und dann ein Modell erstellt, das die Verteilungen und die Struktur dieser realen Daten erfasst. Mit Struktur sind hier die multivariaten Beziehungen und Interaktionen in den Daten gemeint. Sobald das Modell erstellt ist, werden die synthetischen Daten anhand dieses Modells gesampelt oder generiert. Wenn das Modell die realen Daten gut abbildet, dann haben die synthetischen Daten ähnliche statistische Eigenschaften wie die realen Daten.

Dies ist in Abbildung 1-1 dargestellt. Hier passen wir die Daten zunächst an ein generatives Modell an. Damit werden die Beziehungen in den Daten erfasst. Dann verwenden wir dieses Modell, um synthetische Daten zu erzeugen. Die synthetischen Daten werden also aus dem angepassten Modell erzeugt.

Eine Data-Science-Gruppe, die sich auf das Verständnis des Kundenverhaltens spezialisiert hat, benötigt zum Beispiel große Mengen an Daten, um ihre Modelle zu erstellen. Aus Datenschutzgründen oder anderen Gründen ist der Zugriff auf diese Kundendaten jedoch langsam und liefert aufgrund der umfangreichen Maskierung und Schwärzung von Informationen keine ausreichenden Daten. Stattdessen kann den Analysten eine synthetische Version der Produktionsdatensätze zur Verfügung gestellt werden, mit denen sie ihre Modelle erstellen können. Die synthetischen Daten unterliegen weniger Beschränkungen bei ihrer Verwendung und ermöglichen es ihnen, schneller voranzukommen.

Synthese ohne echte Daten

Die zweite Art von synthetischen Daten wird nicht aus echten Daten erzeugt. Sie werden mit Hilfe von bestehenden Modellen oder dem Hintergrundwissen des Analysten erstellt.

Bei diesen bestehenden Modellen kann es sich um statistische Modelle eines Prozesses handeln (die durch Umfragen oder andere Datenerfassungsmechanismen entwickelt wurden) oder um Simulationen. Bei Simulationen kann es sich z. B. um Spiel-Engines handeln, die simulierte (und synthetische) Bilder von Szenen oder Objekten erstellen, oder um Simulations-Engines, die Einkaufsdaten mit bestimmten Merkmalen (z. B. Alter und Geschlecht) für Personen generieren, die zu verschiedenen Tageszeiten an einem Geschäft vorbeigehen.

Hintergrundwissen kann zum Beispiel das Wissen darüber sein, wie sich ein Finanzmarkt verhält, das aus Lehrbuchbeschreibungen oder den Bewegungen der Aktienkurse unter verschiedenen historischen Bedingungen stammt. Es kann auch das Wissen über die statistische Verteilung des Menschenverkehrs in einem Geschäft sein, das auf jahrelanger Erfahrung beruht. In einem solchen Fall ist es relativ einfach, ein Modell zu erstellen und aus dem Hintergrundwissen Stichproben zu ziehen, um synthetische Daten zu erzeugen. Wenn das Wissen des Analysten über den Prozess genau ist, werden sich die synthetischen Daten so verhalten, dass sie mit den realen Daten übereinstimmen. Natürlich funktioniert die Nutzung von Hintergrundwissen nur, wenn der Analytiker das Phänomen, das ihn interessiert, wirklich versteht.

Ein letztes Beispiel: Wenn ein Prozess neu ist oder vom Analysten nicht gut verstanden wird und keine echten historischen Daten zur Verfügung stehen, kann der Analyst einige einfache Annahmen über die Verteilungen und Korrelationen zwischen den an dem Prozess beteiligten Variablen treffen. Der Analyst kann zum Beispiel vereinfachend davon ausgehen, dass die Variablen normal verteilt sind und eine "mittlere" Korrelation aufweisen, und die Daten auf diese Weise erstellen. Diese Art von Daten hat wahrscheinlich nicht dieselben Eigenschaften wie reale Daten, kann aber dennoch für einige Zwecke nützlich sein, z. B. für die Fehlersuche in einem R-Datenanalyseprogramm oder für einige Arten von Leistungstests von Softwareanwendungen.

Synthese und Nützlichkeit

Für einige Anwendungsfälle ist ein hoher Nutzen sehr wichtig. In anderen Fällen kann ein mittlerer oder sogar niedriger Nutzen akzeptabel sein. Wenn es zum Beispiel darum geht, AIML-Modelle zu erstellen, um das Kundenverhalten vorherzusagen und darauf basierend Marketingentscheidungen zu treffen, dann ist ein hoher Nutzen wichtig. Geht es hingegen darum, herauszufinden, ob deine Software ein großes Transaktionsvolumen bewältigen kann, sind die Erwartungen an den Datennutzen deutlich geringer. Wenn du also weißt, welche Daten, Modelle, Simulatoren und welches Wissen vorhanden sind und welche Anforderungen an den Datennutzen gestellt werden, wird der spezifische Ansatz für die Erstellung der synthetischen Daten bestimmt.

Eine Übersicht über die synthetischen Datentypen findest du in Tabelle 1-1.

Tabelle 1-1. Verschiedene Arten der Datensynthese und ihre Auswirkungen auf den Nutzen
Art der synthetischen Daten	Dienstprogramm
Generiert aus echten, nicht-öffentlichen Datensätzen	Kann ziemlich hoch sein
Generiert aus echten öffentlichen Daten	Kann hoch sein, obwohl es Einschränkungen gibt, da öffentliche Daten in der Regel de-identifiziert oder aggregiert sind
Erzeugt aus einem bestehenden Modell eines Prozesses, das auch in einer Simulations-Engine dargestellt werden kann	Hängt von der Genauigkeit des bestehenden Erzeugungsmodells ab
Basierend auf dem Wissen der Analysten	Hängt davon ab, wie gut der Analytiker den Bereich und die Komplexität des Phänomens kennt
Aus generischen Annahmen generiert, die nicht spezifisch für das Phänomen sind	Wird wahrscheinlich niedrig sein

Nachdem du nun die verschiedenen Arten von synthetischen Daten kennengelernt hast, wollen wir uns die Vorteile der Datensynthese im Allgemeinen und einiger dieser Datentypen im Besonderen ansehen.

Die Vorteile von synthetischen Daten

Wir werden zwei wichtige Vorteile der Datensynthese hervorheben: einen effizienteren Zugang zu Daten und bessere Analysen. Wir werden jeden dieser Vorteile nacheinander untersuchen.

Effizienter Zugang zu Daten

Der Zugang zu Daten ist für AIML-Projekte entscheidend. Die Daten werden benötigt, um Modelle zu trainieren und zu validieren. Darüber hinaus werden die Daten auch benötigt, um AIML-Technologien zu bewerten, die von anderen entwickelt wurden, und um AIML-Softwareanwendungen oder Anwendungen, die AIML-Modelle enthalten, zu testen.

Normalerweise werden Daten für einen bestimmten Zweck mit dem Einverständnis der Person gesammelt - zum Beispiel für die Teilnahme an einem Webinar oder einer klinischen Forschungsstudie. Wenn du dieselben Daten für einen anderen Zweck verwenden willst, z. B. um ein Modell zu erstellen, mit dem du vorhersagen kannst, welche Art von Person sich wahrscheinlich für ein Webinar anmelden oder an einer klinischen Studie teilnehmen wird, dann gilt dies als sekundärer Zweck.

Der Zugang zu Daten für sekundäre Zwecke, wie z.B. Analysen, wird immer problematischer. Das Government Accountability Office¹ und das McKinsey Global Institute² stellen beide fest, dass der Zugang zu Daten für den Aufbau und das Testen von AIML-Modellen eine Herausforderung für deren allgemeine Einführung darstellt. Eine Deloitte-Analyse kam zu dem Schluss, dass Probleme beim Datenzugang zu den drei größten Herausforderungen gehören, mit denen Unternehmen bei der Einführung von KI konfrontiert sind.³ Gleichzeitig ist die Öffentlichkeit verunsichert, wie ihre Daten genutzt und weitergegeben werden, und die Datenschutzgesetze werden strenger. Eine aktuelle Umfrage von O'Reilly hat gezeigt, dass mehr als die Hälfte der Unternehmen, die mit KI Erfahrung haben, Datenschutzprobleme haben.⁴

Aktuelle Datenschutzbestimmungen wie der US Health Insurance Portability and Accountability Act (HIPAA) und die General Data Protection Regulation (GDPR) in Europa erfordern eine Rechtsgrundlage für die Verwendung personenbezogener Daten für einen sekundären Zweck. Ein Beispiel für eine solche Rechtsgrundlage wäre eine zusätzliche Zustimmung oder Genehmigung der Betroffenen, bevor ihre Daten verwendet werden können. In vielen Fällen ist dies nicht praktikabel und kann zu Verzerrungen in den Daten führen, da sich Personen, die ihre Zustimmung gegeben haben, und solche, die dies nicht getan haben, in wichtigenMerkmalen unterscheiden.⁵

Da es schwierig ist, an Daten heranzukommen, versuchen Analysten manchmal, nur Open-Source- oder öffentliche Datensätze zu verwenden. Diese können ein guter Ausgangspunkt sein, aber es fehlt ihnen an Vielfalt und sie sind oft nicht gut auf die Probleme abgestimmt, die die Modelle lösen sollen. Außerdem kann es sein, dass die Heterogenität offener Daten nicht ausreicht, um robuste Modelle zu trainieren. Zum Beispiel erfassen offene Daten seltene Fälle nicht gut genug.

Die Datensynthese kann dem Analysten ziemlich effizient und in großem Umfang realistische Daten liefern, mit denen er arbeiten kann. Synthetische Daten würden nicht als identifizierbare personenbezogene Daten gelten. Daher würden die Datenschutzbestimmungen nicht gelten und eine zusätzliche Zustimmung zur Nutzung der Daten für sekundäre Zwecke wäre nicht erforderlich.⁶

Bessere Analysen ermöglichen

Ein Anwendungsfall, in dem die Synthese eingesetzt werden kann, ist, wenn es keine echten Daten gibt - zum Beispiel, wenn der Analyst versucht, etwas völlig Neues zu modellieren, und die Erstellung oder Sammlung eines echten Datensatzes von Grund auf kostspielig oder unpraktisch wäre. Synthetisierte Daten können auch Kanten oder seltene Fälle abdecken, die in der realen Welt schwer, unpraktisch oder unethisch zu erheben sind.

Manchmal gibt es echte Daten, die nicht beschriftet sind. Die Beschriftung einer großen Menge von Beispielen für überwachte Lernaufgaben kann zeitaufwändig sein, und die manuelle Beschriftung ist fehleranfällig. Auch hier können synthetische, beschriftete Daten erzeugt werden, um die Modellentwicklung zu beschleunigen. Der Syntheseprozess kann eine hohe Genauigkeit bei der Beschriftung gewährleisten.

Analysten können die synthetischen Datenmodelle nutzen, um ihre Annahmen zu überprüfen und die Art der Ergebnisse zu demonstrieren, die mit ihren Modellen erzielt werden können. Auf diese Weise können die synthetischen Daten zu Forschungszwecken verwendet werden. Wenn die Analysten wissen, dass sie interessante und nützliche Ergebnisse haben, können sie den komplexeren Prozess der Beschaffung der echten Daten (entweder roh oder anonymisiert) durchlaufen, um die endgültigen Versionen ihrerModelle zu erstellen.

Wenn ein Analyst zum Beispiel ein Forscher ist, kann er seine Sondierungsmodelle auf synthetischen Daten verwenden, um dann eine Finanzierung für den Zugang zu den echten Daten zu beantragen, was ein vollständiges Protokoll und mehrere Genehmigungsstufen erfordern kann. In einem solchen Fall wären Bemühungen mit den synthetischen Daten, die keine guten Modelle oder verwertbaren Ergebnisse hervorbringen, immer noch von Vorteil, weil sie die Forscher dazu veranlassen, etwas anderes zu versuchen, anstatt zu versuchen, für eine möglicherweise vergebliche Analyse auf die echten Daten zuzugreifen.

Ein weiteres Szenario, in dem synthetische Daten wertvoll sein können, ist, wenn die synthetischen Daten verwendet werden, um ein erstes Modell zu trainieren, bevor die echten Daten zugänglich sind. Wenn der Analytiker dann die echten Daten erhält, kann er das trainierte Modell als Ausgangspunkt für das Training mit den echten Daten verwenden. Das kann die Konvergenz des Modells für die echten Daten erheblich beschleunigen (und damit die Rechenzeit verkürzen) und möglicherweise zu einem genaueren Modell führen. Dies ist ein Beispiel für die Verwendung synthetischer Daten für das Transferlernen.

Die Vorteile synthetischer Daten können dramatisch sein - sie können unmögliche Projekte machbar machen, AIML-Initiativen erheblich beschleunigen oder die Ergebnisse von AIML-Projekten wesentlich verbessern.

Synthetische Daten als Proxy

Wenn der Nutzen der synthetischen Daten hoch genug ist, können Analysten mit den synthetischen Daten ähnliche Ergebnisse erzielen wie mit den echten Daten. In diesem Fall spielen die synthetischen Daten die Rolle eines Stellvertreters für die realen Daten. Es gibt immer mehr Anwendungsfälle, in denen dieses Szenario zum Tragen kommt: Da die Synthesemethoden im Laufe der Zeit immer besser werden, wird dieses Proxy-Ergebnis immer häufiger vorkommen.

Wir haben gesehen, dass synthetische Daten eine Schlüsselrolle bei der Lösung einer Reihe von praktischen Problemen spielen können. Einer der entscheidenden Faktoren für die Akzeptanz der Datensynthese ist jedoch das Vertrauen in die erzeugten Daten. Es ist seit langem bekannt, dass für eine breite Akzeptanz von Datensynthesemethoden ein hoher Datennutzen erforderlich ist.⁷ Diesem Thema widmen wir uns als Nächstes.

Lernen, synthetischen Daten zu vertrauen

Das Interesse an synthetischen Daten begann in den frühen 1990er Jahren mit Vorschlägen zur Verwendung von Mehrfach-Imputationsmethoden zur Erzeugung synthetischer Daten. Unter Imputation versteht man im Allgemeinen eine Klasse von Methoden, mit denen fehlende Daten durch realistische Daten ersetzt werden. Fehlende Daten können z. B. bei einer Umfrage auftreten, bei der einige Befragte den Fragebogen nicht ausfüllen.

Um genaue imputierte Daten zu erhalten, muss der Analyst ein Modell des interessierenden Phänomens anhand der verfügbaren Daten erstellen und dieses Modell dann verwenden, um zu schätzen, wie hoch der imputierte Wert sein sollte. Um ein gültiges Modell zu erstellen, muss der Analyst wissen, wie die Daten letztendlich verwendet werden.

Bei der multiplen Imputation erstellst du mehrere imputierte Werte, um die Unsicherheit in diesen geschätzten Werten zu erfassen. Das Ergebnis sind mehrere imputierte Datensätze. Es gibt spezielle Techniken, mit denen die Analysen, die in jedem imputierten Datensatz wiederholt werden, kombiniert werden können, um einen endgültigen Satz von Analyseergebnissen zu erhalten. Dieser Prozess kann recht gut funktionieren, wenn du im Voraus weißt, wie die Daten verwendet werden sollen.

Bei der Verwendung von Imputationen für die Datensynthese werden die realen Daten durch synthetische Daten ergänzt, die die gleiche Art von Imputationstechniken verwenden. In diesem Fall werden die realen Daten verwendet, um ein Imputationsmodell zu erstellen, das dann zur Synthese neuer Daten verwendet wird.

Die Herausforderung besteht darin, dass, wenn sich deine Imputationsmodelle von den Modellen unterscheiden, die letztendlich mit den synthetischen Daten erstellt werden, die imputierten Werte die realen Werte möglicherweise nicht sehr gut widerspiegeln, was zu Fehlern in den Daten führt. Dieses Risiko, ein falsches Modell zu erstellen, hat in der Vergangenheit zu einer gewissen Vorsicht bei der Verwendung synthetischer Daten geführt.

In jüngerer Zeit werden statistische maschinelle Lernmodelle für die Datensynthese verwendet. Der Vorteil dieser Modelle ist, dass sie die Verteilungen und komplexen Beziehungen zwischen den Variablen recht gut erfassen können. Sie entdecken das zugrundeliegende Modell in den Daten, anstatt dass der Analytiker dieses Modell vorgeben muss. Mit der Deep Learning-Datensynthese können diese Modelle sehr genau sein, weil sie einen Großteil der Signale in den Daten erfassen können - auch subtile Signale.

Daher nähern wir uns dem Punkt, an dem die heute verfügbaren generativen Modelle Datensätze erzeugen, die recht gute Ersatzwerte für reale Daten werden. Es gibt aber auch Möglichkeiten, den Nutzen von synthetischen Daten objektiver zu bewerten.

Wir können zum Beispiel die Analyseergebnisse der synthetischen Daten mit den Analyseergebnissen der echten Daten vergleichen. Wenn wir nicht wissen, welche Analyse mit den synthetischen Daten durchgeführt wird, können wir eine Reihe möglicher Analysen ausprobieren, die auf bekannten Verwendungen dieser Daten basieren. Oder es kann eine "Alle Modelle"-Bewertung durchgeführt werden, bei der alle möglichen Modelle aus den realen und synthetischen Datensätzen erstellt und verglichen werden.

Synthetische Daten können auch verwendet werden, um die Heterogenität eines Trainingsdatensatzes zu erhöhen und so ein robusteres AIML-Modell zu erstellen. So können z. B. Kanten, für die es keine Daten gibt oder die schwer zu erheben sind, synthetisiert und in den Trainingsdatensatz aufgenommen werden. In diesem Fall wird der Nutzen der synthetischen Daten an der Erhöhung der Robustheit der AIML-Modelle gemessen.

Zum Zeitpunkt der Erstellung dieses Artikels hat das US Census Bureau beschlossen, synthetische Daten für einen der am meisten genutzten öffentlichen Datensätze, die Volkszählung 2020, zu nutzen. Für die Verbreitung der tabellarischen Daten wird es einen synthetischen Datensatz aus den gesammelten Volkszählungsdaten auf individueller Ebene erstellen und dann die öffentlichen Tabellendaten aus diesemsynthetischen Datensatz produzieren. Für den Syntheseprozess wird eine Mischung aus formalen und nicht-formalen Methoden verwendet.⁸

Dies zeigt wohl, dass die Datensynthese für einen der wichtigsten und am meisten genutzten Datensätze, die heute verfügbar sind, in großem Umfang eingesetzt wird.

Neben der Volkszählung wird die Datensynthese in einer Reihe von Branchen eingesetzt, wie wir später in diesem Kapitel zeigen.

Fallstudien zu synthetischen Daten

Die technischen Konzepte zur Erzeugung synthetischer Daten gibt es zwar schon seit einigen Jahrzehnten, aber ihre praktische Nutzung hat erst in letzter Zeit zugenommen. Ein Grund dafür ist, dass diese Art von Daten einige schwierige Probleme löst, die vorher nur schwer zu lösen waren, oder sie auf eine kostengünstigere Weise löst. Alle diese Probleme hängen mit dem Datenzugang zusammen: Manchmal ist es einfach schwierig, an echte Daten heranzukommen.

In diesem Abschnitt werden ein paar Anwendungsbeispiele aus verschiedenen Branchen vorgestellt. Diese Beispiele erheben keinen Anspruch auf Vollständigkeit, sondern dienen eher der Veranschaulichung. Außerdem kann ein und dasselbe Problem in mehreren Branchen auftreten (z. B. ist die Beschaffung realistischer Daten für Softwaretests ein häufiges Problem, das durch Datensynthese gelöst werden kann), so dass die Anwendungen synthetischer Daten zur Lösung dieses Problems in diesen verschiedenen Branchen relevant sein werden. Die Tatsache, dass wir das Thema Softwaretests nur in einem Bereich behandeln, bedeutet nicht, dass es nicht auch in einem anderen Bereich relevant wäre.

Die erste Branche, die wir untersuchen, ist die Herstellung und der Vertrieb. Danach geben wir Beispiele aus dem Gesundheitswesen, den Finanzdienstleistungen und dem Transportwesen. Die Branchenbeispiele umfassen alle Arten von synthetischen Daten, die wir besprochen haben, von der Generierung strukturierter Daten aus realen Einzel- und Aggregatdaten bis hin zum Einsatz von Simulationsprogrammen zur Erzeugung großer Mengen synthetischer Daten.

Herstellung und Vertrieb

Der Einsatz von AIML in Industrierobotern in Verbindung mit verbesserter Sensortechnologie ermöglicht die Automatisierung von Fabriken für komplexere und vielfältigere Aufgaben.⁹ Im Lager und in der Fabrikhalle sind diese Systeme zunehmend in der Lage, beliebige Objekte aus den Regalen und von den Förderbändern zu nehmen und sie dann zu prüfen, zu bearbeiten und zu bewegen, wie die Amazon Picking Challenge zeigt.¹⁰

Das robuste Training von Robotern für die Ausführung komplexer Aufgaben in der Produktionslinie oder im Lager kann jedoch eine Herausforderung sein, da realistische Trainingsdaten benötigt werden, die viele erwartete Szenarien abdecken, aber auch ungewöhnliche, die in der Praxis selten vorkommen, aber dennoch plausibel sind. Die Erkennung von Objekten unter verschiedenen Lichtverhältnissen, mit unterschiedlichen Texturen und in verschiedenen Positionen erfordert zum Beispiel Trainingsdaten, die die Vielfalt und Kombinationen dieser Situationen abbilden. Es ist nicht trivial, einen solchen Trainingsdatensatz zu erstellen.

Betrachten wir ein anschauliches Beispiel dafür, wie die Datensynthese genutzt werden kann, um einen Roboter für eine komplexe Aufgabe zu trainieren, die einen großen Datensatz für das Training erfordert. Ingenieure bei NVIDIA versuchten, einen Roboter mithilfe eines Deep-Learning-Modells für das Dominospiel zu trainieren (siehe Abbildung 1-2). Für das Training wurde eine große Anzahl heterogener Bilder benötigt, die das Spektrum der Situationen abbilden, denen ein Roboter in der Praxis begegnen kann. Einen solchen Trainingsdatensatz gab es nicht, und es wäre zu teuer und sehr zeitaufwändig gewesen, diese Bilder manuell zu erstellen.

Das NVIDIA-Team verwendete eine Grafik-Rendering-Engine seiner Spieleplattform, um Bilder von Dominosteinen in verschiedenen Positionen, mit unterschiedlichen Texturen und unter verschiedenen Lichtverhältnissen zu erstellen (siehe Abbildung 1-3).¹¹ Niemand stellte die Dominosteine manuell auf und fotografierte sie, um das Modell zu trainieren - die Bilder, die für das Training erstellt wurden, wurden von der Engine simuliert.

In diesem Fall gab es keine Bilddaten, und die manuelle Erstellung eines ausreichend großen Datensatzes hätte viele Menschen viel Zeit gekostet - keine sehr kostengünstige Option. Das Team nutzte die Simulations-Engine, um eine große Anzahl von Bildern für das Training des Roboters zu erstellen. Dies ist ein gutes Beispiel dafür, wie synthetische Daten verwendet werden können, um einen Roboter für das Erkennen, Aufnehmen und Manipulieren von Objekten in einer heterogenen Umgebung zu trainieren - dieselbe Art von Modellbildung, die für Industrieroboter benötigt wird.

Gesundheitswesen

Der Zugang zu Daten für die Erstellung von AIML-Modellen in der Gesundheitsbranche ist oft schwierig, weil es Datenschutzbestimmungen gibt oder weil die Datenerhebung teuer sein kann. Gesundheitsdaten gelten in vielen Datenschutzregelungen als sensibel, und ihre Nutzung und Weitergabe zu Analysezwecken muss eine Reihe von Bedingungen erfüllen. Diese Bedingungen können nicht trivial sein (z. B. indem man den Patienten Zugang zu ihren eigenen Daten gewährt, strenge Sicherheitskontrollen für die Speicherung und Verarbeitung der Daten einführt und das Personal schult).¹² Auch die Erhebung von Gesundheitsdaten für bestimmte Studien oder Analysen kann ziemlich teuer sein. So ist zum Beispiel die Erfassung von Daten aus mehreren Standorten in klinischen Studien kostspielig.

Die folgenden Beispiele zeigen, wie synthetische Daten die Herausforderung des Datenzugriffs in der Gesundheitsbranche gelöst haben.

Daten für die Krebsforschung

Es gibt starke Strömungen, die Regierungen und die Pharmaindustrie dazu drängen, ihre Gesundheitsdaten für Sekundäranalysen breiter zugänglich zu machen. Damit soll das Problem des Datenzugangs gelöst und eine innovativere Forschung gefördert werden, um Krankheiten zu verstehen und Behandlungen zu finden. Auch die Regulierungsbehörden haben Unternehmen dazu aufgefordert, Gesundheitsdaten breiter zugänglich zu machen. Ein gutes Beispiel dafür ist die Europäische Arzneimittelagentur, die von Pharmaunternehmen verlangt hat, die Informationen, die sie für ihre Zulassungsentscheidungen eingereicht haben, öffentlich zugänglich zu machen.¹³ Auch Health Canada hat dies kürzlich getan.¹⁴

Medizinische Fachzeitschriften ermutigen Forscherinnen und Forscher, die Artikel veröffentlichen, ihre Daten öffentlich zugänglich zu machen, damit andere Forscherinnen und Forscher die Studien wiederholen können, was möglicherweise zu innovativen Analysen derselben Daten führen könnte.

Wenn diese Daten personenbezogene Informationen enthalten, müssen sie in der Regel de-identifiziert oder unpersönlich gemacht werden, bevor sie veröffentlicht werden (es sei denn, die betroffenen Personen haben vorher ihre Zustimmung gegeben, was hier nicht der Fall ist). In der Praxis ist es jedoch schwierig, komplexe Daten für eine öffentliche Freigabe zu de-identifizieren.¹⁵ Hierfür gibt es eine Reihe von Gründen:

Öffentliche Daten unterliegen nur wenigen Kontrollen (z. B. müssen die Datennutzer keine Nutzungsbedingungen akzeptieren und ihre Identität nicht preisgeben, was es schwierig macht, den sicheren Umgang mit den Daten zu gewährleisten). Aus diesem Grund können umfangreiche Datenumwandlungen erforderlich sein, um sicherzustellen, dass das Risiko einer Re-Identifizierung gering ist, wodurch der Nutzen der Daten erheblich sinkt.
Angriffe auf öffentliche Daten zur Re-Identifizierung finden in den Medien und bei den Aufsichtsbehörden immer mehr Beachtung und werden auch immer raffinierter. Die Folge ist, dass die De-Identifizierungsmethoden eher konservativ sein müssen, was den Nutzen der Daten weiter schmälert.
Die Komplexität der Datensätze, die weitergegeben werden müssen, verschärft die Probleme der Datennutzung noch weiter, da viele der Informationen in den Daten umgewandelt werden müssen, um das Risiko der Re-Identifizierung zu bewältigen.

Synthetische Daten machen es möglich, komplexe offene Daten zu haben. Komplexität bedeutet hier, dass die Daten viele Variablen und Tabellen mit vielen Transaktionen pro Person enthalten. Daten aus einer elektronischen Krankenakte in der Onkologie würden zum Beispiel als komplex gelten. Sie enthalten z. B. Informationen über den Patienten, Besuche, Behandlungen, verschriebene und verabreichte Medikamente und Labortests.

Die Synthese kann gleichzeitig das Problem des Datenschutzes lösen und Daten bereitstellen, die von höherem Nutzen sind als die herkömmliche Alternative. Ein gutes Beispiel dafür sind die synthetischen Daten des Krebsregisters, die von Public Health England öffentlich zugänglich gemacht wurden. Dieser synthetische Krebsdatensatz steht zum Download zur Verfügung und kann genutzt werden, um Hypothesen zu entwickeln und zu testen und um kosteneffiziente und schnelle Machbarkeitsbewertungen für zukünftige Krebsstudien durchzuführen.

Neben den Daten für die Forschung findet auch in der Medizin (langsam) eine digitale Revolution statt.¹⁶ Die großen Mengen an Gesundheitsdaten, die bei Anbietern und Kostenträgern vorhanden sind, enthalten zum Beispiel viele Erkenntnisse, die mit den leistungsfähigeren AIML-Techniken aufgedeckt werden können. Neue digitale medizinische Geräte liefern immer mehr kontinuierliche Daten über die Gesundheit und das Verhalten der Patienten. Die von den Patienten gemeldeten Ergebnisse geben Aufschluss über Funktion, Lebensqualität und Schmerzen. Und natürlich sind genomische und andere -omische Daten das Herzstück der personalisierten Medizin. All diese Daten müssen in die Point-of-Care- und At-Home-Entscheidungen und -Behandlungen integriert und genutzt werden. Innovationen in der AIML können dies erleichtern.

Im nächsten Abschnitt untersuchen wir, wie Unternehmen der digitalen Gesundheit und der Gesundheitstechnologie synthetische Daten nutzen können, um dieses Innovationsökosystem zu erschließen. Und wir stellen fest, dass immer mehr traditionelle Arzneimittel- und Gerätehersteller zu digitalen Gesundheitsunternehmen werden.

Evaluierung innovativer digitaler Gesundheitstechnologien

Unternehmen der Gesundheitstechnologie sind ständig auf der Suche nach datengesteuerten Innovationen, die von außen kommen. Dabei kann es sich um Innovationen von Start-up-Unternehmen oder von akademischen Einrichtungen handeln. Typische Beispiele sind Datenanalyse (statistisches maschinelles Lernen oder Deep-Learning-Modelle und -Tools), Datenverarbeitung (z. B. Tools zur Datenstandardisierung und -harmonisierung sowie zur Datenbereinigung) und Tools zur Erkennung von Datentypen (die herausfinden, wo im Unternehmen verschiedene Datentypen existieren).

Da die Einführung neuer Technologien Ressourcen bindet und Opportunitätskosten verursacht, muss die Entscheidung dafür mit Bedacht getroffen werden. Diese Unternehmen brauchen einen Mechanismus, mit dem sie diese Innovationen effizient bewerten können, um festzustellen, welche von ihnen in der Praxis wirklich funktionieren und - was noch wichtiger ist - welche mit ihren Daten funktionieren werden. Das geht am besten, indem man den Innovatoren einige Daten zur Verfügung stellt und sie ihre Produkte anhand dieser Daten vorführen lässt.

Einige große Unternehmen werden in einem beachtlichen Tempo von Innovatoren kontaktiert - manchmal werden mehrere Teile eines Unternehmens gleichzeitig angesprochen. Die Angebote sind überzeugend, und die potenziellen Vorteile für ihr Geschäft können erheblich sein. Die großen Unternehmen wollen diese Innovationen in ihr Unternehmen einführen. Die Erfahrung hat ihnen jedoch gezeigt, dass einige der Start-ups eher Ideen als ausgereifte Produkte vorstellen und dass die Akademiker/innen Lösungen beschreiben, die nur bei kleinen Problemen oder in Situationen funktionieren, die sich von denen der Unternehmen unterscheiden. Es ist notwendig, diese Innovationen an ihren eigenen Problemen und Daten zu testen.

In der pharmazeutischen Industrie kann die Weitergabe von Daten an Externe sehr komplex sein, da sich viele der relevanten Daten auf Patienten oder Gesundheitsdienstleister beziehen. Die Prozesse, die für die Weitergabe dieser Daten erforderlich sind, umfassen in der Regel umfangreiche Vertragsabschlüsse und eine Prüfung der Sicherheitspraktiken beim Datenempfänger. Allein diese beiden Aufgaben können viel Zeit und Investitionen in Anspruch nehmen.

Manchmal ist das Pharmaunternehmen aufgrund dieser Komplexität oder aufgrund interner Richtlinien nicht in der Lage, seine Daten extern zu teilen. In diesem Fall bittet es den Innovator, die Software in seiner Umgebung zu installieren (siehe "Schnelle Technologiebewertung" für ein Beispiel). Dies führt zu erheblicher Komplexität und Verzögerungen, da das Unternehmen nun die Software prüfen, Kompatibilitätsprobleme lösen und die Integrationspunkte herausfinden muss. Das macht Technologieevaluierungen ziemlich teuer und bindet viele interne Ressourcen. Außerdem lässt sich dieses Verfahren nicht auf die (potenziell) Hunderte von Innovationen ausdehnen, die das Unternehmen jedes Jahr testen möchte.

Diese Unternehmen haben damit begonnen, zwei Dinge zu tun, um diesen Prozess effizienter zu gestalten und um Innovationen einzuführen. Erstens haben sie einen Standardsatz synthetischer Datensätze, die repräsentativ für ihre Patienten- oder Anbieterdaten sind. Ein Pharmaunternehmen verfügt zum Beispiel über eine Reihe von synthetischen Datensätzen für klinische Studien in verschiedenen Therapiebereichen. Diese Datensätze können leicht mit Innovatoren für Pilotprojekte oder schnelle Proof-of-Concept-Projekte geteilt werden.

Schnelle Technologiebewertung

Cambridge Semantics (CS), ein Bostoner Unternehmen, das eine Graphdatenbank und darauf aufbauende Analysetools entwickelt, plante ein Pilotprojekt mit einem großen Kunden aus der Gesundheitsbranche, um zu zeigen, wie seine Tools zur Harmonisierung von Daten aus klinischen Studien eingesetzt werden können. Um dieses Pilotprojekt durchführen zu können, brauchte CS Daten von diesem Kunden. Auf diese Weise konnte CS zeigen, dass seine Tools mit echten Daten funktionieren, die für den Kunden relevant sind.

Die anfängliche Herausforderung bestand darin, dass die CS, um Daten von dem Interessenten zu erhalten, ein Audit durchlaufen musste, um sicherzustellen, dass sie über angemessene Sicherheits- und Datenschutzpraktiken für den Umgang mit persönlichen Gesundheitsdaten verfügt. Dieser Prozess hätte drei bis vier Monate in Anspruch genommen.

Eine Alternative, die in Betracht gezogen wurde, war, dass die CS ihre Software in der privaten Cloud des Interessenten installiert und sie dort mit echten Daten betreibt. Die Einführung einer neuen Software in einer regulierten Computerumgebung ist jedoch nicht trivial. Außerdem hätte der Zugriff der CS-Mitarbeiter auf die interne Computerumgebung zusätzliche Kontrollen und Prozesse erfordert. Auch dies hätte drei bis vier Monate gedauert.

Das Team entschied sich für eine Lösung mit synthetischen Daten, bei der eine Reihe von synthetischen Datensätzen erstellt und dem CS zur Verfügung gestellt wurden, um zu demonstrieren, wie es das spezifische Problem lösen würde. Das Pilotprojekt wurde innerhalb weniger Tage abgeschlossen.

Das zweite Verfahren, das eingesetzt wird, sind Wettbewerbe. Die Grundidee besteht darin, ein Problem zu definieren, das gelöst werden muss, und dann eine Reihe von Innovatoren einzuladen, dieses Problem zu lösen und ihre Lösungen anhand synthetischer Daten zu demonstrieren. Dies können offene oder geschlossene Wettbewerbe sein. Bei ersteren kann jedes Start-up, jede Person oder Institution teilnehmen, z. B. durch die Organisation von öffentlichen Hackathons oder Datathons. Bei den geschlossenen Wettbewerben werden bestimmte Innovatoren zur Teilnahme eingeladen.

Bei öffentlichen Hackathons oder Datathons werden die Teilnehmer/innen eingeladen, ein bestimmtes Problem zu lösen, und am Ende erhält die siegreiche Person oder das siegreiche Team einen Preis. Der Hauptunterschied zwischen solchen öffentlichen Veranstaltungen und den zuvor beschriebenen Wettbewerben besteht darin, dass die Innovatoren nicht im Voraus ausgewählt werden, sondern die Teilnahme eher offen ist. Die Vielfalt bei diesen Wettbewerben bedeutet, dass in relativ kurzer Zeit viele neue Ideen entwickelt und bewertet werden. Synthetische Daten können unter diesen Umständen einen wichtigen Beitrag leisten, indem sie Datensätze bereitstellen, auf die die Teilnehmer/innen mit minimalen Einschränkungen zugreifen können.

Ein gutes Beispiel für einen offenen Wettbewerb ist der Heritage Health Prize (HHP). Der HHP zeichnete sich durch die Höhe des Preises und den Umfang des Datensatzes aus, der den Teilnehmern zur Verfügung gestellt wurde. Zum Zeitpunkt des Wettbewerbs, der von 2011 bis 2013 stattfand, waren synthetische Daten nur begrenzt verfügbar, weshalb ein anonymisierter Datensatz erstellt wurde.¹⁷ Aufgrund der bereits erwähnten Herausforderungen bei der De-Identifizierung offener Datensätze werden Wettbewerbe im Gesundheitsbereich in der Regel geschlossen. Zum jetzigen Zeitpunkt gibt es jedoch keinen zwingenden Grund, diese Einschränkung beizubehalten. Synthetische Daten werden jetzt verwendet, um solche Wettbewerbe zu ermöglichen, wie in "Datathons Enabled by Synthetic Data" beschrieben .

In der Praxis ist nur ein kleiner Prozentsatz dieser Bewertungen erfolgreich, wenn sie mit einem realistischen Datensatz arbeiten können. Die Innovatoren, die es durch die Bewertung oder den Wettbewerb schaffen, werden dann eingeladen, den aufwändigeren Prozess zu durchlaufen, um Zugang zu echten Daten zu erhalten und detailliertere Demonstrationen durchzuführen, oder das Unternehmen entscheidet sich zu diesem Zeitpunkt, die Innovation zu lizenzieren. Zumindest aber werden die kostspieligeren Investitionen in die Technologiebewertung oder -übernahme nur bei Kandidaten getätigt, von denen bekannt ist, dass sie eine funktionierende Innovation haben.

Datathons durch synthetische Daten ermöglicht

Die Vivli-Microsoft Data Challenge fand im Juni 2019 in Boston statt. Ziel des Wettbewerbs war es, innovative Methoden vorzuschlagen, um die gemeinsame Nutzung von Datensätzen zu seltenen Krankheiten zu erleichtern, und zwar so, dass der analytische Wert der Daten erhalten bleibt und gleichzeitig die Privatsphäre der Teilnehmer geschützt wird. Die Weitergabe von Datensätzen zu seltenen Krankheiten unter Wahrung der Privatsphäre der Teilnehmer ist besonders schwierig, da sie oft nur relativ wenige Personen enthalten und diese nur anhand einiger weniger Merkmale identifiziert werden können.

An der Veranstaltung nahmen 60 Teilnehmer in 11 Teams aus Universitäten, Krankenhäusern, Pharma-, Biotech- und Softwareunternehmen teil. Jedes Team hatte fünf Stunden Zeit, um eine Lösung zu planen und vorzuschlagen, und dann fünf Minuten, um sie den Juroren zu präsentieren. Die Lösungen kombinierten neue und bestehende Technologien auf interessante Art und Weise, die auf den Einsatz in Datensätzen für seltene Krankheiten zugeschnitten waren. Es überrascht nicht, dass das Siegerteam eine Lösung vorschlug, die auf der Verwendung von synthetischen Daten basiert.

Synthetische Daten waren entscheidend für den Erfolg dieser Veranstaltung, da sie es allen Teilnehmern ermöglichten, sich mit realistischen klinischen Versuchsdaten "die Hände schmutzig zu machen", ohne dass sie teure, sichere Computerumgebungen oder andere Kontrollmechanismen verwenden mussten. Die synthetischen Daten verschafften dem Wettbewerb einen Bezug zur Realität, da sie die Teilnehmer/innen mit Beispieldaten versorgten, die ihre Lösungen verarbeiten können mussten. Gruppen, die Demos ihrer Lösungen erstellten, konnten ihre Methoden auch auf die synthetischen Daten anwenden, um ihrKonzept unter Beweis zu stellen.

Bei solchen Datenherausforderungen kommt es darauf an, den Teilnehmern qualitativ hochwertige Daten zur Verfügung zu stellen, und synthetische Daten sind ein praktisches Mittel dafür.

Ein weiterer großer Abnehmer von synthetischen Daten ist die Finanzdienstleistungsbranche. Das liegt zum Teil daran, dass diese Branche schon früh die AIML-Technologie und datengestützte Entscheidungsfindung genutzt hat, z. B. bei der Betrugserkennung, der Bearbeitung von Forderungen und dem Verbrauchermarketing. Im nächsten Abschnitt untersuchen wir spezifische Anwendungsfälle, in denen synthetische Daten in diesem Sektor eingesetzt wurden.

Finanzdienstleistungen

Der Zugang zu großen Mengen historischer Marktdaten kann in der Finanzdienstleistungsbranche teuer sein. Diese Art von Daten wird z.B. für die Erstellung von Modellen für Handelsentscheidungen und für Softwaretests benötigt. Auch die Verwendung von Finanztransaktionsdaten von Verbrauchern für die Erstellung von Modellen, z. B. im Zusammenhang mit der Vermarktung von Bankdienstleistungen für Privatkunden, ist nicht immer einfach, da dies die Weitergabe von persönlichen Finanzdaten an interne und externe Datenanalysten erfordert.

Die folgenden Anwendungsfälle zeigen, wie synthetische Daten genutzt wurden, um einige dieser Herausforderungen zu lösen.

Benchmarks für synthetische Daten

Bei der Auswahl von Soft- und Hardware zur Verarbeitung großer Datenmengen müssen Finanzdienstleister Anbieter und Lösungen auf dem Markt bewerten. Anstatt jedes Unternehmen die Technologien innovativer Anbieter und Akademiker einzeln bewerten zu lassen, ist es üblich, standardisierte Datenbenchmarks zu erstellen.

Ein Daten-Benchmark würde aus einem Datensatz und einer Reihe von Tests bestehen, die mit diesem Datensatz durchgeführt werden. Anbieter und Wissenschaftler können dann ihre Software und Hardware einsetzen, um mit diesen Daten die Ergebnisse zu produzieren, die dann auf einheitliche Art und Weise verglichen werden können. Die Erstellung eines Benchmarks wäre am sinnvollsten, wenn der Markt groß genug ist und sich die Gemeinschaft auf einen repräsentativen Benchmark einigen kann.

In Wettbewerbsszenarien, in denen mehrere Anbieter und Akademiker Lösungen für dieselben Probleme anbieten, müssen die Benchmarks so konstruiert sein, dass niemand das System leicht austricksen kann. Mit einem Standard-Eingabedatensatz können die Lösungen einfach trainiert oder so konfiguriert werden, dass sie die richtigen Ergebnisse liefern, ohne die notwendigen analytischen Berechnungen durchzuführen.

Synthetische Daten-Benchmarks werden anhand desselben zugrunde liegenden Modells erstellt, aber jeder Anbieter oder jede Hochschule erhält einen eigenen und spezifischen Satz synthetischer Daten, die aus diesem Modell generiert werden. Auf diese Weise muss jedes Unternehmen, das den Benchmark durchführt, unterschiedliche Ergebnisse erzielen, um bei dem Benchmark gut abzuschneiden.

Ein Beispiel ist der STAC-A2-Benchmark zur Bewertung von Software und Hardware für die Modellierung von Finanzmarktrisiken. Der Benchmark enthält eine Reihe von Qualitätsmerkmalen, die bei der Berechnung von Optionspreis-Sensitivitäten für mehrere Vermögenswerte mit Hilfe der Monte-Carlo-Simulation bewertet werden. Außerdem gibt es eine Reihe von Leistungs-/Skalierungstests, die mit den Daten durchgeführt werden.

Wenn Finanzdienstleister einen Technologieanbieter auswählen möchten, können sie die Lösungen auf dem Markt anhand eines einheitlichen Benchmarks vergleichen, der auf der Grundlage vergleichbarer Daten durchgeführt wurde. Dies ermöglicht eine neutrale Bewertung der Stärken und Schwächen der verfügbaren Angebote, ohne dass die Unternehmen ihre eigenen Bewertungen durchführen müssen (was teuer und zeitaufwändig sein kann) oder sich auf anbieterspezifische Bewertungen verlassen müssen (die möglicherweise für den jeweiligen Anbieter voreingenommen sind).

Software-Tests

Softwaretests sind ein klassischer Anwendungsfall für synthetische Daten. Dazu gehören Funktions- und Leistungstests von Softwareanwendungen durch die Softwareentwickler. In manchen Fällen werden große Datensätze benötigt, um Softwareanwendungen zu testen, um sicherzustellen, dass sie einen bestimmten Durchsatz oder ein bestimmtes Volumen erreichen können. Erweiterungen des Anwendungsfalls Testen sind Datensätze für Software-Demos durch ein Verkaufsteam und für die Schulung von Software-Nutzern anhand realistischer Daten.

Softwaretests sind in vielen Branchen üblich, und die Probleme, die mit synthetischen Daten angegangen werden, sind dieselben. Im Finanzdienstleistungssektor gibt es zwei häufige Anwendungsfälle. Der erste besteht darin, interne Softwareanwendungen (z. B. zur Betrugserkennung) zu testen, um sicherzustellen, dass sie die vorgesehenen Funktionen erfüllen und keine Fehler aufweisen. Für diese Prüfung werden realistische Eingabedaten benötigt, die auch Kanten oder ungewöhnliche Kombinationen von Eingaben abdecken. Zweitens muss geprüft werden, ob diese Anwendungen ihre Leistung skalieren können (z. B. sind die Reaktionszeiten bei automatisierten Handelsanwendungen wichtig), um die großen Datenmengen zu bewältigen, die in der Praxis wahrscheinlich anfallen. Bei diesen Tests müssen auch ungewöhnliche Situationen simuliert werden, z. B. wenn das Handelsvolumen aufgrund eines externen politischen oder umweltpolitischen Ereignisses in die Höhe schießt.

In den meisten Gruppen, die sich mit Softwareentwicklung beschäftigen, ist es nicht einfach, Produktionsdaten zu erhalten. Das kann an Datenschutzbedenken liegen oder daran, dass die Daten vertrauliche Geschäftsinformationen enthalten. Deshalb zögert man, diese Daten einer großen Gruppe von Softwareentwicklern zur Verfügung zu stellen. Das Gleiche gilt für die Bereitstellung von Daten für Demos und für Schulungszwecke. Außerdem ist die Software in manchen Fällen neu und es gibt nicht genügend Kundendaten, um sie für Tests zu verwenden.

Eine Alternative besteht darin, die Produktionsdaten zu de-identifizieren, bevor sie den Testteams zur Verfügung gestellt werden. Da der Bedarf an Testdaten kontinuierlich besteht, muss auch die De-Identifizierung kontinuierlich durchgeführt werden. Die Kosteneffizienz einer kontinuierlichen De-Identifizierung im Vergleich zur De-Identifizierung von synthetischen Daten muss berücksichtigt werden. Ein grundlegenderes Problem ist jedoch das Ausmaß der Kontrollen, die die Softwareentwickler bei der Arbeit mit den anonymisierten Daten einhalten müssen. Wie wir später noch sehen werden, wird das Risiko der Re-Identifizierung durch eine Mischung aus Datenumwandlung und Sicherheits- und Datenschutzkontrollen gesteuert. Softwareentwicklungsgruppen sind es gewohnt, mit weniger strengen Kontrollen zu arbeiten.

Die Anforderungen an die Datennutzung für Softwaretests sind nicht so hoch wie für einige der anderen Anwendungsfälle, die wir uns angesehen haben. Es ist möglich, synthetische Daten aus theoretischen Verteilungen zu erzeugen und sie dann für Tests zu verwenden. Ein anderer Ansatz besteht darin, öffentliche Datensätze (offene Daten) zu verwenden und diese mehrfach zu wiederholen, um größere Testdatensätze zu erstellen oder Stichproben mit Ersetzung zu ziehen (Stichproben aus dem Datensatz, so dass jeder Datensatz mehr als einmal gezogen werden kann).

Es gibt prinzipiellere Methoden für die Erzeugung synthetischer Daten für Tests, Demos und Training. Dabei werden synthetische Daten aus realen Daten mit denselben Ansätzen erzeugt, die auch für die Erstellung und Prüfung von AIML-Modellen verwendet werden. So wird sichergestellt, dass die Daten realistisch sind und die richtigen statistischen Eigenschaften haben (z. B. wird ein seltenes Ereignis in den realen Daten auch ein seltenes Ereignis in den synthetischen Daten sein) und dass diese Eigenschaften beibehalten werden, wenn große synthetische Datensätze erzeugt werden.

Die nächste Branche, die wir betrachten werden, ist das Transportwesen. In diesem Bereich werden wir die Datensynthese für Planungszwecke durch Mikrosimulationsmodelle und die Datensynthese für Trainingsmodelle in autonomen Fahrzeugen betrachten.

Transport

Die Nutzung synthetischer Daten in der Verkehrsbranche reicht einige Jahrzehnte zurück. Der Hauptgrund dafür ist die Notwendigkeit, sehr spezifische Planungs- und Politikentscheidungen über die Infrastruktur in einem datenbeschränkten Umfeld zu treffen. Daher wurde der Einsatz von Mikrosimulationsmodellen für die Entscheidungsfindung wichtig. Dies ist das erste Beispiel, das wir betrachten. Das zweite Beispiel ist der Einsatz von Spiel-Engines, um virtuelle Umgebungen zu erstellen, die zum Trainieren von AIML-Modellen verwendet werden, die dann in die autonomen Fahrzeuge eingebaut werden.

Mikrosimulationsmodelle

Mikrosimulationsumgebungen ermöglichen es den Nutzern, "Was-wäre-wenn"-Analysen durchzuführen und neue Szenarien zu spielen. Diese Simulationsumgebungen werden dann interessant, wenn keine realen Daten verfügbar sind und daher synthetische Daten erstellt werden müssen.

Im Bereich der Verkehrsplanung ist es zum Beispiel notwendig, die Auswirkungen einer geplanten neuen Infrastruktur wie einer neuen Brücke oder eines neuen Einkaufszentrums zu bewerten. Aktivitätsbasierte Verkehrsnachfragemodelle können synthetische Daten verwenden, um dies zu ermöglichen.

Ein gängiger Ansatz zur Erstellung synthetischer Daten für diese Modelle kombiniert aggregierte Daten - zum Beispiel aus der Volkszählung - mit Stichprobendaten auf individueller Ebene, die in Umfragen erhoben werden. Die Volkszählungsdaten enthalten normalerweise Informationen wie Haushaltszusammensetzung, Einkommen und Anzahl der Kinder. Die aggregierten Daten decken normalerweise die gesamte interessierende Bevölkerung ab, enthalten aber möglicherweise nicht alle benötigten Variablen und nicht in der gewünschten Granularität. Die Erhebungsdaten decken eine Stichprobe der Bevölkerung ab, enthalten aber sehr detaillierte und umfangreiche Variablen.

Bei der synthetischen Rekonstruktion wird dann ein iterativer Prozess wie die iterative proportionale Anpassung (IPF) verwendet, um synthetische Daten auf individueller Ebene zu erstellen, die auf plausible Weise die Gesamtzusammenfassungen erzeugen und die Beispieldaten als Ausgangspunkt verwenden. Das IPF-Verfahren wurde vor einiger Zeit entwickelt und in jüngerer Zeit auf das Problem der Datensynthese angewandt.¹⁸^,¹⁹ Das IPF-Verfahren hat im Zusammenhang mit der Datensynthese einige bekannte Nachteile - zum Beispiel, wenn die Umfragedaten seltene Situationen nicht abdecken. Es wurden robustere Verfahren wie die kombinatorische Optimierung entwickelt, um diese Nachteile auszugleichen.²⁰

Der nächste Schritt ist die Verwendung anderer Daten, die ebenfalls durch Umfragen oder direkt von den Handys der Personen gesammelt werden und ihr Verhalten und ihre Bewegungen beschreiben. Diese Daten werden verwendet, um Modelle zu erstellen, z. B. die Faktoren, die die Wahl des Verkehrsmittels einer Person beeinflussen.

Indem man die synthetischen Daten mit den Modellen kombiniert, kann man Mikrosimulationen durchführen, die zeigen, was in verschiedenen Szenarien passieren würde. Die Modelle können in der Simulation kaskadiert werden und eine Reihe von komplexen Verhaltensweisen und Ergebnissen beschreiben. Die Modelle können z. B. als Entscheidungsgrundlage für die Auswirkungen des Baus einer neuen Brücke oder eines neuen Einkaufszentrums an einem bestimmten Ort auf den Verkehr, die Nutzung öffentlicher Verkehrsmittel, Fahrradfahrten und die Autonutzung dienen. Diese Mikrosimulatoren können bis zu einem gewissen Grad validiert werden, indem sichergestellt wird, dass ihre Ergebnisse mit der Realität unter bekannten historischen Szenarien übereinstimmen. Sie können aber auch verwendet werden, um neue Szenarien zu simulieren, die als Grundlage für Planung und politische Entscheidungen dienen.

Betrachten wir nun einen ganz anderen Anwendungsfall für synthetische Daten im Zusammenhang mit der Entwicklung von AIML-Modellen für autonome Fahrzeuge. Einige dieser Modelle müssen Entscheidungen in Echtzeit treffen und können erhebliche Auswirkungen auf die Sicherheit haben. Daher ist die Robustheit ihres Trainings entscheidend.

Datensynthese für autonome Fahrzeuge

Eine der wichtigsten Funktionen eines autonomen Fahrzeugs ist die Objekterkennung. Das bedeutet, dass die Analyse der Sensordaten die Objekte auf dem Weg und in der Umgebung des Fahrzeugs erkennen muss. Kameras, Lidar- und Radarsysteme liefern die Daten für die Identifizierung von Objekten sowie für die Bestimmung von Geschwindigkeit und Entfernung dieser Objekte.

Synthetische Daten sind wichtig, um die AIML-Modelle zu trainieren, die einige dieser Signale verarbeiten. Daten aus der realen Welt können nicht alle Kanten, seltene oder gefährliche Szenarien - wie z. B. ein Tier, das in den Weg des Fahrzeugs springt, oder direktes Sonnenlicht, das auf einenKamerasensor scheint - erfassen, denen ein autonomes Fahrzeug begegnen könnte. Außerdem ist die erfasste Umgebung starr und kann nicht auf Änderungen im Verhalten des Systems reagieren, wenn es das Szenario mehrmals durchläuft.

Die einzige Möglichkeit, diese Lücken zu schließen, ist der Einsatz von synthetischen Daten. Durch die Erstellung anpassbarer Szenarien können Ingenieure reale Umgebungen modellieren - und ganz neue schaffen -, die sich verändern und auf unterschiedliche Verhaltensweisen reagieren können. Tests in der realen Welt sind zwar ein wertvolles Werkzeug für die Validierung, aber sie sind nicht annähernd umfassend genug, um zu beweisen, dass ein Fahrzeug auch ohne einen Menschen am Steuer fahren kann.

Die synthetischen Daten, die in der Simulation verwendet werden, werden mit Hilfe von Spieltechnologie aus Videospielen oder anderen virtuellen Welten erzeugt. Zuerst muss die Umgebung erstellt werden. Sie kann entweder einen Ort in der realen Welt, wie z. B. New York City, mit realen Daten nachbilden oder ein komplett synthetischer Ort sein. In jedem Fall muss alles in der Umgebung die gleichen Materialeigenschaften wie in der realen Welt simulieren - zum Beispiel die Reflexion von Licht auf Metall oder die Oberfläche von Asphalt.

Dieser Grad an Genauigkeit ermöglicht es, genau nachzubilden, wie ein Auto die Umgebung sieht, in der es fährt, indem die Daten von Kamera-, Radar- und Lidarsensoren simuliert werden. Die Prozessoren im Auto empfangen die Daten wie in einer realen Umgebung, treffen Entscheidungen und senden Steuerbefehle an den Simulator zurück. Dieser Closed-Loop-Prozess ermöglicht bitgenaue und zeitlich exakte Hardware-in-the-Loop-Tests. Außerdem können so die Funktionen des Fahrzeugs unter sehr realistischen Bedingungen getestet werden.

Natürlich kann die für Hardware-in-the-Loop-Tests benötigte Rechenkapazität beträchtlich sein: Es ist unglaublich rechenintensiv, die für die Validierung autonomer Fahrzeuge erforderliche Genauigkeit zu erreichen. Zunächst muss eine detaillierte Welt erstellt werden. Dann muss die Sensorausgabe physikalisch genau simuliert werden - was Zeit und enorme Rechenleistung erfordert.

Zusammenfassung

In den letzten Jahren haben wir beobachtet, dass die Nutzung synthetischer Daten in verschiedenen Branchen wie der Produktion, dem Gesundheitswesen, dem Transportwesen und den Finanzdienstleistungen zunimmt. Da der Datenzugriff in absehbarer Zeit nicht einfacher werden wird, ist zu erwarten, dass die Datensynthese in immer mehr Anwendungsfällen zum Einsatz kommen wird.

In diesem Kapitel haben wir zunächst einen Überblick darüber gegeben, was synthetische Daten sind und ihre Vorteile erörtert. Dann haben wir uns eine Reihe von Branchen angeschaut, in denen wir gesehen haben, wie synthetische Daten in der Praxis eingesetzt werden können, um Probleme beim Datenzugriff zu lösen. Auch hier ist ein Merkmal dieser Anwendungsfälle ihre Heterogenität und die Vielzahl der Probleme, die mit Synthese gelöst werden können. Unsere Liste der Branchen und Anwendungen ist nicht vollständig, aber sie zeigt, was die ersten Nutzer tun und welches Potenzial in ihnen steckt.

Die Beispiele in diesem Kapitel decken mehrere Datentypen ab. Unser Schwerpunkt in diesem Buch liegt auf strukturierten Daten. Viele der Konzepte, die wir behandeln, sind jedoch auch auf andere Datentypen anwendbar. Im nächsten Kapitel befassen wir uns mit wichtigen Überlegungen zur Implementierung, angefangen bei der Sicherstellung, dass die Datensynthese mit den Prioritäten deines Unternehmens übereinstimmt. Es folgt eine Beschreibung des Syntheseprozesses und des Einsatzes von Synthese-Pipelines. Wir schließen mit programmatischen Überlegungen zur Skalierung der Datensynthese im Unternehmen.

¹ US Government Accountability Office, "Artificial Intelligence: Emerging Opportunities, Challenges, and Implications for Policy and Research" (März 2018) https://www.gao.gov/products/GAO-18-644T.

² McKinsey Global Institute, "Künstliche Intelligenz: The next digital frontier?", Juni 2017. https://oreil.ly/pFMkl.

³ Deloitte Insights, "State of AI in the Enterprise, 2nd Edition" 2018. https://oreil.ly/EiD6T.

⁴ Ben Lorica und Paco Nathan, The State of Machine Learning Adoption in the Enterprise (Sebastopol: O'Reilly, 2018).

⁵ Khaled El Emam et al., "A Review of Evidence on Consent Bias in Research", The American Journal of Bioethics 13, no. 4 (2013): 42-44.

⁶ Im Allgemeinen sind andere Steuerungsmechanismen erforderlich, die wir später im Buch behandeln.

⁷ Jerome P. Reiter, "New Approaches to Data Dissemination: A Glimpse into the Future (?)," CHANCE 17, no. 3 (Juni 2004): 11-15.

⁸ Aref N. Dajani et al., "The Modernization of Statistical Disclosure Limitation at the U.S. Census Bureau" (Vortrag auf der Sitzung des Census Scientific Advisory Committee, Suitland, MD, März 2017).

⁹ Jonathan Tilley, "Automation, Robotics, and the Factory of the Future", McKinsey, September 2017. https://oreil.ly/L27Ol.

¹⁰ Lori Cameron, "Deep Learning: Our No. 1 Tech Trend for 2018 Is Set to Revolutionize Industrial Robotics", IEEE Computer Society, abgerufen am 28. Juli 2019. https://oreil.ly/dKcF7.

¹¹ Rev Lebaredian, "Synthetic Data Will Drive Next Wave of Business Applications" (Vortrag, GTC Silicon Valley, 2019). https://bit.ly/2yUefyl.

¹² Mike Hintze und Khaled El Emam, "Comparing the Benefits of Pseudonymisation and Anonymisation under the GDPR", Journal of Data Protection and Privacy 2, no. 1 (Dezember 2018): 145-58.

¹³ Europäische Arzneimittelagentur, "External Guidance on the Implementation of the European Medicines Agency Policy on the Publication of Clinical Data for Medicinal Products for Human Use", September 2017. https://oreil.ly/uVOna.

¹⁴ Health Canada, "Guidance Document on Public Release of Clinical Information", 1. April 2019. https://bit.ly/33JzHnY.

¹⁵ Khaled El Emam, "A De-identification Protocol for Open Data", IAPP Privacy Tech, 16. Mai 2016. https://bit.ly/33AetZq.

¹⁶ Neal Batra, Steve Davis und David Betts, "The Future of Health", Deloitte Insights, 30. April 2019. https://oreil.ly/4v_nY.

¹⁷ Khaled El Emam et al., "De-identification Methods for Open Health Data: The Case of the Heritage Health Prize Claims Dataset," Journal of Medical Internet Research 14, no. 1 (February 2012): e33. https://www.jmir.org/2012/1/e33.

¹⁸ W. Edwards Deming und Frederick F. Stephan, "On a Least Squares Adjustment of a Sampled Frequency Table When the Expected Marginal Totals Are Known", Annals of Mathematical Statistics 11, no. 4 (1940): 427-44.

¹⁹ Richard J. Beckman, Keith A. Baggerly und Michael D. McKay, "Creating Synthetic Baseline Populations", Transportation Research Part A 30, no. 6 (1996): 415-29.

²⁰ Zengyi Huang und Paul Williamson, "A Comparison of Synthetic Reconstruction and Combinatorial Optimization Approaches to the Creation of Small-Area Micro Data" (Arbeitspapier, University of Liverpool, 2002); Justin Ryan, Hannah Maoh und Pavlos Kanaroglou, "Population Synthesis: Comparing the Major Techniques Using a Small, Complete Population of Firms", Geographical Analysis 41 (2009): 181-203.

Get Praktische Erzeugung synthetischer Daten now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.

Start your free trial

Praktische Erzeugung synthetischer Daten by Khaled El Emam, Lucy Mosquera, Richard Hoptroff