Kapitel 4. Bewertung der Nützlichkeit synthetischer Daten
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Damit synthetische Daten auf breiter Basis genutzt und angenommen werden können, müssen sie so nützlich sein, dass sie ähnliche Analyseergebnisse liefern wie die Originaldaten.1 Das ist die Übung zur Vertrauensbildung, die in Kapitel 1 besprochen wurde. Wenn wir genau wissen, wofür die synthetischen Daten verwendet werden sollen, können wir die Daten so synthetisieren, dass sie für diesen Zweck einen hohen Nutzen haben - zum Beispiel, wenn die spezifische Art der statistischen Analyse oder des Regressionsmodells, die mit den synthetischen Daten durchgeführt werden sollen, bekannt ist. In der Praxis wissen Synthesizer jedoch oft nicht von vornherein alle Analysen, die mit den synthetischen Daten durchgeführt werden sollen. Die synthetischen Daten müssen einen hohen Nutzen für eine breite Palette möglicher Anwendungen haben.
In diesem Kapitel wird ein Rahmenwerk für die Datennutzung skizziert, das für synthetische Daten verwendet werden kann. Ein gemeinsamer Rahmen für die Datennutzung wäre von Vorteil, weil er Folgendes ermöglichen würde:
-
Datensynthetisierer, die ihre Generierungsmethoden optimieren, um einen hohenDatennutzen zu erreichen
-
Unterschiedliche Ansätze zur Datensynthese, die von den Nutzern bei der Auswahl von Datensynthesemethoden konsequent verglichen werden können
-
Datennutzer können schnell erkennen, wie zuverlässig die Ergebnisse aus den synthetischen Daten sind
Es gibt drei Arten von Ansätzen, um den Nutzen von synthetischen Daten zu bewerten:
-
Arbeitslastabhängige Bewertungen
-
Allgemeine Metriken zur Datennutzung
-
Subjektive Bewertungen des Datennutzens
Workload-aware Metriken betrachten bestimmte durchführbare Analysen, die mit den Daten durchgeführt werden könnten, und vergleichen die Ergebnisse oder bestimmte Parameter der realen und der synthetischen Daten.2 Diese Analysen können von einfachen deskriptiven Statistiken bis hin zu komplexeren multivariaten Modellen reichen. In der Regel wird eine Analyse, die mit den realen Daten durchgeführt wurde oder geplant war, auf die synthetischen Daten übertragen.
Allgemeine Bewertungen würden zum Beispiel den Abstand zwischen den ursprünglichen und den transformierten Daten berücksichtigen.3 Sie spiegeln oft nicht die spezifische Analyse wider, die mit den Daten durchgeführt wird, sondern sind eher allgemein nützliche Indikatoren, wenn zukünftige Analysepläne unbekannt sind. Um allgemeine Kennzahlen interpretieren zu können, müssen sie begrenzt sein (z. B. von 0 bis 1), und es sollte anerkannte Maßstäbe geben, um zu entscheiden, ob ein Wert hoch genug oder zu niedrig ist.
Bei einer subjektiven Bewertung würde eine ausreichend große Zahl von Fachleuten eine zufällige Mischung aus echten und synthetischen Datensätzen betrachten und dann versuchen, jeden Datensatz als echt oder synthetisch zu klassifizieren. Sieht ein Datensatz realistisch genug aus, wird er als real eingestuft. Weist er unerwartete Muster oder Beziehungen auf, kann er als synthetisch eingestuft werden. Bei einem Gesundheitsdatensatz könnten zum Beispiel Kliniker/innen gebeten werden, die subjektive Klassifizierung vorzunehmen. Die Genauigkeit dieser Klassifizierung wird dann bewertet.
In den nächsten Abschnitten stellen wir einen hybriden Rahmen für die Bewertung des Nutzens synthetischer Daten vor, indem wir einige auf die Arbeitsbelastung abgestimmte Metriken sowie einige allgemeine Metriken für mögliche univariate, bivariate und multivariate Modelle, die aus den Daten erstellt werden könnten, berücksichtigen. Eine subjektive Bewertung wird nicht dargestellt.
Neben der Replikation einer Analyse, die an einem realen Datensatz durchgeführt wurde, sind unsere Metriken insofern generisch, als dass eine genaue Kenntnis der gewünschten Analyse nicht erforderlich ist, und sie sind arbeitslastorientiert, da sie viele wahrscheinliche einfache und komplexe Modelle berücksichtigen, die in der Praxis entwickelt werden.
Synthetic Data Utility Framework: Replikation der Analyse
Wir verwenden die Volkszählungsdaten aus dem Repository für maschinelles Lernen der UC Irvine, um die Replikation einer Analyse zu veranschaulichen. Dieser Datensatz umfasst 48.842 Datensätze mit den in Abbildung 4-1 zusammengefassten Variablen.
Wir haben einen Klassifikationsbaum erstellt, um die Einkommensvariable zu klassifizieren, die zwei Kategorien hat. Alle anderen Variablen wurden als Prädiktoren verwendet. Dies ist eine typische Analyse, die für diesen Datensatz durchgeführt wird. Bei der Erstellung des Baums wurde eine 10-fache Kreuzvalidierung durchgeführt.
Der resultierende Baum für den realen Datensatz ist in Abbildung 4-2 dargestellt. Der Baum, der anhand der synthetischen Daten erstellt wurde, war genau derselbe und wird daher hier nicht wiederholt.
Der erste Split im Baum basiert auf der Beziehungsvariable. Wenn die Beziehung Ehemann oder Ehefrau ist, gehen wir zu Knoten Nummer 2, ansonsten gehen wir zu Knoten Nummer 3. Bei Knoten 3 basiert die Aufteilung auf Kapitalgewinnen von knapp über 7.000,00 $. Diejenigen, die nicht verheiratet sind und Kapitalgewinne von mehr als 7.055,50 $ haben, haben also eher ein Einkommen von mehr als 50 000 $.
In Knoten 2 gibt es eine weitere Aufteilung. Hier haben diejenigen Ehemänner und -frauen, die einen Bachelor, einen Master oder einen Doktortitel haben oder eine Fachhochschule besucht haben, auch ein Einkommen von mehr als 50.000 US-Dollar. Diejenigen, die weniger Bildung haben, gehen zu Knoten 5, der wiederum das Kapital aufteilt. Und so geht es weiter, während wir durch den Baum navigieren.
Die Bedeutung der Variablen in den realen und synthetischen Datensätzen ist in Abbildung 4-3 dargestellt. Sie zeigt, welchen Beitrag die einzelnen Variablen zur Klassifizierung des Einkommens leisten. Wie man sieht, ist die Bedeutung der Variablen in den Modellen aus beiden Datensätzen genau gleich hoch.
Anhand dieser Wiederholung der Analyse können wir sehen, dass die realen und die synthetischen Daten denselben Klassifizierungsbaum ergeben. Das ist ein aussagekräftiger Test dafür, ob ein synthetischer Datensatz ausreichend nützlich ist. Wenn mit realen und synthetischen Daten die gleichen Ergebnisse erzielt werden können, können die synthetischen Daten als Proxy dienen.
Es ist jedoch nicht immer möglich, die gleiche Analyse wie die echten Daten durchzuführen. Zum Beispiel kann die ursprüngliche Analyse sehr komplex oder arbeitsintensiv sein, und es wäre nicht kosteneffizient, sie zu wiederholen. Oder eine Analyse des realen Datensatzes wurde noch nicht mit den Originaldaten durchgeführt; es gibt also nichts, womit man vergleichen könnte. In einem solchen Fall werden allgemeinere Messgrößen benötigt, um den Nutzen der Daten zu bewerten.
Rahmen für die Nutzung synthetischer Daten: Metriken für die Nutzung
Die verschiedenen Arten von Analysen, die mit einem synthetischen Datensatz durchgeführt werden können, und die Unterscheidbarkeit des synthetischen Datensatzes vom Originaldatensatz bilden die Grundlage unseres Datennutzungsrahmens. Zur Veranschaulichung der verschiedenen Techniken verwenden wir die im Abschnitt "Beispiel für klinische Studiendaten" beschriebenen klinischen Studiendatensätze.
Um jeden synthetischen Datensatz für klinische Studien zu generieren, wurde ein Modell aus den realen Daten erstellt und dann wurden die synthetischen Daten aus diesem Modell gesampelt. Konkret wurde eine Art Klassifizierungs- und Regressionsbaum (CART)4 ein so genannter bedingter Inferenzbaum, verwendet, um die synthetischen Daten zu erzeugen.5 Der Hauptvorteil dieser Methode besteht darin, dass sie die Struktur der Daten erfassen kann, indem sie Wechselwirkungen und nichtlineare Beziehungen auf datengesteuerte Weise findet, Verzerrungen bei der Variablenauswahl ausgleicht und fehlende Daten auf unvoreingenommene Weise behandelt.
Vergleich von univariaten Verteilungen
Diese Art des Vergleichs zwischen realen und synthetischen Daten zeigt, ob die Verteilungen der Variablen ähnlich sind.
Schauen wir uns das Beispiel in Abbildung 4-4 an. Hier sehen wir die ursprüngliche Altersvariable und die synthetisierte Altersvariable für einen der klinischen Studiendatensätze, die wir uns angeschaut haben. Die synthetisierte Altersverteilung ist der ursprünglichen Altersverteilung recht ähnlich, daher ist der Datennutzen hier erwartungsgemäß hoch. Wir wollen nicht, dass die Verteilung genau gleich ist, denn das könnte ein Hinweis auf ein Datenschutzproblem sein.
Es ist aufschlussreich, sich einige Beispiele anzusehen, bei denen es Unterschiede zwischen der realen und der synthetischen Verteilung gibt.
Wenn die Datensynthesemethoden nicht gut funktionieren (z. B. schlecht angepasste Modelle), erhalten wir so etwas wie die Beispiele in Abbildung 4-5 für die Größendaten aus klinischen Studien und in Abbildung 4-6 für die Gewichtsdaten aus klinischen Studien. In diesen Beispielen kannst du deutlich die Diskrepanz zwischen den ursprünglichen Verteilungen und den generierten Verteilungen sehen. Es sieht nicht so aus, als ob die synthetisierten Daten während des Generierungsprozesses viel von den echten Daten berücksichtigt hätten! Dieses Ergebnis wollen wir natürlich nicht. Eines der ersten Dinge, auf die man bei den synthetischen Daten achten sollte, ist jedoch, wie gut die Verteilungen mit den Originaldaten übereinstimmen.
In der Praxis gibt es viele Variablen in einem Datensatz, und wir wollen in der Lage sein, die realen und die synthetischen Verteilungen für alle Variablen auf übersichtliche Weise zu vergleichen. Es ist nicht praktikabel, für jede Variable zwei Histogramme zu erstellen und sie visuell zu vergleichen, um zu entscheiden, ob sie nahe genug beieinander liegen oder nicht: Das ist einfach nicht skalierbar und die Zuverlässigkeit wird nicht immer hoch sein (zwei Analysten können die Ähnlichkeit zweier Verteilungen unterschiedlich bewerten). Deshalb brauchen wir eine Art zusammenfassende Statistik.
Die Hellinger-Distanz kann berechnet werden, um den Unterschied in der Verteilung zwischen den einzelnen Variablen in den realen und synthetischen Daten zu messen. Die Hellinger-Distanz ist ein probabilistisches Maß zwischen 0 und 1, wobei 0 keinen Unterschied zwischen den Verteilungen anzeigt. Es hat sich gezeigt, dass sie sich beim Vergleich von Originaldaten und transformierten Daten (zum Schutz des Datenschutzes) ähnlich verhält wie andere Verteilungskennzahlen.6
Ein wichtiger Vorteil des Hellinger-Abstands ist, dass er begrenzt ist, was seine Interpretation erleichtert. Wenn die Differenz nahe bei 0 liegt, wissen wir, dass die Verteilungen ähnlich sind, und wenn sie nahe bei 1 liegt, wissen wir, dass sie sehr unterschiedlich sind. Sie kann auch verwendet werden, um den univariaten Datennutzen für verschiedene Datensyntheseansätze zu vergleichen. Ein weiterer Vorteil ist, dass er für kontinuierliche und kategoriale Variablen berechnet werden kann.
Wenn wir viele Variablen haben, können wir die Hellinger-Distanzen in einem Box-and-Whisker-Diagramm darstellen, das den Median und den Inter-Quartil-Bereich (IQR) anzeigt. Dies gibt einen guten Überblick darüber, wie ähnlich sich die univariaten Verteilungen der realen und synthetischen Daten sind. Das Box-and-Whisker-Diagramm zeigt die Box, die durch das 75. und 25. Perzentil begrenzt wird, und der Median ist eine Linie in der Mitte.
Bei einem synthetischen Datensatz mit hohem Nutzen erwarten wir, dass der mittlere Hellinger-Abstand über alle Variablen hinweg nahe bei 0 liegt und die Abweichung gering ist, was darauf hindeutet, dass die synthetischen Daten die Verteilung der einzelnen Variablen in den realen Daten genau wiedergeben.
Abbildung 4-7 fasst die Unterschiede zwischen den univariaten Verteilungen der synthetischen Daten im Vergleich zu den realen Daten für den ersten Versuch zusammen. Der mittlere Hellinger-Abstand betrug 0,01 (IQR = 0,02), was bedeutet, dass die Verteilungen der realen und synthetischen Variablen nahezu identisch waren. In Abbildung 4-8 sind die Unterschiede in der univariaten Verteilung der synthetischen Daten im Vergleich zu den realen Daten für den zweiten Versuch zusammengefasst. Der mittlere Hellinger-Abstand betrug 0,02 (IQR = 0,03), was ebenfalls darauf hindeutet, dass die realen und synthetischen Variablen nahezu identisch verteilt waren.
Bivariate Statistiken miteinander vergleichen
Die Berechnung der Unterschiede zwischen Korrelationen in realen und synthetischen Daten ist ein gängiger Ansatz zur Bewertung des Nutzens synthetischer Daten.7 In einem solchen Fall kann die absolute Differenz der Korrelationen zwischen allen Variablenpaaren in den realen und synthetischen Daten als Maß für den Nutzen der Daten berechnet werden. Wir möchten, dass die Korrelationen zwischen den beiden Datensätzen sehr ähnlich sind.
Die Art des Korrelationskoeffizienten hängt von der Art der Variablen ab. Zum Beispiel wird für eine Korrelation zwischen zwei kontinuierlichen Variablen ein anderer Koeffizient benötigt als für eine Korrelation zwischen einer binären und einer kategorialen Variable.
Für Beziehungen zwischen kontinuierlichen Variablen können die Korrelationskoeffizienten nach Pearson verwendet werden. Für die Korrelation zwischen kontinuierlichen und nominalen Variablen kann der multiple Korrelationskoeffizient verwendet werden, während für kontinuierliche und dichotome Variablen die Punkt-Biserial-Korrelation verwendet wird. Wenn eine der Variablen nominal und die andere nominal oder dichotom ist, kann Cramér's V verwendet werden. Wenn beide Variablen dichotom sind, kann der phi-Koeffizient berechnet werden, um die Korrelation zu quantifizieren.
Die absolute Differenz der bivariaten Korrelationen sollte dann nach Bedarf skaliert werden, um sicherzustellen, dass alle Differenzwerte zwischen 0 und 1 liegen. Bei einem synthetischen Datensatz mit hohem Nutzen würden wir erwarten, dass die mittleren absoluten Differenzen dieser Korrelationsmaße, die anhand der realen Daten und der synthetischen Daten berechnet wurden, nahe bei 0 liegen.
Um den Nutzen übersichtlich darzustellen, können wir den absoluten Unterschied in den Korrelationen in einem Box-and-Whisker-Diagramm für alle möglichen paarweisen Beziehungen aufzeichnen oder als Heatmap darstellen. Eine Heatmap zeigt den Differenzwert in Schattierungen an, um zu verdeutlichen, welche bivariaten Korrelationsunterschiede groß bzw. klein sind.
Betrachtet man die Unterschiede in den bivariaten Korrelationen für den ersten Versuch in Abbildung 4-9, so beträgt der absolute Medianwert der Korrelation zwischen den realen Daten und den synthetischen Daten 0,03 (IQR = 0,04). Abbildung 4-10 zeigt die Ergebnisse des zweiten Versuchs, bei dem der absolute Median der Korrelation zwischen den synthetischen Daten und den realen Daten bei 0,03 (IQR = 0,04) lag. Dies zeigt, dass die bivariaten Beziehungen in den Daten bei der Generierung der synthetischen Daten weitgehend erhalten geblieben sind.
Die Box-and-Whisker-Diagramme für diese Unterschiede sind in den Abbildungen 4-11 und 4-12 dargestellt. Sie sind aussagekräftiger als die Heatmaps, aber bedenke, dass die Box-and-Whisker-Diagramme Tausende von bivariaten Korrelationen für jeden dieser Datensätze zusammenfassen. Für den zweiten Versuch wurden zum Beispiel 6.916 Korrelationen aus 7.056 möglichen Korrelationen berechnet.
Die Ausreißer in dieser Grafik sind die Kreise oberhalb des oberen Whiskers. In diesen Datensätzen treten sie auf, weil seltene Beobachtungen in den Daten die Korrelationskoeffizienten beeinflussen können oder weil einige Variablen viele fehlende Werte haben, was die Korrelationskoeffizienten instabil macht. Im Allgemeinen streben wir einen kleinen Median an und betrachten alle Nutzenkennzahlen zusammen.
Vergleich von multivariaten Vorhersagemodellen
Um festzustellen, ob die realen und die synthetischen Daten ähnliche Vorhersagefähigkeiten haben, können wir mit Hilfe von multivariaten Modellen Klassifizierungsmodelle erstellen, die jede Variable des Datensatzes als Ergebnis haben. Da nicht von vornherein bekannt ist, was ein tatsächlicher Analyst mit dem Datensatz machen würde, untersuchen wir alle möglichen Modelle. Das nennt man den Test aller Modelle.
Verallgemeinerte Boosted-Modelle (GBM) können verwendet werden, um Klassifikationsbäume zu erstellen. Diese können in der Praxis recht genaue Vorhersagemodelle erstellen.
Wir mussten die Genauigkeit der von uns erstellten Modelle berechnen. Dazu verwendeten wir die Fläche unter der Receiver-Operating-Characteristics-Kurve (auch AUROC genannt; siehe "Eine Beschreibung der ROCs").8 Die AUROC ist ein standardisiertes Verfahren zur Bewertung der Genauigkeit von Vorhersagemodellen. Um die AUROC zu berechnen, haben wir eine 10-fache Kreuzvalidierung durchgeführt. Dabei wird der Datensatz in mehrere Trainings- und Testteilmengen aufgeteilt.
Wir wollen die 10-fache Kreuzvalidierung kurz beschreiben. Wir nehmen einen Datensatz und unterteilen ihn in 10 gleich große Teilmengen mit den Nummern (1) bis (10). Zunächst behalten wir Teilmenge (1) als Testmenge und erstellen ein Modell mit den restlichen neun Teilmengen. Dann testen wir das Modell mit der Teilmenge (1), die wir herausgenommen haben. Wir berechnen den AUROC-Wert für diese Testmenge. Dann setzen wir Teilmenge (1) wieder als Teil der Trainingsdaten ein und nehmen Teilmenge (2) heraus und verwenden sie zum Testen. Der Vorgang wird 10 Mal wiederholt, wobei jedes Mal eine der Teilmengen herausgenommen und zum Testen verwendet wird. Am Ende haben wir 10 Werte für AUROC. Wir nehmen den Durchschnitt dieser Werte, um den Gesamt-AUROC zu berechnen.
Dieser durchschnittliche AUROC-Wert wurde für jedes Modell, das wir anhand der synthetischen Daten erstellt haben, und für sein Gegenstück anhand der realen Daten berechnet (das Gegenstück ist ein Modell mit der gleichen Ergebnisvariable). Die absolute Differenz zwischen den beiden AUROC-Werten wurde berechnet. Aus all diesen absoluten Differenzen der AUROC-Werte wurde dann ein Box-and-Whisker-Diagramm erstellt.
Um sicherzustellen, dass alle Modelle auf konsistente Weise zusammengefasst werden können, können kontinuierliche Ergebnisvariablen diskretisiert werden, um die Klassifizierungsmodelle zu erstellen. Wir haben univariates k-means Clustering verwendet, wobei die optimale Clustergröße nach dem Mehrheitsprinzip ausgewählt wurde.9 Synthetische Daten mit hohem Nutzen würden sich in ihrer Vorhersagekraft kaum von den realen Daten unterscheiden, wie der mittlere prozentuale Unterschied im AUROC-Mittelwert zeigt.
Abbildung 4-15 zeigt die Ergebnisse der 10-fachen Kreuzvalidierung, um die Vorhersagegenauigkeit der einzelnen GBM für den ersten Versuch zu bewerten. Der absolute prozentuale Unterschied im AUROC liegt bei vielen Variablen nahe 0, mit einem Median von 0,5% (IQR = 3%). Dies zeigt, dass die Analyse, die mit den synthetischen Daten anstelle des realen Datensatzes durchgeführt wird, eine sehr ähnliche Vorhersagekraft hat und dass die Modelle, die mit synthetischen Daten trainiert wurden, in der Regel zu den gleichen Ergebnissen führen, wenn sie auf reale Daten angewendet werden, wie die Modelle, die mit realen Daten trainiert wurden.
In Abbildung 4-16 sehen wir ein ähnliches Ergebnis für den zweiten Versuch. Der absolute prozentuale Unterschied in der AUROC liegt im Median bei 0,02% (IQR = 1%). Das zeigt ebenfalls, dass die synthetischen Daten eine sehr ähnliche Vorhersagekraft haben wie die realen Daten.
Ein anderer Ansatz, den wir als eine Art externe Validierung bezeichnen, ist derfolgende:
-
Teile die echten Daten in 10 gleich große Zufallssegmente.
-
Entferne das erste Segment und mache es zu einer Testmenge und generiere die synthetischen Daten für die restlichen neun Segmente.
-
Erstelle ein GBM mit den synthetischen Daten und mache Vorhersagen für das Testsegment aus den realen Daten und berechne den AUROC.
-
Wiederhole den Vorgang weitere neun Mal, wobei jedes Segment als Testmenge herausgenommen wird.
-
Wenn alle Vorhersagen für die 10 Faltungen gemacht wurden, berechne den durchschnittlichen AUROC.
Diese multivariate externe Validierung prüft, ob die synthetisierten Daten gute Vorhersagemodelle generieren können, wobei die Güte anhand der zurückgehaltenen realen Daten bewertet wird.
Unterscheidbarkeit
Die Unterscheidbarkeit ist eine weitere Möglichkeit, reale und synthetische Daten auf multivariate Weise zu vergleichen. Wir wollen sehen, ob wir ein Modell erstellen können, das zwischen echten und synthetischen Datensätzen unterscheiden kann. Deshalb ordnen wir jedem Datensatz einen binären Indikator zu, mit einer 1, wenn es sich um einen realen Datensatz handelt, und einer 0, wenn es sich um einen synthetischen Datensatz handelt (oder andersherum). Anschließend erstellen wir ein Klassifizierungsmodell, das zwischen echten und synthetischen Daten unterscheidet. Mit diesem Modell können wir vorhersagen, ob ein Datensatz echt oder synthetisch ist. Wir können eine 10-fache Kreuzvalidierung verwenden, um eine Vorhersage für jeden Datensatz zu treffen.
Dieser Klassifikator kann für jede Vorhersage eine Wahrscheinlichkeit ausgeben. Liegt die Wahrscheinlichkeit näher an 1, dann ist der Datensatz echt. Liegt die Wahrscheinlichkeit näher bei 0, dann ist der Datensatz synthetisch. Dies ist quasi ein Propensity Score für jeden Datensatz.
In der Gesundheitsforschung wird der Propensity Score in der Regel verwendet, um Behandlungsgruppen in Beobachtungsstudien auszugleichen, wenn eine zufällige Zuordnung zur Behandlung (im Vergleich zur Kontrolle) nicht möglich ist. Er bietet ein einziges probabilistisches Maß, dasdie Auswirkungen mehrerer Kovariaten auf den Erhalt der Behandlung in diesen Beobachtungsstudien gewichtet.10 Die Verwendung des Propensity Scores als Maß für die Unterscheidung zwischen realen und synthetischen Daten ist mittlerweile eine gängige Praxis.11 Propensity Scores können mithilfe von verallgemeinerten Boosted-Modellen recht genau berechnet werden.12
Wenn die beiden Datensätze genau gleich sind, gibt es keine Unterscheidbarkeit zwischen ihnen - das ist der Fall, wenn der Generator für die synthetischen Daten zu stark angepasst wurde und die Originaldaten tatsächlich neu erstellt hat. In diesem Fall ist der Propensity Score jedes Datensatzes 0,5, d. h. der Klassifikator ist nicht in der Lage, zwischen echten und synthetischen Daten zu unterscheiden. Dies wird in Abbildung 4-17 veranschaulicht. Wenn das Label "echt" oder "synthetisch" den Datensätzen völlig willkürlich zugewiesen wird, kann der Klassifikator ebenfalls nicht zwischen ihnen unterscheiden. In einem solchen Fall beträgt der Propensity Score ebenfalls 0,5.
Wenn die beiden Datensätze völlig unterschiedlich sind, ist der Klassifikator in der Lage, zwischen ihnen zu unterscheiden. Eine hohe Unterscheidbarkeit bedeutet, dass der Nutzen der Daten gering ist. In einem solchen Fall ist der Propensity Score entweder 0 oder 1, wie in Abbildung 4-18 dargestellt.
In der Realität werden die Datensätze natürlich irgendwo dazwischen liegen. Wir möchten nicht, dass sie sich an einem dieser beiden Extreme befinden. Synthetische Daten, die schwer von echten Daten zu unterscheiden sind, haben einen relativ hohen Nutzen.
Wir können diesen Propensity Score auch über alle Datensätze hinweg zusammenfassen. Es gibt einige allgemeine Methoden, die dafür verwendet werden können (wir nennen sie Propensity Score for Synthesis oder PSS, 1 bis 3):
- PSS1: Berechnung der mittleren quadratischen Differenz zwischen dem Propensity Score und dem 0,5-Wert
-
Der Wert 0,5 ist der Wert, der sich ergeben würde, wenn es keinen Unterschied zwischen den echten und den synthetischen Daten gäbe. Er ist auch der erwartete Wert, wenn die Etiketten zufällig zugewiesen würden. Daher hätte ein solcher Neigungsmittelwert einen Wert von 0, wenn die beiden Datensätze gleich wären, und einen Wert von 0,25, wenn sie unterschiedlich wären.
- PSS2: Umwandlung des Propensity Score in eine binäre Vorhersage
-
Wenn der Propensity Score größer als 0,5 ist, handelt es sich um einen echten Datensatz. Wenn der Propensity Score kleiner als 0,5 ist, ist es ein synthetischer Datensatz. Wenn der Propensity Score 0,5 ist, wirf eine Münze. Berechne anschließend die Genauigkeit dieser Vorhersagen. Die Genauigkeit liegt näher bei 1, wenn die beiden Datensätze sehr unterschiedlich sind, was bedeutet, dass der Klassifikator perfekt zwischen echten undsynthetischen Daten unterscheiden kann. Die Genauigkeit liegt näher bei 0,5, wenn der Klassifikator nicht in der Lage ist, zwischen den beiden Datensätzen zu unterscheiden.13
- PSS3: Berechnung der mittleren quadratischen Differenz zwischen dem Propensity Score und dem tatsächlichen 0/1-Label eines Datensatzes
-
In einem solchen Fall ist die Differenz 0, wenn der Klassifikator perfekt zwischen den beiden Datensätzen unterscheiden kann, und 0,25, wenn er nicht in der Lage ist, zwischen den Datensätzen zu unterscheiden.
Eine Zusammenfassung dieser verschiedenen Metriken findest du in Tabelle 4-1.
Art der Metrik | Gleiche Datensätze | Unterschiedliche Datensätze |
---|---|---|
Mittlere quadratische Differenz von 0,5 |
0 |
0.25 |
Genauigkeit der Vorhersage |
0.5 |
1 |
Mittlere quadratische Differenz zum Etikett |
0.25 |
0 |
Im Allgemeinen bevorzugen wir die mittlere quadratische Differenz von 0,5 oder PSS1, aber in der Praxis werden alle drei Methoden ähnliche Rückschlüsse auf den Nutzen der Daten liefern.
Der Vergleich des Propensity Scores für den ersten Versuch zeigt, dass generalisierte Boosted-Modelle nicht in der Lage sind, die realen Daten sicher von den synthetischen zu unterscheiden (siehe Abbildung 4-19). Für den zweiten Versuch siehe Abbildung 4-20. In beiden Fällen liegen die PSS1-Werte nahe bei 0,1.
Dieses Ergebnis unterscheidet sich ein wenig von dem, das wir für dieselben Datensätze bei der Nutzenbewertung "alle Modelle" gesehen haben. Das ist nicht überraschend, denn die Nutzwerttests messen unterschiedliche Dinge. Eine mögliche Erklärung lautet wie folgt. Der multivariate "Alle Modelle"-Test wählt die wichtigsten Variablen aus, um das Modell zu erstellen. Es ist plausibel, dass die Bedeutung der Variablen in diesen Modellen zwischen den realen und den synthetischen Datensätzen variiert, die Gesamtvorhersage aber gleich ist. In der PSS1-Maßnahme wird die Möglichkeit berücksichtigt, dass einige Variablen für bestimmte Vorhersageaufgaben weniger/mehr wichtig sind.
Dies zeigt, wie wichtig es ist, mehrere Nutzenkennzahlen zu berücksichtigen, um den Nutzen des Datensatzes umfassender zu bewerten. Jede Methode zur Bewertung des Nutzens deckt eine andere Dimension des Nutzens ab, die sich mit den anderen ergänzt.
Wir brauchen eine Möglichkeit, diese Werte zu interpretieren. Ist zum Beispiel ein PSS1-Wert von 0,1 gut oder schlecht?
Eine Möglichkeit, die PSS1-Punktzahl zu interpretieren, besteht darin, die Spanne in Quintile aufzuteilen, wie in Abbildung 4-21 dargestellt. Idealerweise sollte die Punktzahl auf Stufe 1 oder höchstens auf Stufe 2 liegen, um sicherzustellen, dass der Nutzen des Datensatzes angemessen ist. Dies ist auch ein einfach zu interpretierender Ansatz, um die Unterscheidbarkeit verschiedener Synthesemethoden und Datensätze zu vergleichen.
Zusammenfassung
Die wachsende Anwendung und Akzeptanz synthetischer Daten zeigt sich in dem Plan, die viel genutzten öffentlichen Tabellen der Volkszählung 2020 in den USA aus synthetischen Daten zu erstellen.14 Eine der wichtigsten Fragen von Nutzern synthetischer Daten ist die nach dem Nutzen der Daten. In diesem Kapitel wurde ein Rahmenwerk zur Bewertung des Nutzens synthetischer Daten vorgestellt und demonstriert, das sowohl allgemeine als auch arbeitslastspezifische Maße kombiniert.
Eine replizierte Analyse eines US-Volkszählungsdatensatzes zeigte, dass eine ursprüngliche Analyse mit hoher Genauigkeit repliziert werden konnte. Dies ist ein Beispiel für die Bewertung des Nutzens, wenn die endgültige Arbeitslast im Voraus bekannt ist.
Die Nutzwertanalyse zweier onkologischer Studiendatensätze hat gezeigt, dass die synthetischen Datensätze die Struktur und die Verteilungen sowie die bivariaten und multivariaten Beziehungen der realen Datensätze anhand einer Reihe von Messgrößen recht gut nachbilden. Es wurden zwar nur zwei Studien verwendet, aber es gibt erste Hinweise darauf, dass es möglich ist, analytisch nützliche synthetische Daten aus klinischen Studien zu erstellen. Ein solcher Rahmen kann für Datennutzer, Datensynthetisierer und Forscher, die an Datensynthesemethoden arbeiten, von Nutzen sein.
Die Ergebnisse einer Nutzenbewertung können in einem Dashboard zusammengefasst werden, wie in Abbildung 4-22. Es zeigt die wichtigsten Kennzahlen zum Nutzen in einem einzigen Bild.
Was die Grenzen des Rahmens angeht, haben wir alle Variablen und alle Modelle in unserem Nutzenrahmen untersucht und dann zusammengefasst. In der Praxis können einige dieser Variablen oder Modelle wichtiger sein als andere und werden von der Fragestellung der Analyse bestimmt. Dennoch liefert dieser Rahmen immer noch aussagekräftigere Ergebnisse als allgemeine Datennutzungskennzahlen, die nicht alleArbeitsbelastungen widerspiegeln würden.
Beachte, dass wir uns in diesem Kapitel auf Querschnittsdaten konzentriert haben. Für Längsschnittdaten werden möglicherweise andere Arten von Nutzenkennzahlen benötigt. Das ist ein komplexeres Thema, weil es stärker von der Art der Daten abhängt (z. B. Gesundheitsdaten im Vergleich zu Finanzdaten).
Im nächsten Kapitel gehen wir genauer darauf ein, wie man synthetische Daten erzeugt. Jetzt, wo wir wissen, wie wir den Nutzen der Daten beurteilen können, können wir alternative Synthesemethoden leichter vergleichen.
1 Jerome P. Reiter, "New Approaches to Data Dissemination: A Glimpse into the Future (?)," CHANCE 17, no. 3 (Juni 2004): 11-15.
2 Josep Domingo-Ferrer und Vicenç Torra, "Disclosure Control Methods and Information Loss for Microdata", in Confidentiality, Disclosure, and Data Access: Theory and Practical Applications for Statistical Agencies, ed. Pat Doyle et al. (Amsterdam: Elsevier Science, 2001); Kristen LeFevre, David J. DeWitt, and Raghu Ramakrishnan, "Workload-Aware Anonymization," in Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (New York: Association for Computing Machinery, 2006): 277-286.
3 A. F. Karr et al., "A Framework for Evaluating the Utility of Data Altered to Protect Confidentiality", The American Statistician 60, no. 3 (2006): 224-32.
4 Jerome P. Reiter, "Using CART to Generate Partially Synthetic Public Use Microdata", Journal of Official Statistics 21, no. 3 (2005): 441-62.
5 Torsten Hothorn, Kurt Hornik, und Achim Zeileis, "Unbiased Recursive Partitioning: A Conditional Inference Framework," Journal of Computational and Graphical Statistics 15, no. 3 (September 2006): 651-74.
6 Shanti Gomatam, Alan F. Karr, und Ashish P. Sanil, "Data Swapping as a Decision Problem", Journal of Official Statistics 21, no. 4 (2005): 635-55.
7 Brett K. Beaulieu-Jones et al., "Privacy-Preserving Generative Deep Neural Networks Support Clinical Data Sharing", bioRxiv (Juli 2017). https://doi.org/10.1101/159756; Bill Howe et al., "Synthetic Data for Social Good", Cornell University arXiv Archive, Oktober 2017. https://arxiv.org/abs/1710.08874; Ioannis Kaloskampis, "Synthetic Data for Public Good", Office for National Statistics, Februar 2019. https://oreil.ly/qfVvR.
8 Margaret Sullivan Pepe, The Statistical Evaluation of Medical Tests for Classification and Prediction (Oxford: Oxford University Press, 2004).
9 Malika Charrad et al., "NbClust: An R Package for Determining the Relevant Number of Clusters in a Data Set," Journal of Statistical Software 61, no. 6 (November 2014): 1-36.
10 Paul R. Rosenbaum und Donald B. Rubin, "The Central Role of the Propensity Score in Observational Studies for Causal Effects", Biometrika 70, Nr. 1 (April 1983): 41-55.
11 Joshua Snoke et al., "General and Specific Utility Measures for Synthetic Data", Journal of the Royal Statistical Society: Series A (Statistics in Society) 181, no. 3 (Juni 2018): 663-688.
12 Daniel F. McCaffrey et al., "A Tutorial on Propensity Score Estimation for Multiple Treatments Using Generalized Boosted Models", Statistics in Medicine 32, no. 19 (2013): 3388-3414.
13 Diese Metrik ist nicht geeignet, wenn die Daten nicht ausgeglichen sind. Das ist zum Beispiel der Fall, wenn der synthetisierte Datensatz viel größer ist als der echte Datensatz.
14 Aref Dajani et al., "The Modernization of Statistical Disclosure Limitation at the U.S. Census Bureau" (Präsentation auf der Sitzung des Census Scientific Advisory Committee, Suitland, MD, September 2017).
Get Praktische Erzeugung synthetischer Daten now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.