Kapitel 3. Erste Schritte: Verteilungsanpassung

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Man kann sich den Prozess der Datensynthese ganz einfach so vorstellen, dass wir versuchen, sowohl die Verteilungen der echten Daten als auch die Struktur der echten Daten zu modellieren. Auf der Grundlage dieses Modells können wir dann synthetische Daten erzeugen, die die Eigenschaften der Originaldaten beibehalten. In diesem Kapitel behandeln wir den ersten Schritt in diesem Prozess - die Modellierung von Verteilungen. Sobald du weißt, wie das geht, werden wir in Kapitel 5 mit der Modellierung der Datenstruktur fortfahren.

Der Ausgangspunkt für die Modellierung von Verteilungen ist das Verständnis, wie man einzelne Variablen an bekannte Verteilungen (oder "klassische" Verteilungen wie die Normal- und Exponentialverteilung) anpasst. Sobald wir dazu in der Lage sind, können wir aus diesen Verteilungen Daten generieren, die die gleichen Eigenschaften wie die ursprünglichen Daten haben.1

Der nächste Schritt wird sein, die Modellierung von nicht-klassischen Verteilungen zu ermöglichen. Manche Daten oder Phänomene der realen Welt folgen keiner klassischen Verteilung. Wir wollen aber auch in der Lage sein, Daten zu synthetisieren, die nicht klassischen Verteilungen folgen. Deshalb beschreiben wir, wie Modelle des maschinellen Lernens verwendet werden können, um unkonventionelle Datenverteilungen anzupassen. ...

Get Praktische Erzeugung synthetischer Daten now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.