Kapitel 5. Methoden zur Synthese von Daten
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Nachdem wir im letzten Kapitel einige grundlegende Methoden zur Verteilungsanpassung beschrieben haben, werden wir diese Konzepte nun nutzen, um synthetische Daten zu erzeugen. Wir werden mit einigen grundlegenden Ansätzen beginnen und uns im Laufe des Kapitels zu komplexeren Methoden weiterentwickeln. Später werden wir auf fortgeschrittenere Techniken eingehen, die den Rahmen eines einführenden Textes sprengen würden, aber das, was wir behandeln, sollte dir einen guten Einstieg bieten.
Synthetische Daten aus der Theorie generieren
Betrachten wir die Situation, in der der Analyst keine echten Daten zur Verfügung hat, aber ein gewisses Verständnis für das Phänomen hat, das er modellieren und für das er Daten generieren möchte. Nehmen wir zum Beispiel an, dass wir Daten generieren wollen, die das Verhältnis zwischen Größe und Gewicht widerspiegeln. Es ist allgemein bekannt, dass Größe und Gewicht positiv miteinander verbunden sind.
Nach Angaben der Centers for Disease Control liegt die durchschnittliche Körpergröße von Männern in den USA bei 175 cm,1 und für unser Beispiel gehen wir von einer Standardabweichung von 5 cm aus. Das Durchschnittsgewicht liegt bei 89,7 kg, und wir nehmen eine Standardabweichung von 10 kg an. Für unser Beispiel modellieren wir diese Werte als Normalverteilungen (Gauß- oder Glockenverteilungen) ...
Get Praktische Erzeugung synthetischer Daten now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.