Kapitel 7. Praktische Datensynthese

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Echte Daten sind unordentlich. Wenn die Daten bereinigt und stark kuratiert sind, werden die Methoden der Datensynthese (und damit auch alle Methoden der Datenanalyse) viel einfacher. In der Praxis ist es jedoch erforderlich, Daten zu synthetisieren, die nichtkuratiert wurden.

In diesem Kapitel werden einige pragmatische Überlegungen zum Umgang mit realen Daten vorgestellt, die auf unseren Erfahrungen mit der Bereitstellung synthetischer Datensätze und der Technologie zur Erzeugung synthetischer Daten basieren. Unsere Liste ist zwar nicht vollständig, deckt aber einige der häufigsten Probleme ab, auf die wir stoßen werden. Wir heben die Herausforderungen hervor und geben einige Vorschläge, wie man sie bewältigen kann.

An dieser Stelle machen wir keine expliziten Annahmen über den Umfang der Daten, die synthetisiert werden sollen. Einige Datensätze, wie z. B. Finanztransaktionen oder Versicherungsansprüche, können nur wenige Variablen (Dutzende oder vielleicht sogar Hunderte), aber eine sehr große Anzahl von Datensätzen enthalten. Andere Datensätze können nur wenige Personen, aber eine große Anzahl von Variablen (Tausende oder Zehntausende) umfassen. Diese engen und tiefen bzw. breiten und flachen Datensätze stellen unterschiedliche Herausforderungen bei der Verarbeitung für die Datensynthese dar. In einigen Fällen ...

Get Praktische Erzeugung synthetischer Daten now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.