Praktische Erzeugung synthetischer Daten

Book description

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Um Modelle für maschinelles Lernen zu entwickeln und zu testen, brauchst du Zugang zu großen und vielfältigen Daten. Aber wo kannst du brauchbare Datensätze finden, ohne in Datenschutzprobleme zu geraten? In diesem praktischen Buch werden Techniken zur Erzeugung synthetischer Daten - also gefälschter Daten, die aus echten Daten generiert werden - vorgestellt, damit du Sekundäranalysen durchführen kannst, um zu forschen, das Kundenverhalten zu verstehen, neue Produkte zu entwickeln oder neue Einnahmen zu generieren.

Datenwissenschaftler/innen werden lernen, wie die Generierung synthetischer Daten eine Möglichkeit darstellt, solche Daten für sekundäre Zwecke breit verfügbar zu machen und gleichzeitig viele Datenschutzbedenken zu berücksichtigen. Analysten lernen die Prinzipien und Schritte zur Erzeugung synthetischer Daten aus realen Datensätzen kennen. Und Führungskräfte aus der Wirtschaft erfahren, wie synthetische Daten dazu beitragen können, die Zeit bis zur Einführung eines Produkts oder einer Lösung zu verkürzen.

Dieses Buch beschreibt:

  • Schritte zur Erzeugung synthetischer Daten mit multivariaten Normalverteilungen
  • Methoden zur Verteilungsanpassung mit verschiedenen Anpassungsgütekriterien
  • Wie man die einfache Struktur der Originaldaten repliziert
  • Ein Ansatz zur Modellierung der Datenstruktur, um komplexe Beziehungen zu berücksichtigen
  • Mehrere Ansätze und Kennzahlen, mit denen du den Nutzen von Daten bewerten kannst
  • Wie Analysen, die mit echten Daten durchgeführt wurden, mit synthetischen Daten repliziert werden können
  • Auswirkungen synthetischer Daten auf den Datenschutz und Methoden zur Bewertung der Identitätsoffenlegung

Table of contents

  1. Vorwort
    1. In diesem Buch verwendete Konventionen
    2. O'Reilly Online Learning
    3. Wie du uns kontaktierst
    4. Danksagungen
  2. 1. Einführung in die Erzeugung synthetischer Daten
    1. Synthetische Daten definieren
      1. Synthese aus echten Daten
      2. Synthese ohne echte Daten
      3. Synthese und Nützlichkeit
    2. Die Vorteile von synthetischen Daten
      1. Effizienter Zugang zu Daten
      2. Bessere Analysen ermöglichen
      3. Synthetische Daten als Proxy
      4. Lernen, synthetischen Daten zu vertrauen
    3. Synthetische Daten Fallstudien
      1. Herstellung und Vertrieb
      2. Gesundheitswesen
      3. Finanzdienstleistungen
      4. Transport
    4. Zusammenfassung
  3. 2. Implementierung der Datensynthese
    1. Wann wird synthetisiert?
    2. Spektrum der Identifizierbarkeit
    3. Kompromisse bei der Auswahl von Technologien zum Schutz der Privatsphäre, um den Datenzugang zu ermöglichen
      1. Entscheidungskriterien
      2. Berücksichtigte PETs
      3. Entscheidungsrahmen
      4. Beispiele für die Anwendung des Entscheidungsrahmens
    4. Projekte zur Datensynthese
      1. Schritte zur Datensynthese
      2. Datenaufbereitung
    5. Die Pipeline für die Datensynthese
    6. Synthese Programm Management
    7. Zusammenfassung
  4. 3. Erste Schritte: Verteilungsanpassung
    1. Daten einrahmen
    2. Wie die Daten verteilt werden
    3. Anpassung von Verteilungen an echte Daten
    4. Synthetische Daten aus einer Verteilung generieren
      1. Messen, wie gut synthetische Daten in eine Verteilung passen
      2. Das Dilemma der Überanpassung
      3. Ein bisschen Unkraut jäten
    5. Zusammenfassung
  5. 4. Bewertung der Nützlichkeit synthetischer Daten
    1. Synthetic Data Utility Framework: Replikation der Analyse
    2. Rahmen für die Nutzung synthetischer Daten: Metriken für die Nutzung
      1. Vergleich von univariaten Verteilungen
      2. Bivariate Statistiken miteinander vergleichen
      3. Vergleich von multivariaten Vorhersagemodellen
      4. Unterscheidbarkeit
    3. Zusammenfassung
  6. 5. Methoden zur Synthese von Daten
    1. Synthetische Daten aus der Theorie generieren
      1. Stichproben aus einer multivariaten Normalverteilung
      2. Herbeiführen von Korrelationen mit bestimmten Randverteilungen
      3. Copulas mit bekannten Randverteilungen
    2. Realistische synthetische Daten generieren
      1. Anpassen von realen Daten an bekannte Verteilungen
      2. Maschinelles Lernen zur Anpassung der Verteilungen
    3. Hybride synthetische Daten
    4. Methoden des maschinellen Lernens
    5. Deep Learning Methoden
    6. Sequenzen synthetisieren
    7. Zusammenfassung
  7. 6. Identitätsoffenlegung in synthetischen Daten
    1. Arten der Offenlegung
      1. Identitätsoffenlegung
      2. Etwas Neues lernen
      3. Attribut Offenlegung
      4. Offenlegung von Schlussfolgerungen
      5. Aussagekräftige Identitätsoffenlegung
      6. Informationsgewinne definieren
      7. Alles unter einen Hut bringen
      8. Einzigartige Streichhölzer
    2. Wie sich das Datenschutzrecht auf die Erstellung und Nutzung synthetischer Daten auswirkt
      1. Probleme im Rahmen der GDPR
      2. Probleme im Rahmen des CCPA
      3. Probleme unter HIPAA
      4. Stellungnahme der Artikel-29-Arbeitsgruppe
    3. Zusammenfassung
  8. 7. Praktische Datensynthese
    1. Datenkomplexität verwalten
      1. Für jeden Vorverarbeitungsschritt gibt es einen Nachverarbeitungsschritt
      2. Feldtypen
      3. Die Notwendigkeit von Regeln
      4. Nicht alle Felder müssen synthetisiert werden
      5. Daten synthetisieren
      6. Geografie synthetisieren
      7. Nachschlagefelder und -tabellen
      8. Fehlende Daten und andere Datenmerkmale
      9. Partielle Synthese
    2. Organisieren der Datensynthese
      1. Rechenleistung
      2. Ein Werkzeugkasten voller Techniken
      3. Synthese von Kohorten im Vergleich zu vollständigen Datensätzen
      4. Kontinuierliche Dateneinspeisung
      5. Datenschutzgarantie als Zertifizierung
      6. Durchführung von Validierungsstudien, um Zustimmung zu erhalten
      7. Tests für motivierte Eindringlinge
      8. Wem gehören die synthetischen Daten?
    3. Schlussfolgerungen
  9. Index

Product information

  • Title: Praktische Erzeugung synthetischer Daten
  • Author(s): Khaled El Emam, Lucy Mosquera, Richard Hoptroff
  • Release date: October 2024
  • Publisher(s): O'Reilly Media, Inc.
  • ISBN: 9798341604186