Génération pratique de données synthétiques

Book description

Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com

Construire et tester des modèles d'apprentissage automatique nécessite d'avoir accès à des données nombreuses et variées. Mais où trouver des ensembles de données utilisables sans se heurter à des problèmes de confidentialité ? Ce livre pratique présente des techniques pour générer des données synthétiques - de fausses données générées à partir de données réelles - afin que tu puisses effectuer des analyses secondaires pour faire des recherches, comprendre les comportements des clients, développer de nouveaux produits ou générer de nouveaux revenus.

Les scientifiques des données apprendront comment la génération de données synthétiques permet de rendre ces données largement disponibles à des fins secondaires tout en répondant à de nombreuses préoccupations en matière de protection de la vie privée. Les analystes apprendront les principes et les étapes de la génération de données synthétiques à partir d'ensembles de données réels. Enfin, les chefs d'entreprise verront comment les données synthétiques peuvent contribuer à accélérer la mise au point d'un produit ou d'une solution.

Ce livre décrit :

  • Les étapes pour générer des données synthétiques à l'aide de distributions normales multivariées.
  • Les méthodes d'ajustement des distributions couvrant différentes mesures de qualité d'ajustement.
  • Comment reproduire la structure simple des données originales ?
  • Une approche de la modélisation de la structure des données pour prendre en compte les relations complexes
  • Plusieurs approches et mesures que tu peux utiliser pour évaluer l'utilité des données.
  • Comment les analyses effectuées sur des données réelles peuvent être reproduites avec des données synthétiques
  • Implications des données synthétiques sur la vie privée et méthodes d'évaluation de la divulgation de l'identité

Table of contents

  1. Préface
    1. Conventions utilisées dans ce livre
    2. Apprentissage en ligne O'Reilly
    3. Comment nous contacter
    4. Remerciements
  2. 1. Introduction à la génération de données synthétiques
    1. Définir les données synthétiques
      1. Synthèse à partir de données réelles
      2. Synthèse sans données réelles
      3. Synthèse et utilité
    2. Les avantages des données synthétiques
      1. Accès efficace aux données
      2. Permettre une meilleure analyse
      3. Les données synthétiques comme proxy
      4. Apprendre à faire confiance aux données synthétiques
    3. Études de cas sur les données synthétiques
      1. Fabrication et distribution
      2. Soins de santé
      3. Services financiers
      4. Transport
    4. Résumé
  3. 2. Mise en œuvre de la synthèse des données
    1. Quand synthétiser
    2. Spectre d'identifiabilité
    3. Compromis dans le choix des technologies de l'information et de la communication pour permettre l'accès aux données
      1. Critères de décision
      2. PETs pris en compte
      3. Cadre de décision
      4. Exemples d'application du cadre décisionnel
    4. Projets de synthèse de données
      1. Étapes de la synthèse des données
      2. Préparation des données
    5. Le pipeline de synthèse des données
    6. Gestion du programme de synthèse
    7. Résumé
  4. 3. Pour commencer : Ajustement de la distribution
    1. Encadrer les données
    2. Comment les données sont-elles distribuées ?
    3. Ajuster les distributions aux données réelles
    4. Générer des données synthétiques à partir d'une distribution
      1. Mesurer à quel point les données synthétiques correspondent à une distribution
      2. Le dilemme de l'ajustement excessif
      3. Un peu de désherbage léger
    5. Résumé
  5. 4. Évaluation de l'utilité des données synthétiques
    1. Cadre d'utilisation des données synthétiques : Reproduction de l'analyse
    2. Cadre d'utilité des données synthétiques : Métriques d'utilité
      1. Comparaison des distributions univariées
      2. Comparaison des statistiques à deux variables
      3. Comparaison des modèles de prédiction multivariés
      4. Distinction
    3. Résumé
  6. 5. Méthodes de synthèse des données
    1. Générer des données synthétiques à partir de la théorie
      1. Échantillonnage à partir d'une distribution normale multivariée
      2. Induire des corrélations avec des distributions marginales spécifiées
      3. Copules avec distributions marginales connues
    2. Générer des données synthétiques réalistes
      1. Ajuster des données réelles à des distributions connues
      2. Utiliser l'apprentissage automatique pour ajuster les distributions
    3. Données synthétiques hybrides
    4. Méthodes d'apprentissage automatique
    5. Méthodes de Deep Learning
    6. Synthèse des séquences
    7. Résumé
  7. 6. Divulgation de l'identité dans les données synthétiques
    1. Types de divulgation
      1. Divulgation de l'identité
      2. Apprendre quelque chose de nouveau
      3. Divulgation des attributs
      4. Divulgation inférentielle
      5. Divulgation significative de l'identité
      6. Définir le gain d'information
      7. Rassembler tout cela
      8. Correspondances uniques
    2. Comment la loi sur la protection de la vie privée influe sur la création et l'utilisation de données synthétiques.
      1. Questions relatives au GDPR
      2. Questions relatives à la loi sur la protection des consommateurs
      3. Questions relatives à l'HIPAA
      4. Avis du groupe de travail de l'article 29
    3. Résumé
  8. 7. Synthèse pratique des données
    1. Gérer la complexité des données
      1. Pour chaque étape de prétraitement, il y a une étape de post-traitement
      2. Types de champs
      3. Le besoin de règles
      4. Tous les domaines ne doivent pas être synthétisés
      5. Synthèse des dates
      6. Synthèse de la géographie
      7. Champs et tables de recherche
      8. Données manquantes et autres caractéristiques des données
      9. Synthèse partielle
    2. Organiser la synthèse des données
      1. Capacité de calcul
      2. Une boîte à outils de techniques
      3. Synthèse des cohortes par rapport aux ensembles de données complets
      4. Flux de données continus
      5. L'assurance de la protection de la vie privée en tant que certification
      6. Réaliser des études de validation pour obtenir l'adhésion
      7. Tests d'intrusion motivés
      8. À qui appartiennent les données synthétiques ?
    3. Conclusions
  9. Index

Product information

  • Title: Génération pratique de données synthétiques
  • Author(s): Khaled El Emam, Lucy Mosquera, Richard Hoptroff
  • Release date: November 2024
  • Publisher(s): O'Reilly Media, Inc.
  • ISBN: 9798341615137