Book description
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
Construire et tester des modèles d'apprentissage automatique nécessite d'avoir accès à des données nombreuses et variées. Mais où trouver des ensembles de données utilisables sans se heurter à des problèmes de confidentialité ? Ce livre pratique présente des techniques pour générer des données synthétiques - de fausses données générées à partir de données réelles - afin que tu puisses effectuer des analyses secondaires pour faire des recherches, comprendre les comportements des clients, développer de nouveaux produits ou générer de nouveaux revenus.
Les scientifiques des données apprendront comment la génération de données synthétiques permet de rendre ces données largement disponibles à des fins secondaires tout en répondant à de nombreuses préoccupations en matière de protection de la vie privée. Les analystes apprendront les principes et les étapes de la génération de données synthétiques à partir d'ensembles de données réels. Enfin, les chefs d'entreprise verront comment les données synthétiques peuvent contribuer à accélérer la mise au point d'un produit ou d'une solution.
Ce livre décrit :
- Les étapes pour générer des données synthétiques à l'aide de distributions normales multivariées.
- Les méthodes d'ajustement des distributions couvrant différentes mesures de qualité d'ajustement.
- Comment reproduire la structure simple des données originales ?
- Une approche de la modélisation de la structure des données pour prendre en compte les relations complexes
- Plusieurs approches et mesures que tu peux utiliser pour évaluer l'utilité des données.
- Comment les analyses effectuées sur des données réelles peuvent être reproduites avec des données synthétiques
- Implications des données synthétiques sur la vie privée et méthodes d'évaluation de la divulgation de l'identité
Table of contents
- Préface
- 1. Introduction à la génération de données synthétiques
- 2. Mise en œuvre de la synthèse des données
- 3. Pour commencer : Ajustement de la distribution
- 4. Évaluation de l'utilité des données synthétiques
- 5. Méthodes de synthèse des données
- 6. Divulgation de l'identité dans les données synthétiques
-
7. Synthèse pratique des données
-
Gérer la complexité des données
- Pour chaque étape de prétraitement, il y a une étape de post-traitement
- Types de champs
- Le besoin de règles
- Tous les domaines ne doivent pas être synthétisés
- Synthèse des dates
- Synthèse de la géographie
- Champs et tables de recherche
- Données manquantes et autres caractéristiques des données
- Synthèse partielle
-
Organiser la synthèse des données
- Capacité de calcul
- Une boîte à outils de techniques
- Synthèse des cohortes par rapport aux ensembles de données complets
- Flux de données continus
- L'assurance de la protection de la vie privée en tant que certification
- Réaliser des études de validation pour obtenir l'adhésion
- Tests d'intrusion motivés
- À qui appartiennent les données synthétiques ?
- Conclusions
-
Gérer la complexité des données
- Index
Product information
- Title: Génération pratique de données synthétiques
- Author(s):
- Release date: November 2024
- Publisher(s): O'Reilly Media, Inc.
- ISBN: 9798341615137
You might also like
article
Run Llama-2 Models Locally with llama.cpp
Llama is Meta’s answer to the growing demand for LLMs. Unlike its well-known technological relative, ChatGPT, …
article
Twenty Years of Open Innovation
Organizations that practice open innovation draw on external resources to develop new ideas for products and …
article
Detect Fraud Using Isolation Forest
These shortcuts delve into generative AI, where algorithms and models create synthetic data, detect anomalies, and …
article
Why So Many Data Science Projects Fail to Deliver
Many companies are unable to consistently gain business value from their investments in big data, artificial …