Overview
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Construir y probar modelos de aprendizaje automático requiere acceder a datos grandes y diversos. Pero, ¿dónde puedes encontrar conjuntos de datos utilizables sin toparte con problemas de privacidad? Este práctico libro presenta técnicas para generar datos sintéticos -datos falsos generados a partir de datos reales- de modo que puedas realizar análisis secundarios para investigar, comprender los comportamientos de los clientes, desarrollar nuevos productos o generar nuevos ingresos.
Los científicos de datos aprenderán cómo la generación de datos sintéticos proporciona una forma de hacer que dichos datos estén ampliamente disponibles para fines secundarios, al tiempo que se abordan muchas preocupaciones sobre la privacidad. Los analistas aprenderán los principios y pasos para generar datos sintéticos a partir de conjuntos de datos reales. Y los líderes empresariales verán cómo los datos sintéticos pueden ayudar a acelerar el tiempo de obtención de un producto o solución.
Este libro describe:
- Pasos para generar datos sintéticos utilizando distribuciones normales multivariantes
- Métodos de ajuste de distribuciones que abarcan diferentes métricas de bondad de ajuste
- Cómo reproducir la estructura simple de los datos originales
- Un enfoque para modelar la estructura de los datos y tener en cuenta las relaciones complejas
- Múltiples enfoques y métricas que puedes utilizar para evaluar la utilidad de los datos
- Cómo los análisis realizados con datos reales pueden reproducirse con datos sintéticos
- Implicaciones para la privacidad de los datos sintéticos y métodos para evaluar la revelación de identidades