Capítulo 6. Revelación de identidad en datos sintéticos
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
El análisis de los riesgos para la privacidad con datos sintéticos sigue siendo un tema importante. En el contexto de un análisis de privacidad, nos preocupan los datos que pertenecen a personas. Si los datos no pertenecen a personas, no habrá problemas de privacidad. Por ejemplo, si los datos se refieren a recetas o coches, no nos preocuparía tanto la privacidad. Sin embargo, la síntesis de datos se está utilizando mucho para generar datos sobre personas, y por tanto debemos comprender las implicaciones para la privacidad.
Existe la creencia generalizada de que los datos sintéticos tienen un riesgo insignificante para la privacidad, porque no hay una correspondencia única entre los registros de los datos sintéticos y los registros de los datos originales.1 Reiter señaló que "la identificación de unidades y sus datos sensibles a partir de muestras sintéticas es casi imposible", y Taub et al.2 y Taub et al. dijeron que "se entiende ampliamente que pensar en el riesgo dentro de los datos sintéticos en términos de reidentificación, que es como muchos otros métodos SDC [control estadístico de la divulgación] abordan el riesgo de divulgación, no tiene sentido".3
Sin embargo, en la práctica, al generar datos sintéticos es posible sobreajustar el modelo de síntesis a los datos reales, y ya hemos hablado de ello en ...
Get Generación Práctica de Datos Sintéticos now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.