book

Generación Práctica de Datos Sintéticos

by Khaled El Emam, Lucy Mosquera, Richard Hoptroff

October 2024

Intermediate to advanced

166 pages

4h 57m

Spanish

O'Reilly Media, Inc.

Read now

Unlock full access

Convenciones utilizadas en este libroAprendizaje en línea O'ReillyCómo contactar con nosotrosAgradecimientos
Definición de datos sintéticosSíntesis a partir de datos realesSíntesis sin datos realesSíntesis y utilidadLas ventajas de los datos sintéticosAcceso eficaz a los datosPermitir mejores análisisDatos sintéticos como proxyAprender a confiar en los datos sintéticosCasos prácticos de datos sintéticosFabricación y distribuciónSanidadServicios financierosTransporteResumen
Cuándo sintetizarEspectro de identificabilidadCompromisos en la selección de PET para permitir el acceso a los datosCriterios de decisiónPET consideradasMarco de decisiónEjemplos de aplicación del marco de decisiónProyectos de síntesis de datosPasos de la síntesis de datosPreparación de datosEl proceso de síntesis de datosGestión del Programa de SíntesisResumen
Datos de encuadreCómo se distribuyen los datosAjustar distribuciones a datos realesGenerar datos sintéticos a partir de una distribuciónMedir la adecuación de los datos sintéticos a una distribuciónEl dilema del sobreajusteUn poco de escarda ligeraResumen
Marco de Utilidad de Datos Sintéticos: Replicación del AnálisisMarco de Utilidad de Datos Sintéticos: Métricas de UtilidadComparación de distribuciones univariantesComparación de estadísticas bivariantesComparación de modelos de predicción multivarianteDistinguibilidadResumen
Generar datos sintéticos a partir de la teoríaMuestreo de una distribución normal multivarianteInducir Correlaciones con Distribuciones Marginales EspecificadasCópulas con distribuciones marginales conocidasGenerar datos sintéticos realistasAjustar datos reales a distribuciones conocidasUtilizar el aprendizaje automático para ajustar las distribucionesDatos sintéticos híbridosMétodos de aprendizaje automáticoMétodos de aprendizaje profundoSintetizar secuenciasResumen
Tipos de divulgaciónRevelación de identidadAprender algo nuevoDivulgación de atributosRevelación inferencialDivulgación significativa de la identidadDefinir la ganancia de informaciónReunirlo todoPartidos únicosCómo afecta la ley de privacidad a la creación y uso de datos sintéticosCuestiones en el marco del GDPRCuestiones en el marco de la CCPACuestiones en el marco de la HIPAADictamen del Grupo de Trabajo del Artículo 29Resumen
Gestión de la complejidad de los datosPara cada paso de preprocesamiento hay un paso de postprocesamientoTipos de campoLa necesidad de normasNo todos los campos tienen que sintetizarseSintetizar fechasSintetizar la geografíaCampos y tablas de búsquedaDatos que faltan y otras características de los datosSíntesis parcialOrganizar la síntesis de datosCapacidad de cálculoUna caja de herramientas de técnicasSintetizar cohortes frente a conjuntos de datos completosAlimentación continua de datosGarantía de privacidad como certificaciónRealizar estudios de validación para conseguir apoyoPruebas de Intruso Motivado¿Quién es el propietario de los Datos Sintéticos?Conclusiones

Content preview from Generación Práctica de Datos Sintéticos

Capítulo 3. Primeros pasos: Ajuste de distribuciones

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Una forma sencilla de pensar en el proceso de síntesis de datos es que estamos intentando modelizar tanto las distribuciones de los datos reales como la estructura de los datos reales. A partir de ese modelo, podemos generar datos sintéticos que conserven las características de los datos originales. En este capítulo cubrimos el primer paso de ese proceso: el modelado de distribuciones. Una vez que sepas cómo hacerlo, pasaremos a modelar la estructura de los datos en el Capítulo 5.

El punto de partida del modelado de distribuciones es comprender cómo ajustar variables individuales a distribuciones conocidas (o distribuciones "clásicas", como la normal y la exponencial). Una vez que seamos capaces de hacerlo, podremos generar datos a partir de estas distribuciones que tengan las mismas características que los datos originales.¹

El siguiente paso será permitir la modelización de distribuciones no clásicas. Algunos datos o fenómenos del mundo real no siguen una distribución clásica. Aún así, queremos ser capaces de sintetizar datos que no sigan distribuciones clásicas. Por tanto, esbozamos cómo pueden utilizarse los modelos de aprendizaje automático para ajustar distribuciones de datos no convencionales.

Datos de encuadre

Cualquier tarea de análisis de datos comienza con un montón de datos que hay que transformar ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Publisher Resources

ISBN: 9798341602236

Generación Práctica de Datos Sintéticos

by Khaled El Emam, Lucy Mosquera, Richard Hoptroff

Capítulo 3. Primeros pasos: Ajuste de distribuciones

Datos de encuadre

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

Fundamentos de la Ingeniería de Datos

Descifrar las arquitecturas de datos

Electrónica Embebida Aplicada

Ingeniería Prompt para la IA Generativa

Publisher Resources

Capítulo 3. Primeros pasos: Ajuste de distribuciones

Datos de encuadre

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

Fundamentos de la Ingeniería de Datos

Descifrar las arquitecturas de datos

Electrónica Embebida Aplicada

Ingeniería Prompt para la IA Generativa

Publisher Resources

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.