Capítulo 3. Primeros pasos: Ajuste de distribuciones

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Una forma sencilla de pensar en el proceso de síntesis de datos es que estamos intentando modelizar tanto las distribuciones de los datos reales como la estructura de los datos reales. A partir de ese modelo, podemos generar datos sintéticos que conserven las características de los datos originales. En este capítulo cubrimos el primer paso de ese proceso: el modelado de distribuciones. Una vez que sepas cómo hacerlo, pasaremos a modelar la estructura de los datos en el Capítulo 5.

El punto de partida del modelado de distribuciones es comprender cómo ajustar variables individuales a distribuciones conocidas (o distribuciones "clásicas", como la normal y la exponencial). Una vez que seamos capaces de hacerlo, podremos generar datos a partir de estas distribuciones que tengan las mismas características que los datos originales.1

El siguiente paso será permitir la modelización de distribuciones no clásicas. Algunos datos o fenómenos del mundo real no siguen una distribución clásica. Aún así, queremos ser capaces de sintetizar datos que no sigan distribuciones clásicas. Por tanto, esbozamos cómo pueden utilizarse los modelos de aprendizaje automático para ajustar distribuciones de datos no convencionales.

Datos de encuadre

Cualquier tarea de análisis de datos comienza con un montón de datos que hay que transformar ...

Get Generación Práctica de Datos Sintéticos now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.