Capítulo 7. Síntesis práctica de datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Los datos reales son desordenados. Cuando los datos se han limpiado y se han curado en profundidad, los métodos de síntesis de datos (y, para el caso, cualquier método de análisis de datos) resultan mucho más sencillos. Pero el requisito real en la práctica es sintetizar datos que no han sidocurados.

Este capítulo presenta una serie de consideraciones pragmáticas para manejar datos del mundo real, basadas en nuestras experiencias de entrega de conjuntos de datos sintéticos y en la tecnología de generación de datos sintéticos. Aunque nuestra lista no es exhaustiva, abarca algunos de los problemas más comunes que se encontrarán. Destacamos los retos y ofrecemos algunas sugerencias para abordarlos.

En este punto, no hacemos suposiciones explícitas sobre la escala de los datos que se van a sintetizar. Por ejemplo, algunos conjuntos de datos, como las transacciones financieras o las reclamaciones de seguros, pueden tener pocas variables (decenas o incluso cientos) pero un número muy grande de registros. Otros conjuntos de datos pueden tener pocos individuos cubiertos pero un gran número de variables (miles o decenas de miles). Estos conjuntos de datos estrechos y profundos frente a los anchos y poco profundos presentan retos diferentes a la hora de procesarlos para la síntesis de datos. En algunos casos, los retos pueden manejarse ...

Get Generación Práctica de Datos Sintéticos now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.