Capítulo 5. Métodos de síntesis de datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Tras describir algunos métodos básicos para el ajuste de distribuciones en el último capítulo, ahora utilizaremos estos conceptos para generar datos sintéticos. Empezaremos con algunos enfoques básicos y llegaremos a otros más complejos a medida que avance el capítulo. Más adelante nos referiremos a técnicas más avanzadas que quedan fuera del alcance de un texto introductorio, pero lo que cubrimos debería darte una buena introducción.

Generar datos sintéticos a partir de la teoría

Consideremos la situación en la que el analista no dispone de datos reales para empezar, pero tiene cierta comprensión del fenómeno que quiere modelizar y para el que quiere generar datos. Por ejemplo, supongamos que queremos generar datos que reflejen la relación entre la altura y el peso. En general, se sabe que la altura y el peso están asociados positivamente.

Según los Centros para el Control de Enfermedades, la estatura media de los hombres en EE.UU. es de aproximadamente 175 cm,1 y para nuestro ejemplo supondremos una desviación típica de 5 cm. El peso medio es de 89,7 kg, y supondremos una desviación típica de 10 kg. Para nuestro ejemplo, las modelizaremos como distribuciones normales (gaussianas o en forma de campana) y supondremos que la correlación entre ellas es de 0,5. Según las directrices de Cohen para la interpretación de los tamaños ...

Get Generación Práctica de Datos Sintéticos now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.