Capítulo 5. Métodos de síntesis de datos
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Tras describir algunos métodos básicos para el ajuste de distribuciones en el último capítulo, ahora utilizaremos estos conceptos para generar datos sintéticos. Empezaremos con algunos enfoques básicos y llegaremos a otros más complejos a medida que avance el capítulo. Más adelante nos referiremos a técnicas más avanzadas que quedan fuera del alcance de un texto introductorio, pero lo que cubrimos debería darte una buena introducción.
Generar datos sintéticos a partir de la teoría
Consideremos la situación en la que el analista no dispone de datos reales para empezar, pero tiene cierta comprensión del fenómeno que quiere modelizar y para el que quiere generar datos. Por ejemplo, supongamos que queremos generar datos que reflejen la relación entre la altura y el peso. En general, se sabe que la altura y el peso están asociados positivamente.
Según los Centros para el Control de Enfermedades, la estatura media de los hombres en EE.UU. es de aproximadamente 175 cm,1 y para nuestro ejemplo supondremos una desviación típica de 5 cm. El peso medio es de 89,7 kg, y supondremos una desviación típica de 10 kg. Para nuestro ejemplo, las modelizaremos como distribuciones normales (gaussianas o en forma de campana) y supondremos que la correlación entre ellas es de 0,5. Según las directrices de Cohen para la interpretación de los tamaños ...