Capítulo 1. Introducción a la generación de datos sintéticos
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Comenzamos este capítulo explicando qué son los datos sintéticos y sus ventajas. Los proyectos de inteligencia artificial y aprendizaje automático (AIML) se llevan a cabo en diversas industrias, y los casos de uso que incluimos en este capítulo pretenden dar una idea de las amplias aplicaciones de la síntesis de datos. También definimos un proyecto AIML de forma bastante amplia, para incluir, por ejemplo, el desarrollo de aplicaciones de software que tengancomponentes AIML.
Definición de datos sintéticos
A nivel conceptual, los datos sintéticos no son datos reales, sino datos que se han generado a partir de datos reales y que tienen las mismas propiedades estadísticas que los datos reales. Esto significa que si un analista trabaja con un conjunto de datos sintéticos, debería obtener resultados de análisis similares a los que obtendría con datos reales. El grado en que un conjunto de datos sintéticos es un sustituto exacto de los datos reales es una medida de utilidad. Denominamos síntesis al proceso de generación de datos sintéticos.
Los datos en este contexto pueden significar cosas diferentes. Por ejemplo, los datos pueden ser datos estructurados, como los que se ven en una base de datos relacional. Los datos también pueden ser texto no estructurado, como notas de médicos, transcripciones de conversaciones ...