Capítulo 1. Introducción a la generación de datos sintéticos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Comenzamos este capítulo explicando qué son los datos sintéticos y sus ventajas. Los proyectos de inteligencia artificial y aprendizaje automático (AIML) se llevan a cabo en diversas industrias, y los casos de uso que incluimos en este capítulo pretenden dar una idea de las amplias aplicaciones de la síntesis de datos. También definimos un proyecto AIML de forma bastante amplia, para incluir, por ejemplo, el desarrollo de aplicaciones de software que tengancomponentes AIML.

Definición de datos sintéticos

A nivel conceptual, los datos sintéticos no son datos reales, sino datos que se han generado a partir de datos reales y que tienen las mismas propiedades estadísticas que los datos reales. Esto significa que si un analista trabaja con un conjunto de datos sintéticos, debería obtener resultados de análisis similares a los que obtendría con datos reales. El grado en que un conjunto de datos sintéticos es un sustituto exacto de los datos reales es una medida de utilidad. Denominamos síntesis al proceso de generación de datos sintéticos.

Los datos en este contexto pueden significar cosas diferentes. Por ejemplo, los datos pueden ser datos estructurados, como los que se ven en una base de datos relacional. Los datos también pueden ser texto no estructurado, como notas de médicos, transcripciones de conversaciones o interacciones en línea por correo electrónico o chat. Además, las imágenes, los vídeos, el audio y los entornos virtuales son tipos de datos que pueden sintetizarse. Utilizando el aprendizaje automático, es posible crear imágenes realistas de personas que no existen en el mundo real.

Hay tres tipos de datos sintéticos. El primer tipo se genera a partir de conjuntos de datos reales, el segundo no utiliza datos reales y el tercero es un híbrido de los dos anteriores. Vamos a examinarlos aquí.

Síntesis a partir de datos reales

El primer tipo de datos sintéticos se sintetiza a partir de conjuntos de datos reales. Esto significa que el analista dispone de unos conjuntos de datos reales y, a continuación, construye un modelo para captar las distribuciones y la estructura de esos datos reales. Aquí estructura significa las relaciones e interacciones multivariantes de los datos. Una vez construido el modelo, los datos sintéticos se muestrean o generan a partir de ese modelo. Si el modelo es una buena representación de los datos reales, los datos sintéticos tendrán propiedades estadísticas similares a las de los datos reales.

Esto se ilustra en la Figura 1-1. Aquí ajustamos primero los datos a un modelo generativo. Esto capta las relaciones en los datos. Luego utilizamos ese modelo para generar datos sintéticos. Así, los datos sintéticos se producen a partir del modelo ajustado.

psdg 0101
Figura 1-1. El proceso conceptual de la síntesis de datos

Por ejemplo, un grupo de ciencia de datos especializado en comprender los comportamientos de los clientes necesitaría grandes cantidades de datos para construir sus modelos. Pero debido a la privacidad u otras preocupaciones, el proceso para acceder a esos datos de clientes es lento y no proporciona datos lo suficientemente buenos debido al amplio enmascaramiento y redacción de la información. En su lugar, se puede proporcionar a los analistas una versión sintética de los conjuntos de datos de producción para que construyan sus modelos con ellos. Los datos sintetizados tendrán menos restricciones de uso y les permitirán avanzar más rápidamente.

Síntesis sin datos reales

El segundo tipo de datos sintéticos no se genera a partir de datos reales. Se crean utilizando modelos existentes o los conocimientos previos del analista.

Estos modelos existentes pueden ser modelos estadísticos de un proceso (desarrollados mediante encuestas u otros mecanismos de recogida de datos) o pueden ser simulaciones. Las simulaciones pueden ser, por ejemplo, motores de juegos que crean imágenes simuladas (y sintéticas) de escenas u objetos, o pueden ser motores de simulación que generan datos de compradores con características particulares (digamos, edad y sexo) de personas que pasan por delante de una tienda a distintas horas del día.

El conocimiento previo puede ser, por ejemplo, el conocimiento de cómo se comporta un mercado financiero que proviene de las descripciones de los libros de texto o de los movimientos de los precios de las acciones en diversas condiciones históricas. También puede ser el conocimiento de la distribución estadística del tráfico de personas en una tienda, basado en años de experiencia. En tal caso, es relativamente sencillo crear un modelo y muestrear a partir del conocimiento de fondo para generar datos sintéticos. Si el conocimiento del analista sobre el proceso es exacto, los datos sintéticos se comportarán de forma coherente con los datos del mundo real. Por supuesto, el uso del conocimiento de fondo sólo funciona cuando el analista comprende realmente el fenómeno de interés.

Como último ejemplo, cuando un proceso es nuevo o el analista no lo comprende bien, y no hay datos históricos reales que utilizar, el analista puede hacer algunas suposiciones sencillas sobre las distribuciones y correlaciones entre las variables que intervienen en el proceso. Por ejemplo, el analista puede hacer la suposición simplificadora de que las variables tienen distribuciones normales y correlaciones "medias" entre ellas, y crear los datos de esa manera. Es probable que este tipo de datos no tenga las mismas propiedades que los datos reales, pero aún así pueden ser útiles para algunos fines, como depurar un programa de análisis de datos en R, o algunos tipos de pruebas de rendimiento de aplicaciones de software.

Síntesis y utilidad

Para algunos casos de uso, tener una utilidad alta importará bastante. En otros casos, puede ser aceptable una utilidad media o incluso baja. Por ejemplo, si el objetivo es construir modelos AIML para predecir el comportamiento de los clientes y tomar decisiones de marketing basadas en ello, entonces será importante una utilidad alta. Por otro lado, si el objetivo es ver si tu software puede gestionar un gran volumen de transacciones, entonces las expectativas de utilidad de los datos serán considerablemente menores. Por tanto, comprender qué datos, modelos, simuladores y conocimientos existen, así como los requisitos de utilidad de los datos, impulsará el enfoque específico para generar los datos sintéticos.

En la Tabla 1-1 se ofrece un resumen de los tipos de datos sintéticos.

Tabla 1-1. Diferentes tipos de síntesis de datos con sus implicaciones de utilidad
Tipo de datos sintéticos Utilidad

Generados a partir de conjuntos de datos reales no públicos

Puede ser bastante alto

Generados a partir de datos públicos reales

Puede ser elevado, aunque existen limitaciones porque los datos públicos tienden a estar desidentificados o agregados

Se genera a partir de un modelo existente de un proceso, que también puede representarse en un motor de simulación

Dependerá de la fidelidad del modelo generador existente

Basado en el conocimiento de los analistas

Dependerá de lo bien que el analista conozca el ámbito y de la complejidad del fenómeno

Generados a partir de supuestos genéricos no específicos del fenómeno

Probablemente será bajo

Ahora que has visto los distintos tipos de datos sintéticos, veamos las ventajas de la síntesis de datos en general y de algunos de estos tipos de datos en particular.

Las ventajas de los datos sintéticos

Destacaremos dos ventajas importantes de la síntesis de datos: proporcionar un acceso más eficaz a los datos y permitir un mejor análisis. Examinemos cada una de ellas por separado.

Acceso eficaz a los datos

El acceso a los datos es fundamental para los proyectos AIML. Los datos son necesarios para entrenar y validar modelos. En términos más generales, los datos también son necesarios para evaluar las tecnologías AIML desarrolladas por otros, así como para probar las aplicaciones de software AIML o las aplicaciones que incorporan modelos AIML.

Normalmente, los datos se recogen para un fin concreto con el consentimiento de la persona; por ejemplo, para participar en un seminario web o en un estudio de investigación clínica. Si quieres utilizar esos mismos datos para un fin distinto, como construir un modelo para predecir qué tipo de persona es probable que se apunte a un seminario web o participe en un estudio clínico, entonces eso se considera un fin secundario.

El acceso a los datos para fines secundarios, como el análisis, se está volviendo problemático. La Oficina de Rendición de Cuentas del Gobierno1 y el Instituto Global McKinsey 2 señalan que el acceso a los datos para crear y probar modelos AIML es un reto para su adopción más generalizada. Un análisis de Deloitte concluyó que los problemas de acceso a los datos figuran entre los tres principales retos a los que se enfrentan las empresas al implantar la IA.3 Al mismo tiempo, el público está cada vez más inquieto sobre cómo se utilizan y comparten sus datos, y las leyes de privacidad son cada vez más estrictas. Una encuesta reciente de O'Reilly puso de manifiesto la preocupación por la privacidad de las empresas que adoptan modelos de aprendizaje automático.4

Las normativas contemporáneas sobre privacidad, como la Ley de Portabilidad y Responsabilidad de los Seguros Sanitarios (HIPAA) de EE.UU., , y el Reglamento General de Protección de Datos (RGPD) de Europa, , exigen una base jurídica para utilizar datos personales con un fin secundario. Un ejemplo de esa base jurídica sería el consentimiento o autorización adicional de los individuos antes de que se puedan utilizar sus datos. En muchos casos, esto no es práctico y puede introducir sesgos en los datos, ya que las personas que dan su consentimiento y las que no lo hacen difieren encaracterísticas importantes.5

Dada la dificultad de acceder a los datos, a veces los analistas intentan limitarse a utilizar conjuntos de datos públicos o de código abierto. Éstos pueden ser un buen punto de partida, pero carecen de diversidad y a menudo no se ajustan bien a los problemas que los modelos pretenden resolver. Además, los datos abiertos pueden carecer de la heterogeneidad suficiente para un entrenamiento sólido de los modelos. Por ejemplo, los datos abiertos pueden no captar suficientemente bien los casos raros.

La síntesis de datos puede proporcionar al analista, de forma bastante eficaz y a escala, datos realistas con los que trabajar. Los datos sintéticos no se considerarían datos personales identificables. Por lo tanto, no se aplicarían las normas de privacidad y no sería necesario un consentimiento adicional para utilizar los datos con fines secundarios.6

Permitir mejores análisis

Un caso de uso en el que se puede aplicar la síntesis es cuando no existen datos reales; por ejemplo, si el analista intenta modelizar algo completamente nuevo, y la creación o recopilación de un conjunto de datos reales desde cero tendría un coste prohibitivo o sería poco práctico. Los datos sintetizados también pueden cubrir casos periféricos o poco frecuentes que son difíciles, poco prácticos o poco éticos de recopilar en el mundo real.

A veces existen datos reales, pero no están etiquetados. Etiquetar una gran cantidad de ejemplos para tareas de aprendizaje supervisado puede llevar mucho tiempo, y el etiquetado manual es propenso a errores. De nuevo, se pueden generar datos sintéticos etiquetados para acelerar el desarrollo del modelo. El proceso de síntesis puede garantizar una gran precisión en el etiquetado.

Los analistas pueden utilizar los modelos de datos sintéticos para validar sus supuestos y demostrar el tipo de resultados que pueden obtenerse con sus modelos. De este modo, los datos sintéticos pueden utilizarse de forma exploratoria. Sabiendo que tienen resultados interesantes y útiles, los analistas pueden entonces pasar por el proceso más complejo de obtener los datos reales (en bruto o desidentificados) para construir las versiones finales de susmodelos.

Por ejemplo, si un analista es un investigador, puede utilizar sus modelos exploratorios en datos sintéticos para luego solicitar financiación para acceder a los datos reales, lo que puede requerir un protocolo completo y múltiples niveles de aprobación. En tal caso, los esfuerzos con los datos sintéticos que no produzcan buenos modelos o resultados procesables seguirían siendo beneficiosos, porque redirigirán a los investigadores a intentar otra cosa, en lugar de intentar acceder a los datos reales para un análisis potencialmente inútil.

Otro escenario en el que los datos sintéticos pueden ser valiosos es cuando se utilizan para entrenar un modelo inicial antes de poder acceder a los datos reales. Luego, cuando el analista obtiene los datos reales, puede utilizar el modelo entrenado como punto de partida para entrenar con los datos reales. Esto puede acelerar significativamente la convergencia del modelo de datos reales (reduciendo así el tiempo de cálculo) y puede dar lugar potencialmente a un modelo más preciso. Éste es un ejemplo de utilización de datos sintéticos para el aprendizaje por transferencia.

Los beneficios de los datos sintéticos pueden ser espectaculares: pueden hacer factibles proyectos imposibles, acelerar significativamente las iniciativas AIML o mejorar sustancialmente los resultados de los proyectos AIML.

Datos sintéticos como proxy

Si la utilidad de los datos sintéticos es lo suficientemente alta, los analistas pueden obtener con los datos sintéticos resultados similares a los que obtendrían con los datos reales. En tal caso, los datos sintéticos desempeñan el papel de un proxy de los datos reales. Cada vez hay más casos de uso en los que se da este escenario: a medida que los métodos de síntesis mejoren con el tiempo, este resultado indirecto va a ser más habitual.

Hemos visto que los datos sintéticos pueden desempeñar un papel clave en la resolución de una serie de problemas prácticos. Sin embargo, uno de los factores críticos para la adopción de la síntesis de datos es la confianza en los datos generados. Hace tiempo que se reconoce que será necesaria una gran utilidad de los datos para la adopción generalizada de los métodos de síntesis de datos.7 Éste es el tema que trataremos a continuación.

Aprender a confiar en los datos sintéticos

El interés inicial por los datos sintéticos comenzó a principios de la década de 1990 con propuestas de utilizar métodos de imputación múltiple para generar datos sintéticos. La imputación en general es la clase de métodos utilizados para tratar los datos que faltan utilizando datos realistas para sustituir los valores que faltan. Los datos que faltan pueden darse, por ejemplo, en una encuesta en la que algunos encuestados no rellenan el cuestionario.

Para que los datos imputados sean precisos, el analista debe construir un modelo del fenómeno de interés utilizando los datos disponibles y, a continuación, utilizar ese modelo para estimar cuál debe ser el valor imputado. Para construir un modelo válido, el analista necesita saber cómo se utilizarán finalmente los datos.

Con la imputación múltiple creas múltiples valores imputados para captar la incertidumbre de estos valores estimados. Esto da lugar a múltiples conjuntos de datos imputados. Hay técnicas específicas que se pueden utilizar para combinar el análisis que se repite en cada conjunto de datos imputado para obtener un conjunto final de resultados de análisis. Este proceso puede funcionar razonablemente bien si sabes de antemano cómo se van a utilizar los datos.

En el contexto del uso de la imputación para la síntesis de datos, los datos reales se aumentan con datos sintéticos utilizando el mismo tipo de técnicas de imputación. En tal caso, los datos reales se utilizan para construir un modelo de imputación que luego se utiliza para sintetizar nuevos datos.

El reto es que, si tus modelos de imputación son diferentes de los modelos eventuales que se construirán con los datos sintéticos, entonces los valores imputados pueden no reflejar muy bien los valores reales, y esto introducirá errores en los datos. Este riesgo de construir el modelo equivocado ha llevado a una cautela histórica en la aplicación de los datos sintéticos.

Más recientemente, se han utilizado modelos estadísticos de aprendizaje automático para la síntesis de datos. La ventaja de estos modelos es que pueden captar bastante bien las distribuciones y las relaciones complejas entre las variables. En efecto, descubren el modelo subyacente en los datos en lugar de requerir que ese modelo sea preespecificado por el analista. Y ahora, con la síntesis de datos de aprendizaje profundo, estos modelos pueden ser bastante precisos porque pueden captar gran parte de la señal de los datos, incluso señales sutiles.

Por lo tanto, nos estamos acercando al punto en que los modelos generativos disponibles hoy en día producen conjuntos de datos que se están convirtiendo en sustitutos bastante buenos de los datos reales. Pero también hay formas de evaluar la utilidad de los datos sintéticos de forma más objetiva.

Por ejemplo, podemos comparar los resultados del análisis de los datos sintéticos con los resultados del análisis de los datos reales. Si no sabemos qué análisis se realizará con los datos sintéticos, se puede probar una serie de posibles análisis basados en usos conocidos de esos datos. O se puede realizar una evaluación de "todos los modelos", en la que se construyen todos los modelos posibles a partir de los conjuntos de datos reales y sintéticos y se comparan.

También se pueden utilizar datos sintéticos para aumentar la heterogeneidad de un conjunto de datos de entrenamiento y conseguir un modelo AIML más robusto. Por ejemplo, pueden sintetizarse e incluirse en el conjunto de datos de entrenamiento casos de perímetro en los que no existen datos o son difíciles de recopilar. En ese caso, la utilidad de los datos sintéticos se mide en el incremento de robustez de los modelos AIML.

En el momento de escribir estas líneas, la Oficina del Censo de EE.UU. ha decidido aprovechar los datos sintéticos para uno de los conjuntos de datos públicos más utilizados, los datos del censo decenal de 2020. Para su difusión de datos tabulados, creará un conjunto de datos sintéticos a partir de los datos censales recopilados a nivel individual y, a continuación, elaborará las tabulaciones públicas a partir de ese conjunto de datossintéticos. En el proceso de síntesis se utilizará una mezcla de métodos formales y no formales.8

Podría decirse que esto demuestra la adopción a gran escala de la síntesis de datos para uno de los conjuntos de datos más críticos y más utilizados de la actualidad.

Más allá del censo, la síntesis de datos se está utilizando en varias industrias, como ilustraremos más adelante en este capítulo.

Casos prácticos de datos sintéticos

Aunque los conceptos técnicos que subyacen a la generación de datos sintéticos existen desde hace unas décadas, su uso práctico no ha despegado hasta hace poco. Una de las razones es que este tipo de datos resuelve algunos problemas desafiantes que antes eran bastante difíciles de resolver, o los resuelve de una forma más rentable. Todos estos problemas están relacionados con el acceso a los datos: a veces es difícil acceder a los datos reales.

En esta sección se presentan algunos ejemplos de aplicación de diversas industrias. Estos ejemplos no pretenden ser exhaustivos, sino más bien ilustrativos. Además, el mismo problema puede existir en múltiples industrias (por ejemplo, obtener datos realistas para las pruebas de software es un problema común que la síntesis de datos puede resolver), por lo que las aplicaciones de los datos sintéticos para resolver ese problema serán, por tanto, relevantes en esas múltiples industrias. El hecho de que hablemos de las pruebas de software, por ejemplo, sólo bajo un epígrafe, no significa que no sea relevante en otro.

La primera industria que examinamos es la de fabricación y distribución. Después damos ejemplos de sanidad, servicios financieros y transporte. Los ejemplos del sector abarcan los tipos de datos sintéticos que hemos analizado, desde la generación de datos estructurados a partir de datos reales a nivel individual y agregado, hasta el uso de motores de simulación para generar grandes volúmenes de datos sintéticos.

Fabricación y distribución

El uso de AIML en robots industriales, junto con la mejora de la tecnología de sensores, está permitiendo la automatización de fábricas para tareas más complejas y variadas.9 En el almacén y en la fábrica, estos sistemas son cada vez más capaces de recoger objetos arbitrarios de estanterías y cintas transportadoras, y luego inspeccionarlos, manipularlos y moverlos, como ilustra el Reto de Recogida de Amazon.10

Sin embargo, el entrenamiento robusto de robots para realizar tareas complejas en la cadena de producción o el almacén puede ser un reto debido a la necesidad de obtener datos de entrenamiento realistas que cubran múltiples escenarios previstos, así como otros poco comunes que rara vez se ven en la práctica pero que siguen siendo plausibles. Por ejemplo, reconocer objetos en diferentes condiciones de iluminación, con diferentes texturas y en diversas posiciones requiere datos de entrenamiento que capturen la variedad y las combinaciones de estas situaciones. No es trivial generar un conjunto de datos de entrenamiento de este tipo.

Consideremos un ejemplo ilustrativo de cómo puede utilizarse la síntesis de datos para entrenar a un robot a realizar una tarea compleja que requiere un gran conjunto de datos para el entrenamiento. Los ingenieros de NVIDIA estaban intentando entrenar a un robot para jugar al dominó utilizando un modelo de aprendizaje profundo (ver Figura 1-2). El entrenamiento necesitaba un gran número de imágenes heterogéneas que capturaran el espectro de situaciones que un robot puede encontrar en la práctica. No existía un conjunto de datos de entrenamiento de este tipo, y crear manualmente estas imágenes habría tenido un coste prohibitivo y habría llevado mucho tiempo.

El equipo de NVIDIA utilizó un motor de renderizado gráfico de su plataforma de juegos para crear imágenes de fichas de dominó en diferentes posiciones, con diferentes texturas y bajo diferentes condiciones de iluminación (ver Figura 1-3).11 En realidad, nadie colocó manualmente las fichas de dominó y las fotografió para entrenar el modelo: las imágenes que se crearon para el entrenamiento fueron simuladas por el motor.

psdg 0103
Figura 1-3. Ejemplo de imagen de dominó sintetizada

En este caso, los datos de las imágenes no existían, y crear manualmente un conjunto de datos lo suficientemente grande habría llevado mucho tiempo a muchas personas, lo que no es una opción muy rentable. El equipo utilizó el motor de simulación para crear un gran número de imágenes para entrenar al robot. Es un buen ejemplo de cómo pueden utilizarse datos sintéticos para entrenar a un robot a reconocer, coger y manipular objetos en un entorno heterogéneo, el mismo tipo de construcción de modelos que se necesitaría para los robots industriales.

Sanidad

Acceder a los datos para construir modelos AIML en el sector sanitario suele ser difícil debido a las normativas sobre privacidad o porque la recopilación de datos puede ser costosa. Los datos sanitarios se consideran sensibles en muchos regímenes de protección de datos, y su uso y divulgación con fines analíticos debe cumplir una serie de condiciones. Estas condiciones pueden no ser triviales de establecer (por ejemplo, proporcionando a los pacientes acceso a sus propios datos, creando fuertes controles de seguridad en torno a la conservación y el tratamiento de los datos, y formando al personal).12 Además, la recogida de datos sanitarios para estudios o análisis específicos puede ser bastante cara. Por ejemplo, la recogida de datos de múltiples centros en ensayos clínicos es costosa.

Los siguientes ejemplos ilustran cómo los datos sintéticos han resuelto el reto del acceso a los datos en la industria sanitaria.

Datos para la investigación del cáncer

Hay fuertes corrientes que empujan a los gobiernos y a la industria farmacéutica a hacer que sus datos sanitarios estén más ampliamente disponibles para el análisis secundario. Con ello se pretende resolver el problema del acceso a los datos y fomentar una investigación más innovadora para comprender las enfermedades y encontrar tratamientos. Los organismos reguladores también han exigido a las empresas que hagan más ampliamente accesibles los datos sanitarios. Un buen ejemplo de ello es la Agencia Europea de Medicamentos, que ha exigido a las empresas farmacéuticas que pongan a disposición del público la información que presentaron para sus decisiones de aprobación de medicamentos.13 Health Canada también lo ha hecho recientemente.14

Las revistas médicas también animan ahora encarecidamente a los investigadores que publican artículos a que pongan sus datos a disposición del público para que otros investigadores puedan reproducir los estudios, lo que posiblemente podría dar lugar a análisis innovadores sobre esos mismos datos.

En general, cuando esos datos contienen información personal, es necesario desidentificarlos o convertirlos en no personales antes de hacerlos públicos (a menos que se obtenga previamente el consentimiento de las personas afectadas, que no es el caso aquí). Sin embargo, en la práctica es difícil desidentificar datos complejos para hacerlos públicos.15 Esto se debe a varias razones:

  • Los datos públicos tienen pocos controles (por ejemplo, los usuarios de los datos no tienen que aceptar las condiciones de uso ni revelar su identidad, lo que dificulta garantizar que los manejan de forma segura). Por lo tanto, el nivel de transformaciones de datos necesario para garantizar que el riesgo de reidentificación es bajo puede ser amplio, lo que garantiza que la utilidad de los datos se ha degradado significativamente.

  • Los ataques de reidentificación de datos públicos están recibiendo más atención por parte de los medios de comunicación y los reguladores, y también se están volviendo más sofisticados. En consecuencia, los métodos de desidentificación deben pecar de conservadores, lo que erosiona aún más la utilidad de los datos.

  • La complejidad de los conjuntos de datos que hay que compartir amplifica aún más los problemas de utilidad de los datos, porque habría que transformar gran parte de la información de los datos para gestionar el riesgo de reidentificación.

Los datos sintéticos permiten disponer de datos abiertos complejos. Complejidad significa aquí que los datos tienen muchas variables y tablas, con muchas transacciones por individuo. Por ejemplo, los datos de una historia clínica electrónica de oncología se considerarían complejos. Tendrían información sobre, por ejemplo, el paciente, las visitas, los tratamientos, los fármacos prescritos y administrados, y las pruebas de laboratorio.

La síntesis puede abordar simultáneamente el problema de la privacidad y proporcionar datos de mayor utilidad que la alternativa actual. Un buen ejemplo de ello son los datos sintéticos del registro de cáncer que ha puesto a disposición del público Public Health England. Este conjunto de datos sintéticos sobre el cáncer puede descargarse y utilizarse para generar y probar hipótesis, y para realizar evaluaciones de viabilidad rentables y rápidas para futuros estudios sobre el cáncer.

Más allá de los datos para la investigación, se está produciendo (lentamente) una revolución digital en la medicina.16 Por ejemplo, las grandes cantidades de datos sanitarios que existen con proveedores y pagadores contienen muchos conocimientos que pueden detectarse con las técnicas más potentes de AIML. Los nuevos dispositivos médicos digitales están añadiendo más datos continuos sobre la salud y el comportamiento de los pacientes. Los datos de resultados comunicados por los pacientes proporcionan evaluaciones de la función, la calidad de vida y el dolor. Y, por supuesto, los datos genómicos y otros datos -ómicos son el núcleo de la medicina personalizada. Todos estos datos deben integrarse y utilizarse para tomar decisiones y tratamientos en el punto de atención y en casa. Las innovaciones en AIML pueden facilitarlo.

En la siguiente sección examinamos cómo las empresas de salud digital y tecnología sanitaria pueden utilizar los datos sintéticos para aprovechar este ecosistema de innovación. Y ten en cuenta que cada vez más empresas tradicionales de fármacos y dispositivos se están convirtiendo en empresas de salud digital.

Evaluar las tecnologías sanitarias digitales innovadoras

Las empresas de tecnología sanitaria buscan constantemente innovaciones basadas en datos procedentes del exterior. Puede tratarse de innovaciones de empresas de nueva creación o de instituciones académicas. Algunos ejemplos típicos son el análisis de datos (modelos y herramientas de aprendizaje automático estadístico o aprendizaje profundo), la gestión de datos (como herramientas de normalización y armonización de datos, y herramientas de limpieza de datos), y herramientas de detección de tipos de datos (que descubren dónde existen distintos tipos de datos en la organización).

Dado que la adopción de nuevas tecnologías requiere recursos y tiene costes de oportunidad, la decisión de hacerlo debe tomarse con cierto cuidado. Estas empresas necesitan un mecanismo para evaluar estas innovaciones de forma eficiente, para determinar cuáles funcionan realmente en la práctica y, lo que es más importante, cuáles funcionarán con sus datos. La mejor forma de hacerlo es dar a estos innovadores algunos datos y hacer que demuestren sus productos con esos datos.

Algunas grandes empresas reciben propuestas de innovadores a un ritmo considerable, a veces se dirigen a varias partes de la organización al mismo tiempo. Las propuestas son convincentes, y los beneficios potenciales para su negocio pueden ser significativos. Las grandes empresas quieren introducir estas innovaciones en sus organizaciones. Pero la experiencia les ha dicho que, por ejemplo, algunas de las empresas de nueva creación presentan ideas en lugar de productos maduros, y los académicos describen soluciones que sólo funcionaban en problemas pequeños o en situaciones distintas a las de las empresas. Es necesario probar estas innovaciones con sus propios problemas y datos.

En la industria farmacéutica, puede ser complejo proporcionar datos a partes externas porque muchos de los datos relevantes pertenecen a pacientes o proveedores sanitarios. Los procesos que serían necesarios para compartir esos datos incluirían normalmente una amplia contratación y una auditoría de las prácticas de seguridad del receptor de los datos. Sólo estas dos tareas podrían requerir bastante tiempo e inversión.

A veces, la empresa farmacéutica no puede compartir sus datos externamente debido a esta complejidad o a políticas internas, y en ese caso pide al innovador que venga e instale el software en su entorno (véase un ejemplo en "Evaluación rápida de la tecnología" ). Esto crea una complejidad y unos retrasos considerables, porque ahora la empresa tiene que auditar el software, abordar los problemas de compatibilidad y averiguar los puntos de integración. Esto encarece bastante las evaluaciones tecnológicas y consume muchos recursos internos. Además, esto no es escalable a los (potencialmente) cientos de innovaciones que la empresa querría probar cada año.

Estas empresas han empezado a hacer dos cosas para que este proceso sea más eficaz y les permita introducir innovaciones. En primer lugar, tienen un conjunto estándar de conjuntos de datos sintéticos que son representativos de sus datos de pacientes o proveedores. Por ejemplo, una empresa farmacéutica tendría un conjunto de conjuntos de datos sintéticos de ensayos clínicos en diversas áreas terapéuticas. Estos conjuntos de datos pueden compartirse fácilmente con los innovadores para proyectos piloto o pruebas rápidas de concepto.

El segundo proceso que se utiliza son los concursos. La idea básica es definir un problema que hay que resolver y luego invitar a una serie de innovadores a resolver ese problema, utilizando datos sintéticos para demostrar sus soluciones. Puede tratarse de concursos abiertos o cerrados. En los primeros, puede participar cualquier start-up, individuo o institución, por ejemplo organizando hackathones o datathones públicos. Con los segundos, concursos cerrados, se invita a participar a innovadores concretos.

En los hackathones o datathones públicos, se invita a los participantes a resolver un problema determinado, con un premio al final para el individuo o equipo ganador. La principal diferencia entre estos actos públicos y los concursos descritos anteriormente es que los innovadores no se seleccionan de antemano, sino que la participación tiende a ser más abierta. La diversidad de estos concursos hace que se generen y evalúen muchas ideas nuevas en un periodo de tiempo relativamente corto. Los datos sintéticos pueden ser un facilitador clave en estas circunstancias, al proporcionar conjuntos de datos a los que los concursantes pueden acceder con mínimas restricciones.

Un buen ejemplo de concurso abierto es el Premio Heritage de Salud (HHP). El HHP destacó por la cuantía del premio y el tamaño del conjunto de datos que se puso a disposición de los participantes. En la época del concurso, que duró de 2011 a 2013, la disponibilidad de datos sintéticos era limitada, por lo que se creó un conjunto de datos desidentificados.17 Debido a los problemas de desidentificación de los conjuntos de datos abiertos que se han señalado anteriormente, ha sido más habitual que los concursos relacionados con la salud se cierren. Sin embargo, en este momento no hay ninguna razón de peso para mantener esa restricción. Ahora se están utilizando datos sintéticos para posibilitar este tipo de concursos, como se describe en "Datathons Enabled by Synthetic Data".

En la práctica, sólo un pequeño porcentaje de esas evaluaciones tienen éxito cuando se les da un conjunto de datos realista con el que trabajar. A los innovadores que superan la evaluación o el concurso se les invita entonces a pasar por un proceso más complicado para acceder a datos reales y hacer demostraciones más detalladas, o la empresa puede decidir conceder la licencia de la innovación en ese momento. Pero al menos las inversiones más costosas en la evaluación o adopción de la tecnología sólo se realizan en candidatos de los que se sabe que tienen una innovación que funciona.

Otro gran consumidor de datos sintéticos es el sector de los servicios financieros. En parte se debe a que este sector ha sido uno de los primeros usuarios de la tecnología AIML y de la toma de decisiones basada en datos, como en la detección de fraudes, el procesamiento de reclamaciones y el marketing de consumo. En la siguiente sección examinamos casos de uso concretos en los que se han aplicado datos sintéticos en este sector.

Servicios financieros

Acceder a grandes volúmenes de datos históricos de mercado en el sector de los servicios financieros puede resultar caro. Este tipo de datos es necesario, por ejemplo, para construir modelos que impulsen las decisiones comerciales y para probar el software. Además, utilizar los datos de las transacciones financieras de los consumidores para crear modelos, por ejemplo, en el contexto de la comercialización de servicios bancarios minoristas, no siempre es fácil porque requiere compartir información financiera personal con analistas de datos internos y externos.

Los siguientes casos de uso ilustran cómo se han utilizado los datos sintéticos para resolver algunos de estos retos.

Puntos de referencia de datos sintéticos

Al seleccionar software y hardware para procesar grandes volúmenes de datos, las empresas de servicios financieros tienen que evaluar a los proveedores y las soluciones del mercado. En lugar de que cada empresa evalúe una por una las tecnologías de proveedores y académicos innovadores, lo habitual es crear puntos de referencia de datos estandarizados.

Un punto de referencia de datos consistiría en un conjunto de datos y un conjunto de pruebas que se realizarían con ese conjunto de datos. Los vendedores y los académicos podrían entonces utilizar su software y hardware para producir los resultados utilizando estos datos como entradas, y todos ellos podrían compararse de forma coherente. Crear un punto de referencia tendría más sentido en situaciones en las que el mercado sea lo suficientemente grande y la comunidad pueda ponerse de acuerdo sobre un punto de referencia que sea representativo.

En escenarios competitivos en los que varios vendedores y académicos pueden ofrecer soluciones al mismo conjunto de problemas, los puntos de referencia deben construirse de forma que se garantice que nadie pueda engañar fácilmente al sistema. Con un conjunto de datos de entrada estándar, basta con entrenar o configurar las soluciones para que produzcan el resultado correcto sin realizar los cálculos analíticos necesarios.

Los puntos de referencia de datos sintéticos se producen a partir del mismo modelo subyacente, pero cada proveedor o académico obtiene un conjunto único y específico de datos sintéticos generados a partir de ese modelo. De este modo, cada entidad que ejecute el punto de referencia tendrá que producir resultados diferentes para obtener una buena puntuación en el punto de referencia.

Un ejemplo es el punto de referencia STAC-A2 para evaluar el software y el hardware utilizados para modelar el riesgo del mercado financiero. El punto de referencia tiene una serie de medidas de calidad en los resultados que se evalúan durante el cálculo de las sensibilidades de los precios de las opciones para múltiples activos utilizando la simulación Monte Carlo. También hay una serie de pruebas de rendimiento/escalado que se realizan utilizando los datos.

Cuando las empresas de servicios financieros desean seleccionar un proveedor de tecnología, pueden comparar las soluciones del mercado utilizando un punto de referencia coherente que se haya ejecutado con datos comparables. Esto proporciona una evaluación neutral de los puntos fuertes y débiles de las ofertas disponibles, sin que las empresas tengan que realizar sus propias evaluaciones (que pueden ser caras y llevar mucho tiempo) o basarse en evaluaciones específicas de un proveedor (que pueden estar sesgadas hacia ese proveedor).

Pruebas de software

Las pruebas de software son un caso de uso clásico de los datos sintéticos. Esto incluye las pruebas funcionales y de rendimiento de las aplicaciones de software por parte de los desarrolladores de software. En algunos casos, se necesitan grandes conjuntos de datos para realizar pruebas comparativas de aplicaciones informáticas, con el fin de garantizar que pueden funcionar con determinados rendimientos o volúmenes. Las extensiones del caso de uso de las pruebas son los conjuntos de datos para realizar demostraciones de software por parte de un equipo de ventas, y para formar a los usuarios de software con datos realistas.

Las pruebas de software son comunes en muchos sectores, y los problemas que se abordan con los datos sintéticos serán los mismos. En el sector de los servicios financieros hay dos casos de uso habituales. El primero es probar aplicaciones de software internas (por ejemplo, detección de fraudes) para garantizar que realizan las funciones previstas y no tienen errores. Para estas pruebas, se necesitan datos de entrada realistas, y esto incluye datos que cubran casos de perímetro o combinaciones inusuales de entradas. La segunda es probar que estas aplicaciones pueden escalar su rendimiento (por ejemplo, los tiempos de respuesta en las aplicaciones de comercio automatizado son importantes) para manejar los grandes volúmenes de datos que probablemente se encuentren en la práctica. Estas pruebas también deben simular situaciones inusuales, por ejemplo, cuando los volúmenes de negociación se disparan debido a un acontecimiento político o medioambiental externo.

En la mayoría de los grupos de ingeniería de software, no es fácil obtener datos de producción. Esto puede deberse a cuestiones de privacidad o a que los datos contienen información empresarial confidencial. Por lo tanto, hay reticencia a poner esos datos a disposición de un gran grupo de desarrolladores de software. Lo mismo se aplica a la puesta a disposición de datos para demostraciones y con fines de formación. Además, en algunos casos el software es nuevo y no hay suficientes datos de clientes para utilizarlos en las pruebas.

Una alternativa que se ha utilizado es desidentificar los datos de producción antes de ponerlos a disposición de los equipos de pruebas. Como la necesidad de datos de prueba es continua, la desidentificación también debe realizarse de forma continua. Habría que considerar la rentabilidad de la desidentificación continua frente a la de los datos sintéticos. Sin embargo, una cuestión más fundamental es el nivel de controles que habría que establecer para que los desarrolladores de software trabajaran con los datos desidentificados. Como se indicará más adelante, el riesgo de reidentificación se gestiona mediante una combinación de transformación de datos y controles de seguridad y privacidad. Los grupos de desarrollo de software están acostumbrados a trabajar con niveles inferiores de estos controles.

Las exigencias de utilidad de los datos para las pruebas de software no son tan elevadas como en algunos de los otros casos de uso que hemos examinado. Es posible generar datos sintéticos a partir de distribuciones teóricas y utilizarlos después para las pruebas. Otro enfoque que se ha aplicado es utilizar conjuntos de datos públicos (datos abiertos) y replicarlos varias veces para crear conjuntos de datos de prueba más grandes o volver a realizar un muestreo con reemplazo (extraer muestras del conjunto de datos de modo que cada registro pueda extraerse más de una vez).

Existen métodos más basados en principios para la generación de datos sintéticos para pruebas, demostraciones y entrenamiento. Éstos implican la generación de datos sintéticos a partir de datos reales utilizando los mismos enfoques que se emplean para generar datos para construir y probar modelos AIML. Esto garantizará que los datos sean realistas y tengan características estadísticas correctas (por ejemplo, un suceso raro en los datos reales también será un suceso raro en los datos sintéticos), y que estas propiedades se mantengan si se generan grandes conjuntos de datos sintéticos.

El siguiente sector que estudiaremos es el del transporte. Bajo ese epígrafe consideraremos la síntesis de datos con fines de planificación mediante modelos de microsimulación y la síntesis de datos para el entrenamiento de modelos en vehículos autónomos.

Transporte

El uso de datos sintéticos en la industria del transporte se remonta a varias décadas atrás. El principal motivo es la necesidad de tomar decisiones políticas y de planificación muy concretas sobre infraestructuras en un entorno de datos limitados. De ahí que el uso de modelos de microsimulación cobrara importancia para fundamentar la toma de decisiones. Éste es el primer ejemplo que consideramos. El segundo ejemplo es el uso de motores de juego para sintetizar entornos virtuales que se utilizan para entrenar modelos AIML, que luego se incorporan a los vehículos autónomos.

Modelos de microsimulación

Los entornos de microsimulación permiten a los usuarios hacer análisis "hipotéticos" y ejecutar escenarios novedosos. Estos entornos de simulación resultan atractivos cuando no se dispone de ningún dato real y, por tanto, es necesario crear datos sintéticos.

En el ámbito de la planificación del transporte es necesario, por ejemplo, evaluar el impacto de una nueva infraestructura planificada, como un nuevo puente o un nuevo centro comercial. Los modelos de demanda de viajes basados en la actividad pueden utilizar datos sintéticos para que los planificadores puedan hacerlo.

Un enfoque comúnmente utilizado para crear datos sintéticos para estos modelos combina resúmenes agregados -por ejemplo, del censo- con datos muestrales a nivel individual que se recogen de las encuestas. Los datos del censo normalmente proporcionarían información como la composición del hogar, los ingresos y el número de hijos. Los datos agregados normalmente cubrirían toda la población de interés, pero puede que no tengan todas las variables necesarias y no al nivel de granularidad que se desea. Los datos de encuesta cubrirán una muestra de la población, pero tendrán variables muy detalladas y extensas.

La reconstrucción sintética utiliza entonces un proceso iterativo como el ajuste proporcional iterativo (IPF) para crear datos sintéticos a nivel individual que generen de forma plausible los resúmenes agregados y utilicen los datos de la muestra como semilla. El procedimiento IPF se desarrolló hace algún tiempo y se ha aplicado más recientemente al problema de la síntesis de datos.18,19 La IPF tiene algunas desventajas conocidas en el contexto de la síntesis, por ejemplo, cuando los datos de la encuesta no cubren situaciones poco frecuentes. Se han desarrollado técnicas más robustas, como la optimización combinatoria, para abordarlas.20

El siguiente paso es utilizar otros datos, también recogidos mediante encuestas o directamente de los teléfonos móviles de los individuos, que caracterizan sus comportamientos y movimientos. Estos datos se utilizan para construir modelos, como los factores que influyen en la elección del modo de transporte de un individuo.

Combinando los datos sintéticos con los modelos, se pueden realizar microsimulaciones de lo que ocurriría en diferentes escenarios. Ten en cuenta que los modelos pueden funcionar en cascada en la simulación describiendo una serie de comportamientos y resultados complejos. Por ejemplo, los modelos pueden informar sobre las decisiones relativas al impacto en el tráfico, el uso del transporte público, los desplazamientos en bicicleta y el uso del coche causado por la construcción de un nuevo puente o un nuevo centro comercial en un lugar determinado. Estos microsimuladores pueden validarse hasta cierto punto asegurándose de que dan resultados coherentes con la realidad en escenarios históricos conocidos. Pero también pueden utilizarse para simular escenarios novedosos que sirvan de base para la planificación y la elaboración de políticas.

Consideremos ahora un caso de uso muy diferente para los datos sintéticos en el contexto del desarrollo de modelos AIML para vehículos autónomos. Algunos de estos modelos deben tomar decisiones en tiempo real y pueden tener importantes repercusiones en la seguridad. Por tanto, la robustez de su entrenamiento es crítica.

Síntesis de datos para vehículos autónomos

Una de las funciones clave en un vehículo autónomo es la identificación de objetos. Esto significa que el análisis de los datos de los sensores debe reconocer los objetos en la trayectoria del vehículo y sus alrededores. Las cámaras, los sistemas lidar y los sistemas de radar proporcionan los datos para apoyar la identificación de objetos, así como la determinación de la velocidad y la distancia de estos objetos.

Los datos sintéticos son esenciales para entrenar los modelos AIML que procesan algunas de estas señales. Los datos del mundo real no pueden captar todos los casos extremos o situaciones raras o peligrosas -como un animal que se cruza en el camino del vehículo o la luz directa del sol que incide en el sensor deuna cámara- que puede encontrar un vehículo autónomo. Además, el entorno capturado es fijo y no puede responder a los cambios en el comportamiento del sistema cuando se ejecuta el escenario varias veces.

La única forma de abordar estas lagunas es aprovechar los datos sintéticos. Al generar escenarios personalizables, los ingenieros pueden modelar entornos del mundo real -y crear otros totalmente nuevos- que pueden cambiar y responder a diferentes comportamientos. Aunque las pruebas en el mundo real constituyen una valiosa herramienta de validación, no son lo bastante exhaustivas como para demostrar que un vehículo es capaz de conducir sin un ser humano al volante.

Los datos sintéticos utilizados en la simulación se generan utilizando la tecnología de los videojuegos u otros mundos virtuales. En primer lugar, hay que crear el entorno. Puede reproducir un lugar del mundo real, como la ciudad de Nueva York, utilizando datos reales, o ser un lugar totalmente sintético. En cualquier caso, todo lo que hay en el entorno debe simular con precisión las mismas propiedades materiales que el mundo real, por ejemplo, el reflejo de la luz en el metal o la superficie del asfalto.

Este nivel de fidelidad permite recrear con precisión cómo ve un coche el entorno por el que circula, simulando la salida de los sensores de la cámara, el radar y el lidar. Los procesadores del coche reciben los datos como si procedieran de un entorno de conducción real, toman decisiones y envían las órdenes de control del vehículo al simulador. Este proceso de bucle cerrado permite realizar pruebas de hardware en bucle con precisión de bits y de tiempo. También permite probar las funciones del vehículo en condiciones muy realistas.

Por supuesto, la capacidad informática necesaria para realizar pruebas hardware-in-the-loop puede ser bastante significativa: alcanzar la fidelidad necesaria para la validación de vehículos autónomos es increíblemente intensivo desde el punto de vista informático. En primer lugar, hay que generar un mundo detallado. Luego hay que simular la salida de los sensores de forma físicamente precisa, lo que requiere tiempo y enormes cantidades de potencia de cálculo.

Resumen

En los últimos años hemos visto crecer la adopción de datos sintéticos en diversos sectores, como la fabricación, la sanidad, el transporte y los servicios financieros. Dado que no es probable que los retos de acceso a los datos se faciliten o desaparezcan pronto, se espera que aumente la aplicabilidad de la síntesis de datos a más casos de uso.

En este capítulo hemos empezado con una visión general de lo que son los datos sintéticos y hemos hablado de sus ventajas. A continuación, hemos analizado una serie de sectores en los que hemos visto cómo los datos sintéticos pueden aplicarse en la práctica para resolver problemas de acceso a los datos. De nuevo, una característica de estos casos de uso es su heterogeneidad y la plétora de problemas que puede resolver la síntesis. La nuestra no es una lista exhaustiva de industrias y aplicaciones, pero pone de relieve lo que están haciendo los primeros usuarios e ilustra el potencial.

Los ejemplos que hemos dado en este capítulo abarcan múltiples tipos de datos. En este libro nos centraremos en los datos estructurados. Sin embargo, muchos de los conceptos que trataremos también son aplicables, en general, a otros tipos de datos. En el siguiente capítulo tratamos importantes consideraciones de implementación, empezando por asegurarnos de que la síntesis de datos está alineada con las prioridades de tu organización. A continuación, describimos el proceso de síntesis y la implementación de las cadenas de síntesis. Concluimos con consideraciones programáticas a medida que escalas la síntesis de datos dentro de la empresa.

1 Oficina de Rendición de Cuentas del Gobierno de EEUU, "Inteligencia Artificial: Emerging Opportunities, Challenges, and Implications for Policy and Research" (marzo de 2018) https://www.gao.gov/products/GAO-18-644T.

2 Instituto Global McKinsey, "Inteligencia artificial: ¿La próxima frontera digital?", junio de 2017. https://oreil.ly/pFMkl.

3 Deloitte Insights, "Estado de la IA en la Empresa, 2ª Edición" 2018. https://oreil.ly/EiD6T.

4 Ben Lorica y Paco Nathan, El estado de la adopción del aprendizaje automático en la empresa (Sebastopol: O'Reilly, 2018).

5 Khaled El Emam et al., "A Review of Evidence on Consent Bias in Research," The American Journal of Bioethics 13, no. 4 (2013): 42-44.

6 En general, se necesitarían otros mecanismos de gobernanza, que trataremos más adelante en el libro.

7 Jerome P. Reiter, "Nuevos enfoques para la difusión de datos: Un vistazo al futuro (?)", CHANCE 17, no. 3 (junio de 2004): 11-15.

8 Aref N. Dajani et al., "The Modernization of Statistical Disclosure Limitation at the U.S. Census Bureau" (ponencia presentada en la reunión del Comité Asesor Científico del Censo, Suitland, MD, marzo de 2017).

9 Jonathan Tilley, "Automatización, robótica y la fábrica del futuro", McKinsey, septiembre de 2017. https://oreil.ly/L27Ol.

10 Lori Cameron, "Aprendizaje profundo: Our No. 1 Tech Trend for 2018 Is Set to Revolutionize Industrial Robotics", IEEE Computer Society, consultado el 28 de julio de 2019. https://oreil.ly/dKcF7.

11 Rev Lebaredian, "Synthetic Data Will Drive Next Wave of Business Applications" (conferencia, GTC Silicon Valley, 2019). https://bit.ly/2yUefyl.

12 Mike Hintze y Khaled El Emam, "Comparing the Benefits of Pseudonymisation and Anonymisation under the GDPR", Journal of Data Protection and Privacy 2, nº 1 (diciembre de 2018): 145-58.

13 Agencia Europea de Medicamentos, "External Guidance on the Implementation of the European Medicines Agency Policy on the Publication of Clinical Data for Medicinal Products for Human Use", septiembre de 2017. https://oreil.ly/uVOna.

14 Health Canada, "Guidance Document on Public Release of Clinical Information", 1 de abril de 2019. https://bit.ly/33JzHnY.

15 Khaled El Emam, "A De-identification Protocol for Open Data", IAPP Privacy Tech, 16 de mayo de 2016. https://bit.ly/33AetZq.

16 Neal Batra, Steve Davis y David Betts, "El futuro de la salud", Deloitte Insights, 30 de abril de 2019. https://oreil.ly/4v_nY.

17 Khaled El Emam y otros, "De-identification Methods for Open Health Data: The Case of the Heritage Health Prize Claims Dataset", Journal of Medical Internet Research 14, nº 1 (febrero de 2012): e33. https://www.jmir.org/2012/1/e33.

18 W. Edwards Deming y Frederick F. Stephan, "On a Least Squares Adjustment of a Sampled Frequency Table When the Expected Marginal Totals Are Known," Annals of Mathematical Statistics 11, no. 4 (1940): 427-44.

19 Richard J. Beckman, Keith A. Baggerly y Michael D. McKay, "Creating Synthetic Baseline Populations", Transportation Research Part A 30, nº 6 (1996): 415-29.

20 Zengyi Huang y Paul Williamson, "A Comparison of Synthetic Reconstruction and Combinatorial Optimization Approaches to the Creation of Small-Area Micro Data" (documento de trabajo, Universidad de Liverpool, 2002); Justin Ryan, Hannah Maoh y Pavlos Kanaroglou, "Population Synthesis: Comparing the Major Techniques Using a Small, Complete Population of Firms", Geographical Analysis 41 (2009): 181-203.

Get Generación Práctica de Datos Sintéticos now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.