Capítulo 4. Evaluación de la utilidad de los datos sintéticos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Para lograr un uso y una adopción generalizados, los datos sintéticos deben tener la utilidad suficiente para producir resultados de análisis similares a los de los datos originales.1 Éste es el ejercicio de creación de confianza que se trató en el Capítulo 1. Si sabemos con precisión cómo se van a utilizar los datos sintéticos, podemos sintetizarlos para que tengan una gran utilidad para ese fin; por ejemplo, si se conoce el tipo específico de análisis estadístico o modelo de regresión que se realizará con los datos sintéticos. Sin embargo, en la práctica, los sintetizadores no suelen conocer a priori todos los análisis que se realizarán con los datos sintéticos. Los datos sintéticos deben tener una gran utilidad para una amplia gama de usos posibles.

En este capítulo se esboza un marco de utilidad de datos que puede utilizarse para los datos sintéticos. Un marco común de utilidad de datos sería beneficioso porque permitiría lo siguiente:

  • Que los sintetizadores de datos optimicen sus métodos de generación para conseguir una granutilidad de los datos

  • Diferentes enfoques de síntesis de datos para que los usuarios puedan compararlos de forma coherente al elegir entre métodos de síntesis de datos

  • Que los usuarios de los datos comprendan rápidamente la fiabilidad de los resultados de los datos sintéticos

Se han utilizado tres tipos de enfoques para evaluar la utilidad de los datos sintéticos:

  • Evaluaciones en función de la carga de trabajo

  • Métricas genéricas de utilidad de datos

  • Evaluaciones subjetivas de la utilidad de los datos

Las métricas que tienen en cuenta la carga de trabajo examinan los análisis específicos factibles que se realizarían con los datos y comparan los resultados o parámetros específicos de los datos reales y los sintéticos.2 Estos análisis pueden variar desde simples estadísticas descriptivas hasta modelos multivariantes más complejos. Normalmente, un análisis que se realizó o se planificó en los datos reales se reproduce en los datos sintéticos.

Las evaluaciones genéricas considerarían, por ejemplo, la distancia entre los datos originales y los transformados.3 A menudo no reflejan el análisis muy específico que se realizará con los datos, sino que proporcionan indicadores de utilidad de gran utilidad cuando se desconocen los planes de análisis futuros. Para interpretar las métricas genéricas, es necesario que estén acotadas (por ejemplo, de 0 a 1), y debe haber algunos criterios aceptados para decidir si un valor es suficientemente alto o demasiado bajo.

Una evaluación subjetiva conseguiría un número suficientemente grande de expertos en el dominio que mirarían una mezcla aleatoria de registros reales y sintéticos y luego intentarían clasificar cada uno como real o sintético. Si un registro parece lo bastante realista, entonces se clasificaría como real, y si tiene patrones o relaciones inesperados, entonces podría clasificarse como sintético. Por ejemplo, para un conjunto de datos sanitarios, se puede pedir a los médicos que realicen la clasificación subjetiva. Después se evaluaría la precisión de esa clasificación.

En las siguientes secciones presentamos un marco híbrido para evaluar la utilidad de los datos sintéticos considerando algunas métricas conscientes de la carga de trabajo, así como algunas métricas genéricas que cubren posibles modelos univariantes, bivariantes y multivariantes que se construirían a partir de los datos. No ilustramos una evaluación subjetiva.

Además de reproducir un análisis realizado en un conjunto de datos real, nuestras métricas son genéricas en el sentido de que no se requiere un conocimiento exacto del análisis deseado, y tienen en cuenta la carga de trabajo en el sentido de que consideran muchos modelos probablemente simples y complejos que se desarrollarían en la práctica.

Marco de Utilidad de Datos Sintéticos: Replicación del Análisis

Utilizamos los datos censales del repositorio de aprendizaje automático de la UC Irvine para ilustrar la repetición de un análisis. Este conjunto de datos tiene 48.842 registros, con las variables resumidas en la Figura 4-1.

psdg 0401
Figura 4-1. Las variables que utilizamos en el conjunto de datos del censo. La tabla superior contiene las variables categóricas y sus valores válidos, y la tabla inferior contiene las variables continuas.

Construimos un árbol de clasificación para clasificar la variable ingresos, que tiene dos categorías. Todas las demás variables se utilizaron como predictores. Éste es un análisis típico que se realiza en este conjunto de datos. En el ejercicio de construcción del árbol se utilizó la validación cruzada de 10 veces.

El árbol resultante en el conjunto de datos reales se muestra en la Figura 4-2. El árbol construido a partir de los datos sintéticos fue exactamente el mismo, por lo que no lo repetiremos aquí.

psdg 0402
Figura 4-2. El árbol de clasificación desarrollado a partir del conjunto de datos del censo para predecir la clase de ingresos

La primera división del árbol se basa en la variable relación. Si la relación es marido o mujer, pasamos al nodo número 2; en caso contrario, pasamos al nodo número 3. En el nodo 3 la división se basa en las ganancias de capital de algo más de 7.000,00 $. Por lo tanto, los que no son marido o mujer y tienen ganancias de capital superiores a 7.055,50 $ tenderán a tener unos ingresos superiores a 50.000 $.

En el nodo 2 hay otra división. Aquí, aquellos maridos o esposas que tienen una licenciatura, un máster, un doctorado o que fueron a una escuela profesional también tienen unos ingresos superiores a 50.000 $. De lo contrario, los que tienen menos estudios pasan al nodo 5, que vuelve a dividir en capital. Y así sucesivamente mientras navegamos por el árbol.

En la Figura 4-3 se muestra la importancia de las variables en los conjuntos de datos reales y sintéticos. Esto refleja las contribuciones de cada variable a la clasificación de los ingresos. Como puede verse, la importancia de las variables es exactamente la misma en los modelos de ambos tipos de conjuntos de datos.

psdg 0403
Figura 4-3. Importancia de las variables en función de su contribución a la clasificación de la renta

Podemos ver en esta repetición del análisis que los datos reales y los sintéticos generaron el mismo árbol de clasificación. Esa es una prueba significativa de si un conjunto de datos sintéticos tiene suficiente utilidad. Si se pueden obtener los mismos resultados de los datos reales y de los sintéticos, entonces los datos sintéticos pueden servir de aproximación.

Sin embargo, no siempre es posible realizar el mismo análisis que los datos reales. Por ejemplo, el análisis original puede ser muy complejo o laborioso, y no sería rentable reproducirlo. O puede que aún no se haya realizado un análisis sobre el conjunto de datos reales; por tanto, no hay nada con lo que comparar. En tal caso, se necesitan métricas más generales para evaluar la utilidad de los datos, que es el tema que trataremos a continuación.

Marco de Utilidad de Datos Sintéticos: Métricas de Utilidad

Los distintos tipos de análisis que pueden realizarse en un conjunto de datos sintético y la posibilidad de distinguir el conjunto de datos sintético del conjunto de datos original son la base de nuestro marco de utilidad de los datos. Utilizamos los conjuntos de datos de ensayos clínicos descritos en "Ejemplo de datos de ensayos clínicos" para ilustrar las distintas técnicas.

Para generar cada conjunto de datos sintéticos de ensayos clínicos, se construyó un modelo a partir de los datos reales y luego se tomaron muestras de los datos sintéticos a partir de ese modelo. En concreto, se utilizó una forma de árbol de clasificación y regresión (CART)4 llamado árbol de inferencia condicional, para generar los datos sintéticos.5 La principal ventaja de este método es que puede captar la estructura de los datos encontrando interacciones y relaciones no lineales de un modo basado en los datos, abordando los sesgos de selección de variables y tratando los datos que faltan de un modo insesgado.

Comparación de distribuciones univariantes

Este tipo de comparación entre datos reales y sintéticos indica si las distribuciones de las variables son similares.

Veamos el ejemplo de la Figura 4-4. Aquí tenemos la variable de edad original y la variable de edad sintetizada para uno de los conjuntos de datos de ensayos clínicos que hemos estado examinando. La distribución de la edad sintetizada es bastante similar a la distribución de la edad original, por lo que se espera que la utilidad de los datos aquí sea alta. No queremos que la distribución sea exactamente igual, porque eso podría ser un indicador de un problema de privacidad.

psdg 0404
Figura 4-4. Comparación de las distribuciones real y sintética de la edad cuando las distribuciones son similares

Es informativo ver algunos ejemplos en los que hay diferencias entre las distribuciones real y sintética.

Cuando los métodos de síntesis de datos no funcionan bien (por ejemplo, modelos mal ajustados), obtenemos algo como los ejemplos de la Figura 4-5 para los datos de altura de un ensayo clínico y de la Figura 4-6 para los datos de peso de un ensayo clínico. En estos ejemplos puedes ver claramente el desajuste entre las distribuciones originales y las distribuciones generadas. ¡No parece que los datos sintetizados hayan tenido en cuenta gran parte de los datos reales durante el proceso de generación! Por supuesto, no queremos ese resultado. Sin embargo, una de las primeras cosas que hay que observar en los datos sintéticos es lo bien que coinciden las distribuciones con los datos originales.

psdg 0405
Figura 4-5. Comparación de los datos reales de altura de un ensayo clínico y la versión sintetizada cuando la síntesis de datos no funcionó bien
psdg 0406
Figura 4-6. Comparación de los datos de peso reales de un ensayo clínico y la versión sintetizada cuando la síntesis de datos no funcionó bien

En la práctica, habrá muchas variables en un conjunto de datos, y queremos poder comparar las distribuciones real y sintética de todas ellas de forma concisa. No es práctico generar dos histogramas para cada variable y compararlos visualmente para decidir si son lo suficientemente parecidos o no: eso no es escalable y la fiabilidad no siempre será alta (dos analistas pueden evaluar la similitud de dos distribuciones de forma incoherente). Por lo tanto, necesitamos algún tipo de estadística de resumen.

La distancia de Hellinger puede calcularse para medir la diferencia de distribución entre cada variable de los datos reales y sintéticos. La distancia de Hellinger es una medida probabilística entre 0 y 1, donde 0 indica que no hay diferencia entre las distribuciones. Se ha demostrado que se comporta de forma coherente con otras métricas de comparación de distribuciones al comparar datos originales y transformados (para proteger la privacidad de los datos).6

Una ventaja importante de la distancia de Hellinger es que está acotada, y eso facilita su interpretación. Si la diferencia se aproxima a 0, sabemos que las distribuciones son similares, y si se aproxima a 1, sabemos que son muy diferentes. También se puede utilizar para comparar la utilidad de los datos univariantes para distintos enfoques de síntesis de datos. Y otra ventaja es que puede calcularse para variables continuas y categóricas.

Cuando tenemos muchas variables, podemos representar las distancias de Hellinger en un gráfico de caja y bigotes, que muestra la mediana y el rango intercuartílico (IQR). Esto proporciona una buena visión resumida de lo similares que son las distribuciones univariantes entre los datos reales y los sintéticos. El diagrama de caja y bigotes muestra la caja delimitada por los percentiles 75 y 25, y la mediana es una línea en el centro.

Para un conjunto de datos sintéticos de alta utilidad, esperamos que la mediana de la distancia de Hellinger en todas las variables sea cercana a 0 y que la variación sea pequeña, lo que indica que los datos sintéticos reproducen con precisión la distribución de cada variable en los datos reales.

La Figura 4-7 resume las diferencias entre las distribuciones univariantes de los datos sintéticos en relación con los datos reales del primer ensayo. La mediana de la distancia de Hellinger fue de 0,01 (IQR = 0,02), lo que indica que las distribuciones de las variables reales y sintéticas eran casi idénticas. La Figura 4-8 resume las diferencias en la distribución univariante de los datos sintéticos en relación con los datos reales del segundo ensayo. La mediana de la distancia de Hellinger fue de 0,02 (IQR = 0,03), lo que también indica que las variables reales y sintéticas tenían una distribución casi idéntica.

psdg 0407
Figura 4-7. La distancia de Hellinger como porcentaje para todas las variables del conjunto de datos. Esto indica lo similares que son las distribuciones univariantes entre los datos reales y los sintéticos para la primera prueba.
psdg 0408
Figura 4-8. La distancia de Hellinger como porcentaje para todas las variables del conjunto de datos. Esto indica lo similares que son las distribuciones univariantes entre los datos reales y los sintéticos para la segunda prueba.

Comparación de estadísticas bivariantes

Calcular las diferencias entre las correlaciones de los datos reales y los sintéticos es un método muy utilizado para evaluar la utilidad de los datos sintéticos.7 En tal caso, la diferencia absoluta de correlaciones entre todos los pares de variables de los datos reales y sintéticos puede calcularse como medida de la utilidad de los datos. Querríamos que las correlaciones fueran muy similares entre los dos conjuntos de datos.

El tipo de coeficiente de correlación dependerá de los tipos de variables. Por ejemplo, se necesita un coeficiente distinto para una correlación entre dos variables continuas que para una correlación entre una variable binaria y una variable categórica.

Para las relaciones entre variables continuas, pueden utilizarse los coeficientes de correlación de Pearson. Para la correlación entre variables continuas y nominales, se puede utilizar el coeficiente de correlación múltiple, mientras que para variables continuas y dicotómicas, se utiliza la correlación punto-biserial. Si una de las variables es nominal y la otra es nominal o dicotómica, se puede utilizar la V de Cramér. Por último, si ambas variables son dicotómicas, se puede calcular el coeficiente phi para cuantificar la correlación.

La diferencia absoluta en las correlaciones bivariadas debe escalarse según sea necesario para garantizar que todos los valores de diferencia estén limitados por 0 y 1. Para un conjunto de datos sintéticos de alta utilidad, cabría esperar que la mediana de las diferencias absolutas en estas medidas de correlación calculadas sobre los datos reales y sobre los datos sintéticos estuviera próxima a 0.

De nuevo, para representar la utilidad de forma concisa, podemos trazar la diferencia absoluta de las correlaciones en un gráfico de caja y bigotes en todas las posibles relaciones por pares o podemos representarlas como un mapa de calor. Un mapa de calor muestra el valor de la diferencia en tonos para ilustrar qué diferencias de correlación bivariada son grandes frente a cuáles son pequeñas.

Examinando la diferencia en las correlaciones bivariadas del primer ensayo en la Figura 4-9, la diferencia absoluta mediana en la correlación observada en los datos reales comparada con la correlación observada en los datos sintéticos fue de 0,03 (IQR = 0,04). En la Figura 4-10, tenemos los resultados del segundo ensayo, en el que la diferencia absoluta mediana de la correlación observada en los datos sintéticos comparada con la correlación observada en los datos reales fue de 0,03 (IQR = 0,04). Esto indica que las relaciones bivariadas de los datos se han conservado ampliamente durante el proceso de generación de datos sintéticos.

psdg 0409
Figura 4-9. Diferencias absolutas en las correlaciones bivariadas entre los datos reales y los sintéticos del primer ensayo. Los tonos más claros indican que las diferencias eran próximas a 0, mientras que el gris corresponde a los casos en que no se pudo calcular la correlación debido a que faltaban valores o a que la variabilidad era baja.
psdg 0410
Figura 4-10. Diferencias absolutas en las correlaciones bivariadas entre los datos reales y los sintéticos del segundo ensayo. Los tonos más claros indican que las diferencias eran próximas a 0, mientras que el gris corresponde a los casos en que no se pudo calcular la correlación debido a que faltaban valores o a que la variabilidad era baja.

Los gráficos de cajas y bigotes de estas diferencias se muestran en las Figuras 4-11 y 4-12. Son más informativos que los mapas de calor, aunque ten en cuenta que los gráficos de caja y bigotes resumen miles de correlaciones bivariadas para cada uno de estos conjuntos de datos. Por ejemplo, para el segundo ensayo hay 6.916 correlaciones realmente calculadas a partir de 7.056 correlaciones posibles.

Los valores atípicos de este gráfico son los círculos situados sobre el bigote superior. En estos conjuntos de datos se producen porque las observaciones raras en los datos pueden afectar a los coeficientes de correlación, o porque algunas variables tienen muchos valores perdidos, lo que hace que los coeficientes de correlación sean inestables. En general, buscamos una mediana pequeña y consideramos todas las métricas de utilidad juntas.

psdg 0411
Figura 4-11. Diferencias absolutas en las correlaciones bivariadas entre los datos reales y los sintéticos del primer ensayo. El diagrama de cajas y bigotes ilustra claramente la mediana y las distribuciones.
psdg 0412
Figura 4-12. Diferencias absolutas en las correlaciones bivariadas entre los datos reales y los sintéticos del segundo ensayo. El diagrama de cajas y bigotes ilustra claramente la mediana y las distribuciones.

Comparación de modelos de predicción multivariante

Para determinar si los datos reales y los sintéticos tienen una capacidad predictiva similar utilizando modelos multivariantes, podemos construir modelos de clasificación con cada variable del conjunto de datos como resultado. Como no se sabe a priori qué querría hacer un analista real con el conjunto de datos, examinamos todos los modelos posibles. Esto se denomina prueba de todos los modelos.

Los modelos boosted generalizados (GBM) pueden utilizarse para construir árboles de clasificación. En la práctica, pueden producir modelos de predicción bastante precisos.

Necesitábamos calcular la precisión de los modelos que habíamos construido. Para ello, utilizamos el área bajo la curva de características operativas del receptor (conocida como AUROC; véase "Descripción de los ROC").8 El AUROC es una forma estandarizada de evaluar la precisión de los modelos de predicción. Para calcular el AUROC utilizamos la validación cruzada de 10 veces. Esto es cuando dividimos el conjunto de datos en múltiples subconjuntos de entrenamiento y prueba.

Describamos brevemente la validación cruzada de 10 veces. Tomamos un conjunto de datos y lo dividimos en 10 subconjuntos de igual tamaño numerados del (1) al (10). Primero mantenemos el subconjunto (1) como conjunto de prueba y construimos un modelo con los nueve subconjuntos restantes. A continuación, probamos el modelo con el subconjunto (1) que hemos eliminado. Calculamos el AUROC en ese conjunto de prueba. A continuación, volvemos a incluir el subconjunto (1) como parte de los datos de entrenamiento y sacamos el subconjunto (2) y lo utilizamos para las pruebas, y calculamos el AUROC para él. El proceso se repite 10 veces, cada vez sacando uno de los subconjuntos y utilizándolo para las pruebas. Al final tenemos 10 valores de AUROC. Tomamos la media de ellos para calcular el AUROC global.

Este AUROC medio se calculó para cada modelo que construimos con los datos sintéticos y su homólogo con los datos reales (siendo el homólogo un modelo con la misma variable de resultado). Se calculó la diferencia absoluta entre los dos valores de AUROC. A continuación, se generó un diagrama de cajas y bigotes a partir de todas estas diferencias absolutas en los valores de AUROC.

Para garantizar que todos los modelos puedan resumirse de forma coherente, las variables de resultado continuas pueden discretizarse para construir los modelos de clasificación. Utilizamos la agrupación univariante de k-means, con tamaños de agrupación óptimos elegidos por la regla de la mayoría.9 Los datos sintéticos de alta utilidad tendrían poca diferencia en la capacidad predictiva en comparación con los datos reales, indicada por la diferencia porcentual media en el AUROC medio.

La Figura 4-15 muestra los resultados de la validación cruzada de 10 veces para evaluar la precisión predictiva de cada GBM para el primer ensayo. La diferencia porcentual absoluta en el AUROC es cercana a 0 para muchas variables, con una mediana de 0,5% (IQR = 3%). Esto indica que el análisis realizado utilizando los datos sintéticos en lugar del conjunto de datos reales tiene una capacidad predictiva muy similar, y que generalmente los modelos entrenados utilizando datos sintéticos producirán la misma conclusión cuando se apliquen a datos reales que los modelos que se entrenaron utilizando datos reales.

En la Figura 4-16 tenemos un resultado similar para el segundo ensayo. La diferencia porcentual absoluta en el AUROC tiene una mediana de 0,02% (IQR = 1%). Esto también indica que los datos sintéticos tienen una capacidad de predicción muy similar a la de los datos reales.

psdg 0415
Figura 4-15. Diferencia porcentual absoluta entre los modelos real y sintético para la primera prueba
psdg 0416
Figura 4-16. Diferencia porcentual absoluta entre los modelos real y sintético para la segunda prueba

Otro enfoque, al que nos referiremos como una especie de validación externa, es elsiguiente:

  1. Divide los datos reales en 10 segmentos aleatorios de igual tamaño.

  2. Elimina el segmento uno y conviértelo en un conjunto de prueba, y genera los datos sintéticos de los nueve segmentos restantes.

  3. Construye un GBM utilizando los datos sintéticos y predice en el segmento de prueba a partir de los datos reales y calcula el AUROC.

  4. Repite el proceso otras nueve veces con cada segmento extraído como conjunto de prueba.

  5. Una vez realizadas todas las predicciones en los 10 pliegues, calcula el AUROC medio.

Esta validación externa multivariante comprueba si los datos sintetizados pueden generar buenos modelos predictivos, cuya bondad se evalúa con los datos reales retenidos.

Distinguibilidad

La distinguibilidad es otra forma de comparar datos reales y sintéticos de forma multivariante. Queremos ver si podemos construir un modelo que distinga entre registros reales y sintéticos. Por tanto, asignamos un indicador binario a cada registro, con un 1 si es un registro real y un 0 si es un registro sintético (o viceversa). A continuación, construimos un modelo de clasificación que discrimina entre datos reales y sintéticos. Utilizamos este modelo para predecir si un registro es real o sintético. Podemos utilizar un método de validación cruzada de 10 veces para obtener una predicción para cada registro.

Este clasificador puede emitir una probabilidad para cada predicción. Si la probabilidad se aproxima a 1, entonces predice que un registro es real. Si la probabilidad se aproxima a 0, entonces predice que un registro es sintético. Se trata de una puntuación de propensión para cada registro.

En entornos de investigación sanitaria, la puntuación de propensión se suele utilizar para equilibrar los grupos de tratamiento en estudios observacionales cuando no es posible la asignación aleatoria al tratamiento (frente al control). Proporciona una única medida probabilística que ponderael efecto de múltiples covariables sobre la recepción del tratamiento en estos estudios observacionales.10 Utilizar la puntuación de propensión como medida para distinguir entre datos reales y sintéticos se está convirtiendo en una práctica algo habitual.11 Las puntuaciones de propensión pueden calcularse con bastante precisión utilizando modelos boosted generalizados.12

Si los dos conjuntos de datos son exactamente iguales, no habrá posibilidad de distinguirlos: esto ocurre cuando el generador de datos sintéticos se ha sobreajustado y ha recreado efectivamente los datos originales. En tal caso, la puntuación de propensión de cada registro será 0,5, en el sentido de que el clasificador no es capaz de distinguir entre los datos reales y los sintéticos. Esto se ilustra en la Figura 4-17. Del mismo modo, si la etiqueta "real" frente a "sintético" se asigna a los registros de forma totalmente aleatoria, el clasificador no podrá distinguirlos. En tal caso, la puntuación de propensión también será 0,5.

psdg 0417
Figura 4-17. Un ejemplo de distinguibilidad utilizando puntuaciones de propensión cuando no hay diferencia entre los datos reales y los sintéticos

Si los dos conjuntos de datos son completamente diferentes, el clasificador podrá distinguirlos. Una alta distinguibilidad significa que la utilidad de los datos es baja. En tal caso, la puntuación de propensión será 0 ó 1, como se ilustra en la Figura 4-18.

psdg 0418
Figura 4-18. Un ejemplo de distinguibilidad utilizando puntuaciones de propensión cuando hay una diferencia casi perfecta entre los datos reales y los sintéticos

Por supuesto, en la realidad, los conjuntos de datos se situarán en algún punto intermedio. No querríamos que estuvieran en ninguno de estos dos extremos. Se considera que los datos sintéticos difíciles de distinguir de los datos reales tienen una utilidad relativamente alta.

También podemos resumir esta puntuación de propensión en todos los registros. Hay algunos métodos generales que pueden utilizarse para hacerlo (los llamamos puntuación de propensión para la síntesis, o PSS, 1 a 3):

PSS1: cálculo de la diferencia cuadrática media entre la puntuación de propensión y el valor 0,5

El valor 0,5 es el que habría si no hubiera diferencia entre los datos reales y los sintéticos. También es el valor esperado si las etiquetas se asignaran aleatoriamente. Por tanto, esa diferencia cuadrática media de propensión tendría un valor de 0 si los dos conjuntos de datos fueran iguales, y un valor de 0,25 si fueran diferentes.

PSS2: convertir la puntuación de propensión en una predicción binaria

Si la puntuación de propensión es superior a 0,5, predice que se trata de un registro real. Si la puntuación de propensión es inferior a 0,5, predice que se trata de un registro sintético. Si la puntuación de propensión es 0,5, lanza una moneda al aire. Después, calcula la precisión de estas predicciones. La precisión se acercará a 1 si los dos conjuntos de datos son muy diferentes, lo que significa que el clasificador es capaz de distinguir perfectamente entre los datos reales y lossintéticos. La precisión se acercará a 0,5 si el clasificador no es capaz de distinguir entre los dos conjuntos de datos.13

PSS3: cálculo de la diferencia cuadrática media entre la puntuación de propensión y la etiqueta 0/1 real de un registro

En tal caso, la diferencia será 0 si el clasificador es capaz de distinguir perfectamente entre los dos conjuntos de datos, y 0,25 si es incapaz de distinguir entre los conjuntos de datos.

En la Tabla 4-1 se ofrece un resumen de estas diferentes métricas.

Tabla 4-1. Los distintos estadísticos resumidos de la puntuación de propensión
Tipo de métrica Conjuntos de datos iguales Conjuntos de datos diferentes

Diferencia cuadrática media de 0,5

0

0.25

Precisión de la predicción

0.5

1

Diferencia cuadrática media respecto a la etiqueta

0.25

0

En general, preferimos utilizar la diferencia cuadrática media de 0,5 o PSS1, pero en la práctica los tres métodos proporcionarán conclusiones similares sobre la utilidad de los datos.

La comparación de la puntuación de propensión del primer ensayo indica que los modelos potenciados generalizados no son capaces de distinguir con seguridad los datos reales de los sintéticos (véase la Figura 4-19). Para el segundo ensayo, véase la Figura 4-20. En ambos casos, las puntuaciones PSS1 se aproximan a 0,1.

psdg 0419
Figura 4-19. Las puntuaciones de propensión calculadas para el primer ensayo, contrastando los valores de los datos reales frente a los sintéticos
psdg 0420
Figura 4-20. Las puntuaciones de propensión calculadas para el segundo ensayo, contrastando los valores de los datos reales frente a los sintéticos

Este resultado es un poco diferente de lo que vimos para los mismos conjuntos de datos en la evaluación de utilidad de "todos los modelos". No es de extrañar, porque las pruebas de utilidad miden cosas distintas. Una posible explicación es la siguiente. La prueba multivariante "todos los modelos" selecciona las variables más importantes para construir el modelo. Es plausible que la importancia de las variables varíe entre los conjuntos de datos reales y sintéticos en estos modelos, pero que la predicción global sea equivalente. En la medida PSS1, se captará la posibilidad de que algunas variables sean menos/más importantes para algunas tareas de predicción.

Esto pone de relieve la importancia de considerar múltiples métricas de utilidad para obtener una apreciación más amplia de la utilidad del conjunto de datos. Cada método para evaluar la utilidad abarca una dimensión distinta de la utilidad que es complementaria de las demás.

Necesitamos una forma de interpretar estos valores. Por ejemplo, ¿un valor PSS1 de 0,1 es bueno o malo?

Una forma de interpretar la puntuación PSS1 es dividir el rango en quintiles, como se muestra en la Figura 4-21. Lo ideal sería que la puntuación se situara en el nivel 1, o como mucho en el nivel 2, para garantizar que la utilidad del conjunto de datos es adecuada. Esto también proporciona un enfoque fácil de interpretar para comparar la distinguibilidad de diferentes métodos de síntesis y conjuntos de datos.

psdg 0421
Figura 4-21. El rango PSS1 puede dividirse en quintiles, con un valor más cercano al nivel 1 que muestra menos distinguibilidad

Resumen

La creciente aplicación y aceptación de los datos sintéticos se pone de manifiesto en el plan de generar las tabulaciones públicas de uso general del censo decenal de EE.UU. de 2020 a partir de datos sintéticos.14 Una pregunta clave de los usuarios de datos sintéticos es sobre su utilidad. En este capítulo se ha presentado y demostrado un marco para evaluar la utilidad de los datos sintéticos, que combina medidas genéricas y medidas que tienen en cuenta la carga de trabajo.

Un análisis replicado de un conjunto de datos del censo de EEUU demostró que un análisis original podía replicarse con gran precisión. Éste es un ejemplo de evaluación de la utilidad cuando la carga de trabajo final se conoce con bastante antelación.

El análisis de utilidad de dos conjuntos de datos de ensayos oncológicos demostró que, según diversas métricas, los conjuntos de datos sintéticos reproducen razonablemente bien la estructura y las distribuciones, así como las relaciones bivariadas y multivariadas de los conjuntos de datos reales. Aunque sólo utiliza dos estudios, proporciona algunas pruebas iniciales de que es posible generar datos sintéticos de ensayos clínicos analíticamente útiles. Un marco de este tipo puede ser útil para los usuarios de datos, los sintetizadores de datos y los investigadores que trabajan en métodos de síntesis de datos.

Los resultados de una evaluación de la utilidad pueden resumirse en un cuadro de mando, como el de la Figura 4-22. Esto ofrece en una sola imagen las métricas clave sobre la utilidad.

psdg 0422
Figura 4-22. Cuadro de mando que resume las métricas de utilidad de un conjunto de datos sintético

En cuanto a las limitaciones del marco, examinamos todas las variables y todos los modelos de nuestro marco de utilidad, y luego resumimos entre ellos. En la práctica, algunas de estas variables o modelos pueden ser más importantes que otros, y dependerán de la cuestión que se aborde en el análisis. Sin embargo, este marco sigue proporcionando resultados más significativos que las métricas genéricas de utilidad de los datos, que no reflejarían todas lascargas de trabajo.

Ten en cuenta que en este capítulo nos hemos centrado en los datos transversales. Para los datos longitudinales, pueden ser necesarios otros tipos de métricas de utilidad. Éste es un tema más complejo porque depende más del tipo de datos (por ejemplo, datos sanitarios frente a datos financieros).

En el próximo capítulo, examinaremos con más detalle cómo generar datos sintéticos. Ahora que sabemos cómo evaluar la utilidad de los datos, podemos comparar más fácilmente métodos de síntesis alternativos.

1 Jerome P. Reiter, "Nuevos enfoques para la difusión de datos: Un vistazo al futuro (?)", CHANCE 17, no. 3 (junio de 2004): 11-15.

2 Josep Domingo-Ferrer y Vicenç Torra, "Disclosure Control Methods and Information Loss for Microdata", en Confidentiality, Disclosure, and Data Access: Theory and Practical Applications for Statistical Agencies, ed. Pat Doyle et al. Pat Doyle et al. (Ámsterdam: Elsevier Science, 2001); Kristen LeFevre, David J. DeWitt y Raghu Ramakrishnan, "Workload-Aware Anonymization", en Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (Nueva York: Association for Computing Machinery, 2006): 277-286.

3 A. F. Karr et al., "Un marco para evaluar la utilidad de los datos alterados para proteger la confidencialidad", The American Statistician 60, no. 3 (2006): 224-32.

4 Jerome P. Reiter, "Using CART to Generate Partially Synthetic Public Use Microdata," Journal of Official Statistics 21, no. 3 (2005): 441-62.

5 Torsten Hothorn, Kurt Hornik y Achim Zeileis, "Partición recursiva insesgada: A Conditional Inference Framework," Journal of Computational and Graphical Statistics 15, no. 3 (septiembre de 2006): 651-74.

6 Shanti Gomatam, Alan F. Karr y Ashish P. Sanil, "Data Swapping as a Decision Problem", Journal of Official Statistics 21, no. 4 (2005): 635-55.

7 Brett K. Beaulieu-Jones et al., "Privacy-Preserving Generative Deep Neural Networks Support Clinical Data Sharing", bioRxiv (julio de 2017). https://doi.org/10.1101/159756; Bill Howe et al., "Synthetic Data for Social Good", Cornell University arXiv Archive, octubre de 2017. https://arxiv.org/abs/1710.08874; Ioannis Kaloskampis, "Synthetic Data for Public Good", Office for National Statistics, febrero de 2019. https://oreil.ly/qfVvR.

8 Margaret Sullivan Pepe, The Statistical Evaluation of Medical Tests for Classification and Prediction (Oxford: Oxford University Press, 2004).

9 Malika Charrad et al., "NbClust: An R Package for Determining the Relevant Number of Clusters in a Data Set," Journal of Statistical Software 61, nº 6 (noviembre de 2014): 1-36.

10 Paul R. Rosenbaum y Donald B. Rubin, "The Central Role of the Propensity Score in Observational Studies for Causal Effects," Biometrika 70, nº 1 (abril de 1983): 41-55.

11 Joshua Snoke et al., "Medidas de utilidad generales y específicas para datos sintéticos", Journal of the Royal Statistical Society: Serie A (Estadística en la Sociedad) 181, no. 3 (junio de 2018): 663-688.

12 Daniel F. McCaffrey et al., "A Tutorial on Propensity Score Estimation for Multiple Treatments Using Generalized Boosted Models", Statistics in Medicine 32, nº 19 (2013): 3388-3414.

13 Esta métrica no es adecuada si los datos no están equilibrados. Por ejemplo, esto ocurrirá cuando el conjunto de datos sintetizado sea mucho mayor que el conjunto de datos real.

14 Aref Dajani et al., "The Modernization of Statistical Disclosure Limitation at the U.S. Census Bureau" (presentación en la reunión del Comité Asesor Científico del Censo, Suitland, MD, septiembre de 2017).

Get Generación Práctica de Datos Sintéticos now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.