Apéndice. Consideraciones sobre los Datos Sensibles en los Conjuntos de Datos de Aprendizaje Automático

El contenido de este apéndice, escrito por el autor y Brad Svee, se publicó como documento de solución en el sitio web de documentación de Google Cloud Platform.

Cuando desarrollas un programa de ML, es importante equilibrar el acceso a los datos dentro de tu empresa con las implicaciones de seguridad de dicho acceso. Quieres que los conocimientos contenidos en el conjunto de datos sin procesar guíen el entrenamiento de ML, aunque el acceso a los datos sensibles sea limitado. Para lograr ambos objetivos, es útil entrenar los sistemas ML en un subconjunto de los datos brutos, o en todo el conjunto de datos tras la aplicación parcial de cualquier número de técnicas de agregación u ofuscación.

Por ejemplo, puede que quieras que tus ingenieros de datos entrenen un modelo ML para sopesar las opiniones de los clientes sobre un producto, pero no quieres que sepan quién envió las opiniones. Sin embargo, información como la dirección de entrega y el historial de compras es de vital importancia para entrenar el modelo ML. Después de proporcionar los datos a los ingenieros de datos, necesitarán consultarlos con fines de exploración de datos, por lo que es importante proteger tus campos de datos sensibles antes de ponerlos a disposición. Este tipo de dilema también es común en los modelos ML que implican motores de recomendación. Para crear un modelo que devuelva resultados específicos ...

Get Ciencia de Datos en la Plataforma en la Nube de Google, 2ª Edición now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.