Capítulo 9. Regulación del acceso a los datos
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Este capítulo describe los retos que supone proporcionar a los analistas acceso a los datos de un lago de datos y presenta varias buenas prácticas para hacerlo. Los lagos de datos difieren del almacenamiento de datos más tradicional en varios aspectos:
- Carga
-
El número de conjuntos de datos, usuarios y cambios es extremadamente alto.
- Ingestión sin fricción
-
Dado que un lago de datos almacena datos para futuros análisis aún por determinar, normalmente los ingiere con un procesamiento mínimo, si es que lo hace.
- Cifrado
-
A menudo hay normativas gubernamentales o internas que exigen que se proteja la información sensible o personal, y sin embargo esos datos son necesarios para el análisis.
- Carácter exploratorio del trabajo
-
Gran parte del trabajo de la ciencia de datos no puede ser anticipado por el personal informático. Los científicos de datos a menudo no saben qué hay disponible en el enorme y diverso almacén de datos. Esto crea una situación atrapante para los enfoques tradicionales: si los analistas no pueden encontrar datos a los que no tienen acceso, no pueden pedir acceso a ellos.
El modelo de acceso más sencillo es proporcionar a todos los analistas acceso a todos los datos. Por desgracia, esto no puede hacerse si los datos están sujetos a normativas gubernamentales (como ocurre, por ejemplo, con la información ...