Capítulo 4. El gobierno de los datos en su ciclo de vida
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
En capítulos anteriores, presentamos la gobernanza, lo que significa y las herramientas y procesos que la hacen realidad, así como los aspectos de la gobernanza relacionados con las personas y los procesos. Este capítulo reunirá esos conceptos y proporcionará un enfoque del ciclo de vida de los datos para hacer operativa la gobernanza dentro de tu organización.
Aprenderás sobre el ciclo de vida de los datos, las distintas fases del ciclo de vida de los datos, la gestión del ciclo de vida de los datos, la aplicación del gobierno de los datos a lo largo del ciclo de vida de los datos, la elaboración de una política de gobierno de los datos, las buenas prácticas en cada fase del ciclo de vida, ejemplos aplicables y consideraciones para implantar el gobierno. Para algunos, este capítulo validará lo que ya sabes; para otros, te ayudará a reflexionar, plantar semillas y considerar cómo pueden aplicarse estos aprendizajes en tu organización. Este capítulo introducirá y abordará muchos conceptos que te ayudarán a iniciar el camino para hacer realidad la gobernanza. Antes de entrar en los aspectos detallados de la gobernanza, es importante centrar nuestra comprensión en la gestión del ciclo de vida de los datos y lo que significa para la gobernanza.
¿Qué es el ciclo de vida de los datos?
Definir lo que es un ciclo de vida de los datos debería ser fácil, pero en realidad es bastante complejo. Si buscas la definición de un ciclo de vida de los datos y sus fases, te darás cuenta rápidamente de que varía de un autor a otro, y de una organización a otra. Sinceramente, no hay una forma correcta de pensar en las distintas fases por las que pasa un dato; sin embargo, todos podemos estar de acuerdo en que cada fase que se define tiene ciertas características que son importantes para distinguirla de las demás fases. Y debido a estas diferentes características dentro de cada fase, la forma de pensar sobre la gobernanza también variará a medida que cada dato se mueva a través del ciclo de vida de los datos. En este capítulo definiremos el ciclo de vida de los datos como el orden de las etapas por las que pasa un dato desde su generación o captura inicial hasta su eventual archivo o eliminación al final de su vida útil.
Es importante señalar rápidamente que esta definición intenta captar la esencia de lo que ocurre con un dato; sin embargo, no todos los datos pasan por cada fase, y estas fases son simplemente dependencias lógicas y no flujos de datos reales.
Las organizaciones trabajan tanto con datos transaccionales como con datos analíticos. En este capítulo, nos centraremos principalmente en el ciclo de vida de los datos analíticos, desde el momento en que se introducen en una plataforma hasta que se analizan, visualizan, depuran y archivan.
Los sistemas transaccionales son bases de datos optimizadas para ejecutar operaciones transaccionales cotidianas. Son sistemas totalmente optimizados que permiten un gran número de usuarios y tipos de transacciones simultáneas. Aunque estos sistemas generan datos, la mayoría no están optimizados para ejecutar procesos analíticos. Por otro lado, los sistemas analíticos están optimizados para ejecutar procesos analíticos. Estas bases de datos almacenan datos históricos de diversas fuentes, como CRM, sensores de IoT, registros, datos transaccionales (ventas, inventario) y muchos más. Estos sistemas permiten a los analistas de datos, a los analistas empresariales e incluso a los ejecutivos ejecutar consultas e informes con los datos almacenados en la base de datos analítica.
Como puedes ver rápidamente, los datos transaccionales y los datos analíticos pueden tener ciclos de vida de datos completamente distintos, dependiendo de lo que una organización decida hacer. Dicho esto, para muchas organizaciones, los datos transaccionales suelen trasladarse a un sistema analítico para su análisis y, por tanto, pasarán por las fases de un ciclo de vida de datos que esbozaremos en la siguiente sección.
Una supervisión adecuada de los datos a lo largo de su ciclo de vida es esencial para optimizar su utilidad y minimizar la posibilidad de errores. La gobernanza de los datos está en el centro de hacer que los datos funcionen para las empresas. Definir este proceso de principio a fin a lo largo del ciclo de vida de los datos es necesario para hacer operativa la gobernanza de los datos y convertirla en una realidad. Y como cada fase tiene necesidades de gobernanza distintas, esto ayuda en última instancia a la misión de la gobernanza de datos.
Fases del ciclo de vida de los datos
Como ya se ha dicho, verás el ciclo de vida de los datos representado de muchas formas distintas, y no hay una respuesta correcta o incorrecta. Sea cual sea el marco que decidas utilizar para tu organización, debe ser el que guíe los procesos y procedimientos que pongas en marcha. Cada fase del ciclo de vida de los datos, como se muestra en la Figura 4-1, tiene características distintas. En esta sección, repasaremos cada fase del ciclo de vida tal y como la definimos, profundizaremos en lo que significa cada fase y recorreremos las implicaciones de cada fase cuando pienses en la gobernanza.
Creación de datos
La primera fase del ciclo de vida de los datos es la creación o captura de datos. Los datos se generan a partir de múltiples fuentes, en distintos formatos, como datos estructurados o no estructurados, y con distintas frecuencias (por lotes o en flujo). Los clientes pueden optar por utilizar los conectores de datos existentes, construir canalizaciones ETL y/o aprovechar herramientas de ingestión de terceros para cargar datos en una plataforma de datos o un sistema de almacenamiento. Los metadatos -datos sobre los datos- también pueden crearse y capturarse en esta fase. Verás que la creación de datos y la captura de datos se utilizan indistintamente, sobre todo por el origen de los datos. Cuando se crean nuevos datos, se habla de creación de datos, y cuando se introducen datos existentes en un sistema, se habla de captura de datos.
En el Capítulo 1, mencionamos que el ritmo al que se generan los datos está creciendo exponencialmente, e IDC predice que los datos mundiales crecerán hasta 175 zettabytes en 2025.1 ¡Esto es enorme! Los datos suelen crearse de una de estas tres formas:
- Adquisición de datos
- Cuando una organización adquiere datos que han sido producidos por una organización tercera
- Introducción de datos
- Cuando los nuevos datos son introducidos manualmente por personas o dispositivos de la organización
- Captura de datos
- Cuando se capturan los datos generados por diversos dispositivos de una organización, como los sensores IoT
Es importante mencionar que cada una de estas formas de generar datos ofrece importantes retos de gobernanza de datos. Por ejemplo, ¿cuáles son los diferentes controles y equilibrios para los datos adquiridos fuera de tu organización? Probablemente haya contratos y acuerdos que describan cómo se permite a la empresa utilizar esos datos y con qué fines. También puede haber limitaciones en cuanto a quién puede acceder a esos datos concretos. Todo esto ofrece consideraciones e implicaciones para la gobernanza. Más adelante en el capítulo, veremos cómo pensar en la gobernanza durante esta fase, y señalaremos las distintas herramientas en las que debes pensar al diseñar tu estrategia de gobernanza.
Tratamiento de datos
Una vez capturados los datos, se procesan, sin obtener aún ningún valor de ellos para la empresa. Esto se hace antes de su utilización. El procesamiento de datos también se denomina mantenimiento de datos, y es cuando los datos pasan por procesos como la integración, limpieza, depuración o extracción-transformación-carga (ETL) para dejarlos listos para su almacenamiento y eventual análisis.
En esta fase, algunas de las implicaciones de gobierno con las que te encontrarás son el linaje de los datos, la calidad de los datos y la clasificación de los datos. Todas ellas se han tratado con mucho más detalle en el Capítulo 2. Para que la gobernanza sea una realidad, ¿cómo te aseguras de que, a medida que se procesan los datos, se rastrea y mantiene su linaje? Además, comprobar la calidad de los datos es muy importante para asegurarte de que no te falta ningún valor importante antes de almacenarlos. También debes pensar en la clasificación de los datos. ¿Cómo tratas la información sensible? ¿De qué se trata? ¿Cómo estás garantizando la gestión y el acceso a estos datos para que no caigan en las manos equivocadas? Por último, como estos datos están en movimiento, es necesario cifrarlos en tránsito y después en reposo. Hay muchas consideraciones de gobernanza durante esta fase. Profundizaremos en estos conceptos más adelante en el capítulo.
Almacenamiento de datos
La tercera fase del ciclo de vida de los datos es el almacenamiento, en el que tanto los datos como los metadatos se guardan en sistemas y dispositivos de almacenamiento con los niveles de protección adecuados. Como nos centramos en el ciclo de vida de los datos analíticos, un sistema de almacenamiento puede ser un almacén de datos, un mercado de datos o un lago de datos. Los datos deben cifrarse en reposo para protegerlos de intrusiones y ataques. Además, hay que hacer copias de seguridad de los datos para garantizar la redundancia en caso de pérdida de datos, borrado accidental o desastre.
Uso de datos
La fase de uso de los datos es importante para comprender cómo se consumen los datos en una organización para apoyar sus objetivos y operaciones. En esta fase, los datos se vuelven verdaderamente útiles y capacitan a la organización para tomar decisiones empresariales informadas cuando se pueden ver, analizar y/o visualizar para obtener perspectivas. En esta fase, los usuarios pueden hacer todo tipo de preguntas a los datos, mediante una interfaz de usuario o herramientas de inteligencia empresarial, con la esperanza de obtener "buenas" respuestas. Aquí es donde la goma se encuentra con el camino, especialmente al confirmar si los procesos de gobernanza ya instituidos en fases anteriores funcionan realmente. Si la calidad de los datos no se aplica correctamente, el tipo de respuestas que recibas serán incorrectas o no tendrán demasiado sentido, y esto podría poner en peligro las operaciones de tu empresa.
En esta fase, los propios datos pueden ser el producto o servicio que ofrece la organización. Si los datos son realmente el producto, habrá que promulgar distintas políticas de gobernanza para garantizar una gestión adecuada de estos datos.
Dado que en esta fase los datos son consumidos por múltiples partes interesadas y procesos internos y externos, es fundamental que la gestión del acceso y las auditorías sean adecuadas. Además, puede haber restricciones normativas o contractuales sobre cómo pueden utilizarse realmente los datos, y parte de la función de la gobernanza de datos es garantizar que estas restricciones se respeten debidamente.
Archivo de datos
En la fase de archivo de datos, los datos se eliminan de todos los entornos de producción activos y se copian en otro entorno. Ya no se procesan, utilizan ni publican, pero se almacenan por si vuelven a necesitarse en un entorno de producción activo. Como el volumen de datos generados es cada vez mayor, es inevitable que crezca el volumen de datos archivados. En esta fase, no se produce mantenimiento ni uso general. Un plan de gobierno de datos debe guiar la conservación de estos datos y definir el tiempo que se almacenarán, incluyendo los distintos controles que se aplicarán a estos datos.
Destrucción de datos
En esta fase final, se destruyen los datos. La destrucción de datos, o purga, se refiere a la eliminación de todas las copias de datos de una organización, lo que suele hacerse desde una ubicación de almacenamiento de archivos. Aunque quisieras guardar todos tus datos para siempre, no es factible. Es muy caro almacenar datos que no se utilizan, y las cuestiones de cumplimiento crean la necesidad de deshacerse de los datos que ya no necesitas. El principal reto de esta fase es garantizar que todos los datos se destruyan correctamente y en el momento adecuado.
Antes de destruir cualquier dato, es fundamental confirmar si existe alguna política en vigor que te obligue a conservarlo durante un determinado periodo de tiempo. Establecer el plazo adecuado para este ciclo significa comprender las normativas estatales y federales, las normas del sector y las políticas de gobierno para garantizar que se dan los pasos correctos. También tendrás que demostrar que la purga se ha hecho correctamente, lo que garantiza que los datos no consumen más recursos de los necesarios al final de su vida útil.
Ahora deberías tener un conocimiento sólido de las distintas fases del ciclo de vida de los datos y de algunas de sus implicaciones para la gobernanza. Como ya se ha dicho, estas fases son dependencias lógicas y no necesariamente flujos de datos reales. Algunos datos pueden ir y venir entre distintos sistemas de procesamiento antes de almacenarse. Y algunos que se almacenan en un lago de datos pueden saltarse el procesamiento por completo y almacenarse primero, para procesarse después. No es necesario que los datos pasen por todas las fases.
Estamos seguros de que has oído la frase "Roma no se construyó en un día", pero eso es realmente lo que trata de hacer este ciclo de vida de los datos. Aplicar la gobernanza de datos en una organización es una tarea de enormes proporciones y puede resultar muy abrumadora. Sin embargo, si piensas en tus datos dentro de estas fases lógicas del ciclo de vida de los datos, implantar la gobernanza puede ser una tarea que puede desglosarse en cada fase y luego pensarse e implantarse en consecuencia.
Gestión del Ciclo de Vida de los Datos
Ahora que entiendes el ciclo de vida de los datos, otro término habitual con el que te encontrarás es el de gestión del ciclo de vida de los datos (GVD ). Lo interesante es que muchos autores se refieren al ciclo de vida de los datos y a la gestión del ciclo de vida de los datos indistintamente. Aunque pueda existir la necesidad o el deseo de agruparlos, es importante darse cuenta de que puede existir un ciclo de vida de los datos sin una gestión del ciclo de vida de los datos. DLM, por tanto, se refiere a un enfoque integral basado en políticas para gestionar el flujo de datos a lo largo de su ciclo de vida, desde su creación hasta el momento en que quedan obsoletos y se purgan. Cuando una organización es capaz de definir y organizar los procesos y prácticas del ciclo de vida en pasos repetibles para la empresa, se habla de DLM. Cuando empieces a aprender sobre DLM, te encontrarás rápidamente con un plan de gestión de datos. Así que veamos rápidamente qué significa y qué implica.
Plan de gestión de datos
Un plan de gestión de datos (PGD) define cómo se gestionarán, describirán y almacenarán los datos. Además, define las normas que se utilizarán y cómo se manejarán y protegerán los datos a lo largo de su ciclo de vida. Verás principalmente planes de gestión de datos necesarios para impulsar proyectos de investigación dentro de las instituciones, pero los conceptos del proceso son fundamentales para implantar la gobernanza. Por ello, merece la pena que nos sumerjamos en ellos y veamos cómo podrían aplicarse para implantar la gobernanza dentro de una organización.
Con la gobernanza, te darás cuenta rápidamente de que no faltan plantillas y marcos -véase, por ejemplo, la DMPTool del Instituto Tecnológico de Massachusetts-. Simplemente tienes que elegir un plan o marco que funcione para tu proyecto y organización y seguir adelante; no hay una forma correcta o incorrecta de hacerlo. Si decides utilizar un plan de gestión de datos, aquí tienes una guía rápida para empezar. Los conceptos que aquí se exponen son mucho más fundamentales que la plantilla o el marco, por lo que si fueras capaz de plasmarlos en un documento, irías por delante.
Orientación 1: Identifica los datos que hay que captar o recoger
El volumen de datos es importante para ayudarte a determinar los costes de infraestructura y el tiempo de las personas. Necesitas saber cuántos datos esperas y los tipos de datos que vas a recoger:
- Tipos
- Esboza los distintos tipos de datos que vas a recopilar. ¿Son estructurados o no estructurados? Esto te ayudará a determinar la infraestructura adecuada que debes utilizar.
- Fuentes
- ¿De dónde proceden los datos? ¿Existen restricciones sobre cómo se pueden utilizar o manipular estos datos? ¿Cuáles son esas normas? Todo esto debe documentarse.
- Volumen
- Esto puede ser un poco difícil de predecir, especialmente con el crecimiento exponencial de los datos; sin embargo, planificar ese aumento desde el principio y proyectar lo que podría ser te diferenciaría y te ayudaría a estar preparado para el futuro.
Orientación 2: Define cómo se organizarán los datos
Ahora que conoces el tipo, las fuentes y el volumen de datos que estás recopilando, tienes que determinar cómo se gestionarán esos datos. ¿Qué herramientas necesitas a lo largo del ciclo de vida de los datos? ¿Necesitas un almacén de datos? ¿De qué tipo y de qué proveedor? ¿O necesitas un lago de datos? ¿O necesitas ambas cosas? Comprender estas implicaciones y lo que significa cada una te permitirá definir mejor cuáles deben ser tus políticas de gobierno. Hay muchas normativas que regulan cómo pueden y no pueden utilizarse los datos, y comprenderlas es vital.
Orientación 3: Documenta una estrategia de almacenamiento y conservación de datos
Las catástrofes ocurren, y asegurarse de que te has preparado adecuadamente para una es muy importante. ¿Durante cuánto tiempo será accesible un dato, y por quién? ¿Cómo se almacenarán y protegerán los datos durante su vida útil? Como hemos mencionado anteriormente, la purga de datos debe producirse de acuerdo con las normas establecidas. Además, es importante comprender cuáles son las políticas de copia de seguridad y retención de tus sistemas.
Orientación 4: Definir políticas de datos
Es importante documentar cómo se gestionarán y compartirán los datos. Identifica los acuerdos de licencia y uso compartido que corresponden a los datos que estás recopilando. ¿Existen restricciones que la organización deba respetar? ¿Cuáles son las restricciones legales y éticas sobre el acceso y uso de datos sensibles, por ejemplo? Las normativas como el GDPR y la CCPA pueden resultar fácilmente confusas e incluso pueden llegar a ser contradictorias. En este paso, asegúrate de que todas las políticas de datos aplicables se recogen en consecuencia. Esto también ayuda en caso de que te auditen.
Orientación 5: Definir funciones y responsabilidades
Enel Capítulo 3 se definieron las funciones y responsabilidades. Con esas funciones en mente, determina cuáles son las adecuadas para tu organización y qué significa cada una para ti. ¿Qué equipos se encargarán de la gestión de metadatos y la localización de datos? ¿Quién garantizará que se siguen las políticas de gobernanza en todo momento? Y hay muchas más funciones que puedes definir.
Un DMP debe proporcionar a tu organización una hoja de ruta fácil de seguir que sirva de guía a los demás y explique cómo se tratarán los datos a lo largo de su ciclo de vida. Piensa en ello como un documento vivo que evoluciona con tu organización a medida que se capturan nuevos conjuntos de datos y se promulgan nuevas leyes y normativas.
Si se tratara de un plan de gestión de datos para un proyecto de investigación, habría incluido muchos más pasos y elementos a tener en cuenta. Esos planes suelen ser más sólidos porque guían todo el proyecto de investigación y los datos de principio a fin. Más adelante en el capítulo trataremos muchos más conceptos, por lo que hemos optado por seleccionar elementos que fueran fácilmente transferibles a la creación de una política y un plan de gobernanza para tu organización .
Aplicación de la Gobernanza en el Ciclo de Vida de los Datos
Hasta ahora hemos repasado los conceptos fundamentales; ahora vamos a unirlo todo y ver cómo puedes aplicar la gobernanza a lo largo del ciclo de vida de los datos. La gobernanza debe reunir a personas, procesos y tecnología para gobernar los datos a lo largo de su ciclo de vida. En el Capítulo 2, esbozamos un sólido conjunto de herramientas para hacer realidad la gobernanza, y el Capítulo 3 se centró en el aspecto de las personas y los procesos. Es importante señalar que implantar la gobernanza es complicado; no hay una forma fácil de aplicarlo todo y considerar que el trabajo está hecho. La mayoría de las tecnologías deben coserse entre sí y, como puedes imaginar, todas proceden de distintos proveedores con diferentes implementaciones. Tendrías que integrar el mejor conjunto de productos y servicios para que todo funcione. Otra opción es adquirir una plataforma de datos o de gobierno totalmente integrada. No es una tarea trivial.
Marco de Gobernanza de Datos
Los marcos te ayudan a visualizar el plan, y hay varios marcos que pueden ayudarte a pensar en la gobernanza a lo largo del ciclo de vida de los datos. La Figura 4-2 es uno de esos marcos en el que destacamos todos los conceptos del Capítulo 2, superpuestos a los conceptos que hemos tratado en este capítulo.
Este marco simplifica en exceso las cosas para que sean más fáciles de entender; supone que las cosas son lineales, de izquierda a derecha, lo que no suele ser el caso. Cuando se ingieren datos de diversas fuentes a la izquierda, se trata simplemente del punto de creación o captura de datos. A continuación, esos datos se procesan y almacenan, y luego son consumidos por las distintas partes interesadas, incluidos los analistas de datos, los ingenieros de datos, los administradores de datos, etc.
El archivo y la destrucción de datos no se reflejan en este marco porque tienen lugar más allá del momento en que se utilizan los datos. Como hemos explicado anteriormente, durante el archivado, los datos se eliminan de todos los entornos de producción activos. Ya no se procesan, utilizan ni publican, pero se almacenan por si vuelven a necesitarse en el futuro. La destrucción se produce cuando los datos llegan al final de su vida útil y se eliminan de acuerdo con las directrices y procedimientos establecidos.
Una discrepancia que notarás rápidamente es que la gestión de metadatos debe considerarse desde el punto de creación de los datos -donde las empresas necesitan descubrir y curar los datos a medida que se ingieren (especialmente en el caso de los datos sensibles)- hasta cuando los datos se almacenan y descubren en el sistema de almacenamiento aplicable. El archivado, aunque se menciona dentro de la gestión de datos, tiende a producirse cuando se acaba la utilidad de los datos y se retiran de los entornos de producción. Aunque el archivo es una parte importante de la gobernanza, este diagrama implica que tiene lugar en la mitad del ciclo de vida de los datos. Dicho esto, también es posible tener una estrategia de archivo cuando los datos simplemente se almacenan en los sistemas de almacenamiento aplicables, por lo que no podemos descartarlo por completo.
Queremos reiterar que la Figura 4-2 proporciona una representación lógica de las fases por las que pasa un dato, de izquierda a derecha, y no necesariamente el flujo paso a paso real de los datos. Hay muchas idas y venidas entre cada fase, y no todos los datos pasan por cada una de ellas.
Los marcos son buenos para proporcionar una visión holística de las cosas. Sin embargo, no son la solución definitiva. Asegúrate de que el marco que elijas funcione para tu organización y tus datos.
Nota
Ya lo hemos mencionado, pero nos gustaría insistir de nuevo en la idea de seleccionar un marco que funcione para tu organización. Esto puede incluir consideraciones sobre el tipo de datos que recopilas o con los que trabajas, así como el tipo de personal que tienes dedicado a tus esfuerzos de gobierno de datos. Una cosa que te retamos a considerar es cómo tomar lo que tienes y ajustar un marco suficiente en torno a ello. Toma estas ideas tal y como están expuestas (teniendo en cuenta que no todos los pasos son obligatorios, ni siquiera necesarios) y añádelas a lo que tienes actualmente como punto de partida. Más adelante puedes añadir más piezas (y personas), pero si te centras al menos en sentar las bases -los cimientos-, estarás en una posición mucho mejor cuando tengas más piezas que añadir a tu marco.
La gobernanza de datos en la práctica
OpenStreetMap (OSM) fue creado por Steve Coast en el Reino Unido en 2004 y se inspiró en el éxito de Wikipedia. Es de código abierto, lo que significa que está creado por gente como tú y es de uso libre bajo una licencia abierta. Fue una respuesta a la proliferación de fuentes de datos geográficos internacionales, propietarias y aisladas, y de docenas de productos de software cartográfico que no se comunicaban entre sí. OSM ha crecido significativamente hasta superar los dos millones de colaboradores, y lo sorprendente es que funciona. De hecho, funciona lo suficientemente bien como para ser la fuente de datos de confianza de varias empresas del Fortune 500, incluidas otras pequeñas y medianas empresas. Con tantos colaboradores, OSM tiene éxito porque fue capaz de establecer normas de datos al principio del proceso y se aseguró de que los colaboradores se adhirieran a ellas. Como puedes imaginar, un sistema cartográfico de colaboración abierta sin una forma de normalizar los datos de los colaboradores podría ir mal muy rápidamente. Definir normas de gobernanza puede aportar valor a tu organización y proporcionar datos fiables a tus usuarios.
Y ahora que ya conoces el ciclo de vida de los datos con una superposición de las distintas herramientas de gobierno, vamos a profundizar en cómo pueden aplicarse y utilizarse a lo largo de este ciclo de vida las distintas herramientas de gobierno de datos que hemos esbozado en los Capítulos 1 y 2. Esta sección también incluye buenas prácticas, que pueden ayudarte a empezar a definir las normas de datos de tu organización.
Creación de datos
Como ya se ha dicho, es la fase inicial del ciclo de vida de los datos, en la que éstos se crean o capturan. Durante esta fase, una organización puede optar por capturar tanto los metadatos como el linaje de los datos. Los metadatos describen los datos, mientras que el linaje describe el dónde de los datos y cómo fluirán y se transformarán y utilizarán aguas abajo. Intentar capturarlos durante esta fase inicial te prepara bien para las fases posteriores.
Además, pueden emplearse procesos como la clasificación y la elaboración de perfiles, sobre todo si se trata de activos de datos sensibles. Los datos también deben cifrarse en tránsito para ofrecer protección contra intrusiones y ataques. Los proveedores de servicios en la nube, como Google Cloud, ofrecen cifrado en tránsito y en reposo por defecto.
Definir el tipo de datos
Establece un conjunto de directrices para clasificar los datos que tenga en cuenta la sensibilidad de la información, así como su criticidad y valor para la organización. Perfilar y clasificar los datos ayuda a informar sobre qué políticas y procedimientos de gobierno se aplican a los datos.
Tratamiento de datos
Durante esta fase, los datos pasan por procesos como la integración, limpieza, depuración o extracción-transformación-carga (ETL) antes de su uso, para dejarlos listos para su almacenamiento y eventual análisis. Es importante que la integridad de los datos se preserve durante esta fase; por eso la calidad de los datos desempeña un papel fundamental.
Aquí también es necesario capturar y rastrear el linaje, para garantizar que los usuarios finales comprendan qué procesos condujeron a qué transformación y de dónde proceden los datos. Un usuario nos dijo lo siguiente "Estaría bien conocer mejor el linaje de los datos. Cuando busco de dónde procede una determinada columna de una tabla, tengo que escarbar manualmente en el código fuente de esa tabla y seguir ese rastro (si tengo acceso). Automatiza este proceso". Éste es un punto de dolor común que sienten muchos, y en el que la DLM y la gobernanza son fundamentales.
Documentar las expectativas de calidad de los datos
Diferentes consumidores de datos pueden tener diferentes requisitos de calidad de datos, por lo que es importante proporcionar un medio para documentar las expectativas de calidad de los datos mientras se capturan y procesan, así como técnicas y herramientas para apoyar la validación y el monitoreo de los datos a medida que avanzan a través del ciclo de vida de los datos. Los procesos adecuados para la gestión de la calidad de los datos proporcionarán datos mensurables y fiables para el análisis.
Almacenamiento de datos
En esta fase, tanto los datos como los metadatos se almacenan y se preparan para el análisis. Los datos deben encriptarse en reposo para protegerlos de intrusiones y ataques. Además, hay que hacer copias de seguridad de los datos para garantizar la redundancia.
Protección y recuperación de datos automatizada
Dado que en esta fase los datos se almacenan en dispositivos de almacenamiento, busca soluciones y productos que proporcionen una protección de datos automatizada para garantizar que los datos expuestos no puedan leerse, lo que incluye la encriptación en reposo, la encriptación en tránsito, el enmascaramiento de datos y el borrado permanente. Además, aplica un sólido plan de recuperación para proteger tu empresa cuando se produzca un desastre.
Uso de datos
En esta fase, los datos se analizan y consumen para obtener perspectivas y son consumidos por múltiples partes interesadas y procesos internos y externos de la organización. Además, los datos analizados se visualizan y utilizan para apoyar los objetivos y operaciones de la organización; las herramientas de inteligencia empresarial desempeñan un papel fundamental en esta fase.
Un catálogo de datos es vital para ayudar a los usuarios a descubrir activos de datos utilizando metadatos capturados. La privacidad, la gestión del acceso y la auditoría son primordiales en esta fase, lo que garantiza que las personas y los sistemas adecuados accedan a los datos y los compartan para su análisis. Además, puede haber restricciones normativas o contractuales sobre cómo pueden utilizarse realmente los datos, y parte de la función de la gobernanza de datos es garantizar que se respeten estas restricciones.
Gestión del acceso a los datos
Es importante proporcionar servicios de datos que permitan a los consumidores de datos acceder a sus datos con facilidad. Documentar qué y cómo se utilizarán los datos, y con qué fines, puede ayudarte a definir identidades, grupos y funciones, y a asignar derechos de acceso para establecer un nivel de acceso gestionado. Esto garantiza que sólo las personas y sistemas autorizados y autentificados puedan acceder a los activos de datos de acuerdo con las normas definidas.
Archivo de datos
En esta fase, los datos se eliminan de todos los entornos de producción activos. Ya no se procesan, utilizan ni publican, pero se almacenan por si vuelven a necesitarse en el futuro. La clasificación de los datos debe guiar el método de retención y eliminación de los mismos.
Plan Automatizado de Protección de Datos
Más allá de ser una forma de impedir que personas no autorizadas accedan a los datos, la seguridad perimetral no es ni ha sido nunca suficiente para proteger los datos. Las mismas protecciones aplicadas en el almacenamiento de datos se aplicarían aquí también para garantizar que los datos expuestos no puedan ser leídos, incluyendo el cifrado en reposo, el enmascaramiento de datos y el borrado permanente. Además, en caso de catástrofe, o de que los datos archivados vuelvan a necesitarse en un entorno de producción, es importante tener un proceso bien definido para revivir estos datos y hacerlos útiles.
Destrucción de datos
Por último, los datos se destruyen, o mejor dicho, se eliminan de la empresa al final de su vida útil. Antes de purgar cualquier dato, es fundamental confirmar si existe alguna política en vigor que te obligue a conservarlo durante un determinado periodo de tiempo. La clasificación de los datos debe guiar el método de retención y eliminación de los mismos.
Crear una política de cumplimiento
Establecer el calendario adecuado para este ciclo significa comprender las normativas estatales y federales, las normas del sector y las políticas de gobierno, y mantenerse al día de cualquier cambio. Hacerlo ayuda a garantizar que se dan los pasos adecuados y que la purga se ha hecho correctamente. También garantiza que los datos no consuman más recursos de los necesarios al final de su vida útil.
Se insta a los responsables de TI a que revisen las directrices de destrucción de datos cada 12-18 meses para garantizar su cumplimiento, ya que las normas cambian a menudo.
Ejemplo de cómo se mueven los datos a través de una Plataforma de Datos
He aquí un escenario de ejemplo de cómo podrían moverse los datos a través de una plataforma de datos con el marco de la Figura 4-2.
Escenario
Supongamos que una empresa quiere ingerir datos en una plataforma de datos en la nube, como Google Cloud, AWS o Azure, y compartirlos con analistas de datos. Estos datos pueden incluir elementos sensibles como números de la seguridad social estadounidense, números de teléfono y direcciones de correo electrónico. He aquí las diferentes piezas por las que podría pasar:
La empresa configura un canal de datos de ingestión utilizando un servicio por lotes o de flujo:
Objetivo: Al trasladar datos brutos a la plataforma, habrá que escanearlos, clasificarlos y etiquetarlos antes de poder procesarlos, manipularlos y almacenarlos.
Cubos de ingestión por etapas:
Ingesta: muy restringida
Liberado: datos procesados
Cuarentena administrativa: necesita revisión
A continuación, los datos se analizan y clasifican en busca de información sensible, como la IPI.
Algunos datos pueden ser redactados, ofuscados o anonimizados/desidentificados. Este proceso puede generar nuevos metadatos, como qué claves se utilizaron para la tokenización. Estos metadatos se capturarían en esta fase.
Los datos se marcan con etiquetas/etiquetas PII.
Se puede acceder a aspectos de la calidad de los datos, es decir, si faltan valores, si las claves primarias tienen el formato correcto, etc.
Empieza a capturar información sobre la procedencia de los datos para el linaje.
A medida que los datos se mueven entre los distintos servicios a lo largo del ciclo de vida, se encriptan en tránsito.
Una vez completada la ingesta y el procesamiento, los datos deberán almacenarse en un almacén de datos y/o en un lago de datos, donde se cifrarán en reposo. También deben emplearse procesos de copia de seguridad y recuperación, en caso de desastre.
Mientras están almacenados, se pueden añadir y catalogar metadatos empresariales y técnicos adicionales a los datos, y los usuarios tienen que poder descubrirlos y encontrarlos.
Los registros de auditoría deben capturarse a lo largo de este ciclo de vida de los datos y hacerse visibles cuando sea necesario. Las auditorías te permiten comprobar la eficacia de los controles para mitigar rápidamente las amenazas y evaluar la salud general de la seguridad.
A lo largo de este proceso, es importante garantizar que las personas y los servicios adecuados tengan acceso y permisos a los datos correctos en toda la plataforma de datos mediante una sólida solución de gestión de identidades y accesos (IAM).
Necesitas poder ejecutar análisis y visualizar los resultados para su uso. Además de la gestión del acceso, pueden emplearse herramientas adicionales de privacidad, desidentificación y anonimización.
Una vez que estos datos ya no se necesitan en un entorno de producción, se archivan durante un periodo de tiempo determinado para mantener la conformidad.
Al final de su vida útil, se retira completamente de la plataforma de datos y se destruye.
Operacionalizar la Gobernanza de Datos
Una cosa es tener un plan, y otra muy distinta garantizar que ese plan funcione para tu organización. La NASA aprendió las cosas por las malas. En septiembre de 1999, tras casi 10 meses de viaje a Marte, la sonda Mars Climate Orbiter, valorada en 125 millones de dólares, perdió la comunicación y luego se quemó y se rompió en pedazos a sólo 37 millas de la superficie del planeta. El análisis descubrió que, mientras la NASA había utilizado el sistema métrico decimal, uno de sus socios había utilizado el Sistema Internacional de Unidades (SI). Esta incoherencia no se descubrió hasta que llegó el momento de aterrizar el orbitador, lo que provocó la pérdida total del satélite. Esto, por supuesto, fue aplastante para el equipo. Tras este incidente, se pusieron en marcha controles y equilibrios adecuados para garantizar que no volviera a ocurrir algo similar.
La creación de una política de gobernanza de datos es el primer paso para que problemas como el que sufrió la NASA se detecten a tiempo y se corrijan antes de que se produzca un desastre. Una política de gobierno de datos es un documento vivo que proporciona un conjunto de normas, políticas y orientaciones para salvaguardar los activos de datos de una organización.
¿Qué es una Política de Gobernanza de Datos?
Una política de gobierno de datos es un conjunto documentado de directrices para garantizar que los activos de datos e información de una organización se gestionan de forma coherente y se utilizan adecuadamente. Una política de gobierno de datos es esencial para implantar la gobernanza. Las directrices incluirán políticas individuales para la calidad, el acceso, la seguridad, la privacidad y el uso de los datos, que son primordiales para gestionar los datos a lo largo de su ciclo de vida. Además, las políticas de gobernanza de datos se centran en el establecimiento de funciones y responsabilidades para los datos que incluyen el acceso, la eliminación, el almacenamiento, las copias de seguridad y la protección, que deberían ser todos conceptos familiares. Este documento ayuda a unirlo todo hacia un objetivo común.
La política de gobierno de datos suele crearla un comité de gobierno de datos o consejo de gobierno de datos, formado por ejecutivos de la empresa y otros propietarios de datos. Este documento de política define una estructura clara de gobierno de datos para que el equipo ejecutivo, los directivos y los trabajadores de línea la sigan en sus operaciones diarias.
Para empezar a hacer operativa la gobernanza, podría ser útil una plantilla de carta de gobernanza de datos. La Figura 4-4 muestra una plantilla de ejemplo que podría ayudarte a socializar tus ideas en toda la organización y a iniciar la conversación. La información de esta plantilla se canalizará directamente hacia tu política de gobierno de datos.
Utiliza la plantilla de carta de gobierno de datos para iniciar la conversación y reunir a tu equipo. Una vez que haya aceptado tu visión, misión y objetivos, ése será el equipo que te ayudará a crear y definir tu política de gobierno.
Importancia de una Política de Gobernanza de Datos
Cuando tienes una idea de negocio y acudes a tus amigos para socializar la idea y, posiblemente, conseguir que la acepten, te encontrarás rápidamente con alguien que te pedirá un plan de negocio. "¿Tienes un plan de negocio que puedas compartir para que pueda leer más sobre esta idea y cuáles son tus planes?". Una política de gobierno de datos te permite tener documentados todos los elementos importantes de la operacionalización del gobierno según las necesidades y objetivos de tu organización. También permite la coherencia dentro de la organización durante un largo periodo de tiempo. Es el documento al que todos se remitirán cuando surjan preguntas y problemas. Debe revisarse periódicamente y actualizarse cuando cambien las cosas en la organización. Puedes considerarlo tu plan de empresa o, en otro extremo, también puede ser tu biblia de gobierno.
Cuando una política de gobierno de datos está bien redactada, garantizará:
Gestión coherente, eficiente y eficaz de los activos de datos a lo largo del ciclo de vida de la organización y de los datos y a lo largo del tiempo.
El nivel adecuado de protección de los activos de datos de la organización en función de su valor y riesgo, según determine el comité de gobierno de datos.
Los niveles de protección y seguridad adecuados para las distintas categorías de datos, según lo establecido por el comité de gobernanza.
Desarrollar una Política de Gobernanza de Datos
La autoría de una política de gobierno de datos suele corresponder al comité de gobierno de datos o al consejo de gobierno de datos designado. Este comité establecerá políticas globales para el programa de datos que describan cómo se recopilarán, almacenarán, utilizarán y protegerán los datos. El comité identificará los riesgos y los requisitos normativos y estudiará cómo afectarán o perturbarán el negocio.
Una vez identificados todos los riesgos y evaluaciones, el comité de gobernanza de datos redactará las directrices políticas y los procedimientos que garantizarán que la organización tenga el programa de datos que se había previsto. Cuando una política está bien redactada, ayuda a captar la visión estratégica del programa de datos. La visión del programa de gobierno podría ser impulsar la transformación digital de la organización, o posiblemente obtener información para generar nuevos ingresos o incluso utilizar los datos para ofrecer nuevos productos o servicios. Sea cual sea el caso de tu organización, todas las políticas redactadas deben converger hacia la visión y la misión articuladas, tal como se indica en la plantilla de la carta de gobierno de datos.
Parte del proceso de elaboración de una política de gobierno de datos consiste en establecer las expectativas, deseos y necesidades de los principales interesados mediante entrevistas, reuniones y conversaciones informales. Esto te ayudará a obtener información valiosa, pero también es una oportunidad para conseguir una mayor aceptación del programa.
Estructura de la Política de Gobernanza de Datos
Una política bien elaborada debe ser exclusiva de la visión, la misión y los objetivos de tu organización. Sin embargo, no te obsesiones con cada uno de los datos de esta plantilla; utilízala más bien como una guía que te ayude a pensar las cosas. Teniendo esto en cuenta, tu política de gobierno debe abordar:
- Visión y misión del programa
- Si has utilizado una plantilla de carta de gobierno de datos, como la que se muestra en la Figura 4-4, para conseguir la aprobación de otras partes interesadas, significa que ya tienes esta información fácilmente disponible. Como ya se ha dicho, la visión del programa de gobernanza podría ser impulsar la transformación digital de la organización, u obtener información para generar nuevos ingresos, o incluso utilizar los datos para ofrecer nuevos productos o servicios.
- Objetivo político
- Establece objetivos para el programa de gobierno de datos de tu organización, así como parámetros para determinar el éxito. La misión y la visión del programa deben impulsar los objetivos y las métricas de éxito.
- Ámbito político
- Documenta los activos de datos cubiertos por esta política de gobierno. Además, haz un inventario de las fuentes de datos y determina las clasificaciones de los datos en función de si son sensibles, confidenciales o de acceso público, junto con los niveles de seguridad y protección necesarios en los distintos niveles.
- Definiciones y términos
- La política de gobierno de datos suele ser consultada por las partes interesadas de toda la organización, que pueden no estar familiarizadas con determinados términos. Utiliza esta sección para documentar términos y definiciones y asegurarte de que todo el mundo está de acuerdo.
- Principios políticos
- Define reglas y normas para el programa de gobierno que quieres establecer, junto con los procedimientos y programas para hacerlas cumplir. Las normas podrían abarcar el acceso a los datos (quién tiene acceso a qué datos), el uso de los datos (cómo se utilizarán los datos y detalles sobre lo que es aceptable), la integración de los datos (qué transformaciones sufrirán los datos) y la integridad de los datos (expectativas sobre la calidad de los datos). Desarrolla buenas prácticas para proteger los datos y garantizar que las normativas y el cumplimiento se documentan eficazmente.
- Estructura del programa
- Define las funciones y responsabilidades (R&R), que son los cargos dentro de la organización que supervisarán los elementos del programa de gobierno. Un gráfico RACI podría ayudarte a determinar quién es responsable, quién tiene que rendir cuentas, a quién hay que consultar y a quién hay que mantener informado sobre los cambios. En el Capítulo 3 del libro encontrarás información sobre los RACI de gobernanza.
- Revisión de la política
- Determina cuándo se revisará y actualizará la política y cómo se monitoreará, medirá y remediará su cumplimiento.
- Ayuda adicional
- Documenta a las personas adecuadas para responder a las preguntas del equipo y de otras partes interesadas.
No basta con documentar una política de gobierno de datos, como se indica en la Figura 4-5, es igualmente importante comunicarla a todas las partes interesadas. Esto puede hacerse mediante una combinación de reuniones de grupo y formación, conversaciones individuales, vídeos de formación grabados y comunicación escrita.
Además, revisa periódicamente el rendimiento con tu equipo de gobierno de datos para asegurarte de que sigues por el buen camino. Esto también significa revisar periódicamente tu política de gobierno de datos para asegurarte de que sigue reflejando las necesidades actuales de la organización y del programa.
Funciones y responsabilidades
Al hacer operativa la gobernanza sobre el ciclo de vida de los datos, interactuarás con muchas partes interesadas dentro de la organización, y tendrás que reunirlas para que trabajen en este objetivo común. Aunque puede resultar tentador decir definitivamente qué funciones hacen qué en qué parte del ciclo de vida de los datos, como se indica en el Capítulo 3, muchos marcos de gobierno de datos giran en torno a una compleja interacción de funciones y responsabilidades. La realidad es que la mayoría de las empresas rara vez son capaces de dotar de personal exacto o completo a las funciones de gobierno debido a la falta de competencias de los empleados o, lo que es más habitual, a una simple falta de personal. Por esta razón, los empleados que trabajan en el espacio de información y datos de su empresa suelen llevar diferentes "sombreros" de usuario.
No entraremos en detalles sobre las funciones y responsabilidades en este capítulo, porque están bien esbozadas en el Capítulo 3. Aún así, tienes que definir qué aspecto tienen dentro de tu organización y cómo interactuarán entre sí para que la gobernanza sea una realidad para ti. Normalmente, esto se esbozará en una matriz RACI que describa quién es "responsable, debe rendir cuentas, debe ser consultado y debe ser informado" dentro de una determinada aplicación, proceso, política o norma.
Guía paso a paso
En esta sección del libro, deberías saber que la gobernanza de datos va más allá de la selección e implantación de productos y herramientas. El éxito de un programa de gobierno de datos depende de la combinación de personas, procesos y herramientas que trabajen juntos para hacer realidad el gobierno. Esta sección te resultará muy familiar, porque reúne todos los elementos tratados en la sección anterior sobre la política de gobierno de datos y los sitúa en un proceso paso a paso para mostrarte cómo empezar. Además, profundiza en los conceptos.
- Construye el caso empresarial
- Como ya se ha dicho, el gobierno de los datos lleva tiempo y es caro. Si se hace correctamente, puede automatizarse como parte del diseño de la aplicación realizado en origen con un enfoque en el valor empresarial. Dicho esto, las iniciativas de gobierno de datos suelen variar en alcance y objetivos. Dependiendo de dónde se origine la iniciativa, tienes que ser capaz de construir un caso de negocio que identifique los impulsores críticos del negocio y justifique el esfuerzo y la inversión del gobierno de datos. Debe identificar los puntos débiles, esbozar los riesgos de datos percibidos e indicar cómo la gobernanza ayuda a la organización a mitigar esos riesgos y permitir mejores resultados empresariales. Está bien empezar poco a poco, esforzarse por conseguir victorias rápidas y aumentar las ambiciones con el tiempo. Establece objetivos claros, mensurables y específicos. No se puede controlar lo que no se puede medir; por eso hay que esbozar métricas de éxito. La plantilla de carta de gobierno de datos de la Figura 4-4 es perfecta para ayudarte a empezar.
- Documentar los principios rectores
- Desarrolla y documenta los principios básicos asociados a la gobernanza y, por supuesto, asociados al proyecto que quieres poner en marcha. Un principio básico de tu estrategia de gobernanza podría ser tomar decisiones empresariales coherentes y seguras, basadas en datos fiables alineados con los distintos fines de uso de los activos de datos. Otro principio básico podría ser cumplir los requisitos normativos y evitar multas, o incluso optimizar la eficacia del personal proporcionando activos de datos que cumplan los umbrales de calidad de datos deseados. Define principios que sean fundamentales para tu empresa y tu proyecto. Si aún eres nuevo en este campo, hay muchos recursos disponibles. Si buscas en Internet, hay varias asociaciones sin ánimo de lucro e independientes de los proveedores, como el Instituto de Gobernanza de Datos (DGI), la Asociación de Gestión de Datos (DAMA), la Organización de Profesionales de la Gobernanza de Datos (DGPO) y el Consejo de Gestión de Datos Empresariales, que ofrecen grandes recursos para profesionales de la empresa, TI y datos dedicados a hacer avanzar la disciplina de la gobernanza de datos. Además, averigua si hay grupos de encuentro o conferencias locales sobre gobierno de datos a los que puedas asistir, como la Conferencia sobre Gobierno de Datos y Calidad de la Información, los Eventos Internacionales de DAMA o una Cumbre de Información Financiera.
- Conseguir la implicación de la dirección
- No debería sorprenderte que, sin la participación de la dirección, tu iniciativa de gobernanza pueda morir fácilmente desde el principio. La dirección controla las grandes decisiones y la financiación que necesitas. Esbozar los KPI importantes y cómo tu plan contribuye a hacerlos avanzar hará que la dirección sea todo oídos. Involucra a los campeones de la gobernanza de datos y consigue el apoyo de los principales interesados. Presenta tu caso empresarial y los principios rectores a la dirección de nivel C para su aprobación. Necesitas aliados a tu lado que te ayuden a defender el caso. Y una vez que el proyecto se haya puesto en marcha, comunícalo con frecuencia.
- Desarrollar un modelo operativo
- Una vez que tengas la aprobación de la dirección, es hora de ponerse manos a la obra. ¿Cómo integras este plan de gobernanza en la forma de hacer negocios de tu empresa? Te presentamos la política de gobierno de datos, que puede ser muy útil durante este proceso. Durante esta fase, define las funciones y responsabilidades de la gobernanza de datos y, a continuación, describe los procesos y procedimientos para el consejo de gobernanza de datos y los equipos de administración de datos, que definirán los procesos para definir y aplicar las políticas, así como para revisar y solucionar los problemas de datos identificados. Aprovecha el contenido del plan de política de gestión de datos para ayudarte a definir tu modelo operativo. La gobernanza de datos es un deporte de equipo, con resultados de todas las partes de la empresa.
- Desarrollar un marco de responsabilidad
- Como en cualquier proyecto que quieras lanzar al mercado, es primordial establecer un marco para asignar la custodia y la responsabilidad de los dominios de datos críticos. Define la propiedad. Asegúrate de que hay visibilidad para los "propietarios de los datos" en todo el panorama de datos. Proporciona una metodología que garantice que todos son responsables de contribuir a la usabilidad de los datos. Vuelve a consultar tu política de gestión de datos, ya que probablemente empezó a captar algunas de estas dependencias.
- Desarrollar taxonomías y ontologías
- Aquí es donde mucha de la educación que has recogido hasta ahora resulta útil. Colaborar estrechamente con asociaciones de gobernanza, apoyarte en tus compañeros y simplemente informarte en Internet te ayudará en este paso. Puede haber una serie de directivas de gobernanza asociadas a la clasificación de datos, la organización y, en el caso de la información sensible, la protección de datos. Para que tus consumidores de datos puedan cumplir esas directivas, debe haber una definición clara de las categorías (para la estructura organizativa) y clasificaciones (para evaluar la sensibilidad de los datos). Éstas deben recogerse en tu política de gobierno de datos.
- Reúne la pila tecnológica adecuada
- Una vez que hayas asignado funciones de gobierno de datos a tu personal y definido y aprobado tus procesos y procedimientos, debes reunir un conjunto de herramientas que facilite la aplicación y la validación continua del cumplimiento de las políticas de datos y la elaboración de informes de cumplimiento precisos. Mapea la infraestructura, la arquitectura y las herramientas. Tu marco de gobierno de datos debe ser una parte sensible de la arquitectura de tu empresa, el panorama informático y las herramientas necesarias. Ya hemos hablado de la tecnología en secciones anteriores, así que no entraremos en detalles al respecto aquí. Lo importante es encontrar herramientas y tecnología que funcionen para ti y satisfagan los objetivos organizativos que hayas establecido.
- Establecer la educación y la formación
- Como se ha destacado antes, para que la gobernanza de datos funcione, necesita la aceptación de toda la organización. Tienes que asegurarte de que tu organización se mantiene al día y sigue creyendo en el proyecto que presentaste. Por tanto, es importante concienciar sobre el valor de la gobernanza de datos elaborando material educativo que destaque las prácticas, los procedimientos y el uso de la tecnología de apoyo a la gobernanza de datos. Planifica sesiones de formación periódicas para reforzar las buenas prácticas de gobierno de datos. Siempre que sea posible, utiliza términos empresariales, y traduce las partes académicas de la disciplina de gobierno de datos en contenido significativo en el contexto empresarial.
Consideraciones para la Gobernanza a lo largo del Ciclo de Vida de los Datos
La gobernanza de datos existe desde que había datos que gobernar, pero se consideraba sobre todo una función de TI. Implantar la gobernanza de datos en todo el ciclo de vida de los datos no es un paseo. He aquí algunas consideraciones que deberás tener en cuenta al implantar la gobernanza en tu organización. No deberían sorprenderte, porque te darás cuenta rápidamente de que tocan muchos de los aspectos que presentamos en los Capítulos 1 y 2, así como en este capítulo.
Tiempo de Implementación
Elaborar y establecer procesos de gobernanza en todo el ciclo de vida de los datos requiere mucho tiempo, esfuerzo y recursos. En este capítulo hemos introducido muchos conceptos, ideas y formas de pensar sobre la operacionalización de la gobernanza a lo largo del ciclo de vida de los datos, y puedes ver que se vuelve abrumador muy rápidamente. No existe una solución única para todos; tienes que identificar lo que es único en tu empresa y luego forjar un plan que funcione para ti. La automatización puede reducir el tiempo de implementación en comparación con los procesos de gobernanza codificados a mano. Además, la inteligencia artificial se ve como una forma de conseguir brazos alrededor de la gobernanza de datos en el futuro, especialmente para cosas como la autodescubrimiento de datos sensibles y la gestión de metadatos. Eso significa que, cuando busques soluciones en el mercado, tendrás que averiguar el grado de automatización e integración que llevan incorporadas, lo bien que funcionan para tu entorno y situación, y si esa es la parte más difícil del flujo de trabajo que podría utilizar la automatización. En un mundo híbrido o incluso multicloud, esto se vuelve aún más complejo y aumenta aún más el tiempo de implementación.
Complejidad y coste
La complejidad se presenta de muchas formas. En el Capítulo 1, hablamos de la magnitud del panorama de los datos y de la rapidez con la que se producían datos en el mundo. Otra complejidad es la falta de normas industriales definidas para cosas como los metadatos. Ya hablamos de ello en el Capítulo 2. En la mayoría de los casos, los metadatos no obedecen a las mismas políticas y controles que los propios datos subyacentes, y la falta de especificaciones estandarizadas de metadatos significa que diferentes productos y procesos tendrán diferentes formas de presentar esta información. Otra complejidad es la enorme cantidad de herramientas, procesos e infraestructura necesarios para hacer realidad la gobernanza. Para ofrecer una gobernanza completa, las organizaciones deben integrar las mejores soluciones, que suelen ser complejas y muy caras (con elevados costes de licencia y mantenimiento), o comprar soluciones integradas llave en mano, que son caras y escasas en el mercado. Teniendo esto en cuenta, los proveedores de servicios en la nube (PSC) están construyendo plataformas de datos con todas estas capacidades de gobierno incorporadas, creando así una ventanilla única y simplificando el proceso para los clientes. Como organización, investiga y compara las distintas plataformas de datos que ofrecen los CSP y comprueba cuál te conviene. Algunas empresas optan por dejar parte de sus datos en las instalaciones; sin embargo, para los datos que pueden trasladarse a la nube, estos CSP están creando ahora herramientas y procesos sólidos para ayudar a los clientes a gobernar sus datos de principio a fin en la plataforma. Además, empresas como Informatica, Alation y Collibra ofrecen plataformas y productos específicos de gobernanza que pueden implantarse en tu organización.
Entorno normativo cambiante
En capítulos anteriores, hemos esbozado claramente las implicaciones de un entorno normativo en constante cambio con la introducción del GDPR y la CCPA. Aquí no entraremos en el mismo detalle; sin embargo, las normativas definen gran parte de lo que debe hacerse y aplicarse para garantizar la gobernanza. Esbozarán cómo deben tratarse determinados tipos de datos y qué tipos de controles deben aplicarse, y a veces incluso llegarán a esbozar cuáles son las repercusiones cuando no se cumplen estas cosas. Cumplir la normativa es algo en lo que tu organización debe pensar a la hora de implantar la gobernanza de datos a lo largo del ciclo de vida de los datos.
Nota
En nuestras conversaciones con muchas empresas diferentes, hemos oído hablar de dos filosofías muy distintas a la hora de considerar los cambios en el entorno normativo. Una estrategia consiste en suponer que, en el futuro, las normativas más restrictivas que existen ahora se impondrán en cascada y se exigirán en todas partes (como que la CCPA se exija en todo EE.UU. y no sólo en California), y que garantizar el cumplimiento ahora, aunque no se exija, es una prioridad máxima. Por el contrario, también hemos oído la estrategia de cumplir sólo lo que se exige ahora mismo y ocuparse de las normativas sólo si se exigen. Te recomendamos encarecidamente que adoptes el primer enfoque, porque un programa de gobierno adecuado y bien pensado no sólo garantiza el cumplimiento de las normativas en constante cambio, sino que también permite muchas de las demás ventajas que hemos descrito hasta ahora, como una mejor capacidad de búsqueda, una mayor seguridad y análisis más precisos a partir de datos de mayor calidad.
Ubicación de los datos
Para aplicar plenamente la gobernanza sobre el ciclo de vida de los datos, es muy importante comprender qué datos están en las instalaciones y cuáles en la nube. Además, comprender cómo interactuarán los datos con otros datos a lo largo del ciclo de vida crea complejidad. En el paradigma actual, la mayoría de los datos organizativos viven tanto en las instalaciones como en la nube, y es primordial disponer de sistemas y herramientas que permitan escenarios híbridos e incluso multicloud. En el Capítulo 1, hablamos de por qué la gobernanza es más fácil en la nube pública, principalmente porque la nube pública tiene varias características que hacen que la gobernanza de datos sea más fácil de implementar, monitorear y actualizar. En muchos casos, estas funciones no están disponibles o tienen un coste prohibitivo en los sistemas locales. Los datos deben protegerse independientemente de dónde se encuentren, por lo que un plan viable de gestión del ciclo de vida de los datos incorporará la gobernanza de todos los datos en todo momento.
Cultura organizativa
Como sabes, la cultura es una de esas cosas intangibles de una organización que desempeña un papel importante en su funcionamiento. En el Capítulo 3, nos referimos a cómo una organización puede crear una cultura de privacidad y seguridad, que permita a los empleados comprender cómo deben gestionarse y tratarse los datos, de modo que sean buenos administradores del manejo y uso adecuados de los datos. En esta sección, nos referimos a la cultura organizativa, que a menudo dicta lo que la gente hace y cómo se comporta. Puede que tu organización sea libre, lo que permite a la gente plantear fácilmente preguntas y preocupaciones, y en un entorno así, cuando algo va mal, es más probable que la gente hable. En las organizaciones en las que se reprende a la gente por cualquier nimiedad, tendrán más miedo de hablar e informar cuando las cosas no funcionen o incluso cuando vayan mal. En estos entornos, la gobernanza es un poco difícil de implantar, porque sin transparencia ni informes adecuados, los errores no suelen descubrirse hasta mucho más tarde. En el ejemplo de la NASA que hemos dado antes en este capítulo, hubo un par de personas dentro de la organización que se dieron cuenta de la discrepancia en los datos e incluso informaron de ello. Sus informes fueron ignorados por la dirección, y todos sabemos lo que ocurrió. Las cosas no acabaron bien para la NASA. Recuerda que instituir la gobernanza en una organización suele encontrar resistencia, sobre todo si la organización está acostumbrada a operaciones descentralizadas. Crear un entorno en el que las funciones estén centralizadas en todo el ciclo de vida de los datos significa simplemente que estas áreas tienen que adherirse a procesos a los que quizá no estaban acostumbradas en el pasado, pero que son por el bien general de la organización.
Resumen
La gestión del ciclo de vida de los datos es primordial para implantar la gobernanza y garantiza que los datos útiles estén limpios, sean precisos y estén fácilmente disponibles para los usuarios. Además, garantiza que tu organización cumpla la normativa en todo momento.
En este capítulo, te hemos presentado la gestión del ciclo de vida de los datos, y cómo aplicar la gobernanza sobre el ciclo de vida de los datos. A continuación, hemos analizado la operacionalización de la gobernanza y cómo la función de una política de gobernanza de datos es garantizar que los activos de datos e información de una organización se gestionen de forma coherente y se utilicen adecuadamente. Por último, proporcionamos orientación paso a paso para implantar la gobernanza y terminamos con las consideraciones para la gobernanza a lo largo del ciclo de vida de los datos, incluidos el tiempo de implementación, la complejidad y el coste, y la cultura organizativa.
1 Andy Patrizio, "IDC: Expect 175 Zettabytes of Data Worldwide by 2025", Network World, 3 de diciembre de 2018.
2 Un experimento natural es una situación en la que se pueden identificar grupos experimentales y de control determinados por factores ajenos al control de los investigadores. En nuestro ejemplo, los corredores se dividieron de forma natural en grupos definidos por las zapatillas que llevaban, en lugar de asignárseles unas zapatillas de forma externa. Los grupos de corredores eran lo suficientemente grandes como para calificarlos de buenos grupos "experimental" y "de control" con un número controlado de factores externos.
Get Gobierno de datos: La Guía Definitiva now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.