Capítulo 1. ¿Qué es la gobernanza de datos? ¿Qué es la gobernanza de datos?

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

La gobernanza de datos es, ante todo, una función de gestión de datos para garantizar la calidad, integridad, seguridad y utilidad de los datos recopilados por una organización. La gobernanza de datos debe aplicarse desde el momento en que se recopila o genera un dato hasta el momento en que se destruye o archiva. A lo largo de este ciclo de vida completo de los datos, la gobernanza de datos se centra en poner los datos a disposición de todas las partes interesadas en una forma a la que puedan acceder fácilmente. Además, deben poder utilizarlos de forma que generen los resultados empresariales deseados (perspectivas, análisis) y se ajusten a las normas reglamentarias, si procede. Estas normas reguladoras son a menudo una intersección de reglas y códigos de conducta del sector (por ejemplo, sanidad), del gobierno (por ejemplo, privacidad) y de la empresa (por ejemplo, no partidistas). Además, el gobierno de los datos debe garantizar que las partes interesadas obtengan una visión integrada de alta calidad de todos los datos de la empresa. Los datos de alta calidad tienen muchas facetas: deben ser correctos, actualizados y coherentes. Por último, la gobernanza de datos debe garantizar la seguridad de los datos, es decir

  • Sólo acceden a ella los usuarios permitidos y de las formas permitidas

  • Es auditable, lo que significa que todos los accesos, incluidos los cambios, quedan registrados

  • Cumple la normativa

El objetivo de la gobernanza de datos es aumentar la confianza en los datos. Los datos fiables son necesarios para que los usuarios puedan emplear los datos de la empresa como apoyo a la toma de decisiones, la evaluación de riesgos y la gestión mediante indicadores clave de rendimiento (KPI). Utilizando datos, puedes aumentar la confianza en el proceso de toma de decisiones mostrando pruebas que los respalden. Los principios del gobierno de datos son los mismos, independientemente del tamaño de la empresa o de la cantidad de datos. Sin embargo, los profesionales del gobierno de datos tomarán decisiones respecto a las herramientas y la aplicación basándose en consideraciones prácticas impulsadas por el entorno en el que operan.

En qué consiste la gobernanza de datos

La llegada de la analítica de big data, impulsada por la facilidad de trasladarse a la nube y la capacidad cada vez mayor de la potencia de cálculo, ha motivado y dado energía a una comunidad de consumidores de datos en rápido crecimiento para recopilar, almacenar y analizar datos con el fin de obtener información y tomar decisiones. Hoy en día, casi todas las aplicaciones informáticas se basan en datos empresariales. No es sorprendente, por tanto, que las nuevas ideas impliquen inevitablemente el análisis de los datos existentes de nuevas formas, así como la recopilación de nuevos conjuntos de datos, ya sea a través de nuevos sistemas o mediante la compra a proveedores externos. ¿Dispone tu organización de un mecanismo para examinar las nuevas técnicas de análisis de datos y garantizar que los datos recogidos se almacenan de forma segura, que los datos recogidos son de alta calidad y que las capacidades resultantes redundan en el valor de tu marca? Aunque es tentador mirar sólo hacia el poder y las posibilidades futuras de la recopilación de datos y el análisis de big data, la gobernanza de los datos es una consideración muy real y muy importante que no puede ignorarse. En 2017, Harvard Business Review informó de que más del 70% de los empleados tienen acceso a datos que no deberían.1 Esto no quiere decir que las empresas deban adoptar una postura defensiva; es sólo para ilustrar la importancia de la gobernanza para evitar las filtraciones de datos y el uso indebido de los mismos. Unos datos bien gobernados pueden reportar beneficios cuantificables a una organización.

Enfoque holístico de la gobernanza de datos

Hace varios años, cuando los teléfonos inteligentes con sensores GPS se estaban haciendo omnipresentes, uno de los autores de este libro estaba trabajando en algoritmos de aprendizaje automático para predecir la aparición de granizo. El aprendizaje automático requiere datos etiquetados, algo que escaseaba con la resolución temporal y espacial que necesitaba el equipo de investigación. Nuestro equipo tuvo la idea de crear una aplicación móvil que permitiera a los científicos ciudadanos informar sobre el granizo en su ubicación.2 Este fue nuestro primer encuentro con la toma de decisiones sobre qué datos recopilar; hasta entonces, habíamos estado principalmente en el extremo receptor de cualquier dato que recopilara el Servicio Meteorológico Nacional. Teniendo en cuenta el estado rudimentario de las herramientas de seguridad de la información en un entorno académico, decidimos renunciar a toda información de identificación personal y hacer que los informes fueran totalmente anónimos, aunque esto significara que ciertos tipos de información comunicada se volvieran poco fiables. Incluso estos datos anónimos aportaron enormes beneficios: empezamos a evaluar los algoritmos de granizo con mayor resolución, y esto mejoró la calidad de nuestras previsiones. Este nuevo conjunto de datos nos permitió calibrar los conjuntos de datos existentes, mejorando así la calidad de los datos de otros conjuntos de datos también. Los beneficios fueron más allá de la calidad de los datos y empezaron a acumularse hacia la fiabilidad: la participación de científicos ciudadanos fue lo suficientemente novedosa como para que la National Public Radio publicara un reportaje sobre el proyecto, destacando la naturaleza anónima de la recogida de datos.3 La lente de la gobernanza de datos nos había permitido pensar cuidadosamente qué datos de informes recopilar, mejorar la calidad de los datos de la empresa, mejorar la calidad de las previsiones elaboradas por el Servicio Meteorológico Nacional, e incluso contribuir a la marca general de nuestra empresa meteorológica. Esta combinación de efectos -cumplimiento de la normativa, mejor calidad de los datos, nuevas oportunidades de negocio y mayor fiabilidad- fue el resultado de un enfoque holístico de la gobernanza de datos.

Avanzamos rápidamente unos años, y ahora, en Google Cloud, todos formamos parte de un equipo que crea tecnología para almacenes de datos y lagos de datos escalables en la nube. Una de las preocupaciones recurrentes de nuestros clientes empresariales gira en torno a las buenas prácticas y políticas que deben aplicar para gestionar la clasificación, descubrimiento, disponibilidad, accesibilidad, integridad y seguridad de sus datos -gobierno de datos-, y los clientes lo abordan con el mismo tipo de aprensión que nuestro pequeño equipo en el mundo académico.

Sin embargo, las herramientas y capacidades de que dispone una empresa para llevar a cabo la gobernanza de datos son bastante potentes y diversas. Esperamos convencerte de que no debes tener miedo a la gobernanza de datos, y de que aplicarla correctamente puede abrirte nuevos mundos de posibilidades. Aunque en un principio puedas enfocar la gobernanza de datos desde un punto de vista puramente legal o de cumplimiento de la normativa, la aplicación de políticas de gobernanza puede impulsar el crecimiento y reducir los costes.

Aumentar la confianza en los datos

En última instancia, el objetivo de la gobernanza de datos es generar confianza en los datos. La gobernanza de datos es valiosa en la medida en que aumenta la confianza de las partes interesadas en los datos, concretamente, en cómo se recopilan, analizan, publican o utilizan dichos datos.

Garantizar la confianza en los datos requiere que una estrategia de gobierno de datos aborde tres aspectos clave: la descubribilidad, la seguridad y la responsabilidad (ver Figura 1-2). La descubribilidad en sí misma requiere que la gobernanza de datos haga que los metadatos técnicos, la información de linaje y un glosario empresarial estén fácilmente disponibles. Además, los datos críticos para la empresa deben ser correctos y completos. Por último, la gestión de datos maestros es necesaria para garantizar que los datos estén finamente clasificados y asegurar así una protección adecuada contra cambios o fugas inadvertidas o malintencionadas. En cuanto a la seguridad, el cumplimiento de la normativa, la gestión de datos sensibles (información personal identificable, por ejemplo), y la seguridad de los datos y la prevención de la exfiltración pueden ser importantes en función del ámbito empresarial y del conjunto de datos en cuestión. Si la descubribilidad y la seguridad están establecidas, entonces puedes empezar a tratar los datos en sí como un producto. En ese momento, la responsabilidad adquiere importancia, y es necesario proporcionar un modelo operativo de propiedad y responsabilidad en torno a los límites de los dominios de datos.

Figura 1-2. Los tres aspectos clave de la gobernanza de datos que deben abordarse para aumentar la confianza en los datos

Clasificación y control de acceso

Aunque el objetivo del gobierno de datos es aumentar la fiabilidad de los datos de la empresa para obtener beneficios empresariales, sigue siendo cierto que la actividad principal asociada al gobierno de datos implica la clasificación y el control de acceso. Por tanto, para comprender las funciones implicadas en la gobernanza de datos, es útil considerar una configuración típica de clasificación y control de acceso.

Tomemos el caso de la protección de la información de recursos humanos de los empleados, como se muestra en la Figura 1-3.

Figura 1-3. Proteger la información de recursos humanos de los empleados

La información de recursos humanos incluye varios elementos de datos: el nombre de cada empleado, su fecha de contratación, los pagos salariales anteriores, la cuenta bancaria en la que se ingresaron esos pagos salariales, el salario actual, etc. Cada uno de estos elementos de datos está protegido de distintas formas, según el nivel de clasificación. Los posibles niveles de clasificación podrían ser público (cosas accesibles por personas no asociadas a la empresa), externo (cosas accesibles por socios y proveedores con acceso autorizado a los sistemas internos de la empresa), interno (cosas accesibles por cualquier empleado de la organización) y restringido. Por ejemplo, la información sobre los pagos salariales de cada empleado y en qué cuenta bancaria se han ingresado estaría restringida sólo a los gestores del grupo de procesamiento de nóminas. Por otro lado, las restricciones podrían ser más dinámicas. El salario actual de un empleado podría ser visible sólo para su gestor, y cada gestor podría ver la información salarial sólo para sus respectivos informes. La política de control de acceso especificaría lo que los usuarios pueden hacer cuando acceden a los datos: si pueden crear un nuevo registro, o leer, actualizar o eliminar registros existentes.

La política de gobierno suele ser especificada por el grupo responsable de los datos (aquí, el departamento de recursos humanos) -a este grupo se le suele denominar gobernadores-. La política en sí puede ser aplicada por el equipo que opera el sistema de base de datos o la aplicación (aquí, el departamento de tecnología de la información), por lo que cambios como añadir usuarios a los grupos permitidos suelen ser realizados por el equipo de TI -de ahí que a menudo se haga referencia a los miembros de ese equipo como aprobadores o administradores de datos-. Las personas cuyas acciones están limitadas o permitidas por la gobernanza de datos suelen denominarse usuarios. En las empresas en las que no todos los empleados tienen acceso a los datos de la empresa, el conjunto de empleados con acceso podría denominarse trabajadores del conocimiento para diferenciarlos de los que no tienen acceso...

Algunas empresas son abiertas por defecto;por ejemplo, cuando se trata de datos empresariales, el dominio de los usuarios autorizados puede incluir a todos los trabajadores del conocimiento de la empresa. Otras empresas optan por el acceso cerrado:los datos empresariales pueden estar disponibles sólo para quienes necesiten conocerlos. Las políticas de este tipo son competencia de la junta de gobierno de datos de la organización: no existe una respuesta única y correcta sobre cuál es el mejor enfoque.

Gobernanza de datos frente a habilitación y seguridad de datos

La gobernanza de los datos se confunde a menudo con la habilitación de datos y con la seguridad de los datos. Estos temas se entrecruzan, pero tienen distintos énfasis:

  • La gobernanza de datos se centra principalmente en hacer que los datos sean accesibles, localizables e indexados para su búsqueda entre los componentes relevantes, normalmente toda la población de trabajadores del conocimiento de la organización. Ésta es una parte crucial de la gobernanza de datos y requerirá herramientas como un índice de metadatos, un catálogo de datos para "buscar" datos. La gobernanza de datos amplía la habilitación de datos para incluir un flujo de trabajo en el que pueda tener lugar la adquisición de datos. Los usuarios pueden buscar datos por contexto y descripción, encontrar los almacenes de datos pertinentes y solicitar el acceso, incluyendo el caso de uso deseado como justificación. Un aprobador (administrador de datos) tendrá que revisar la solicitud, determinar si está justificada y si los datos solicitados pueden servir realmente para el caso de uso, y poner en marcha un proceso a través del cual se pueda acceder a los datos.

  • La habilitación de datos va más allá de hacer que los datos sean accesibles y descubribles; se extiende a las herramientas que permiten un rápido análisis y procesamiento de los datos para responder a preguntas relacionadas con el negocio: "¿cuánto gasta la empresa en este tema?", "¿podemos optimizar esta cadena de suministro?", etc. El tema es crucial y requiere saber cómo trabajar con los datos, así como qué significan realmente los datos: la mejorforma de abordarlo es incluir, desde el principio, metadatos que describan los datos e incluyan la propuesta de valor, el origen, el linaje y una persona de contacto que conserve y sea propietaria de los datos en cuestión, para permitir una investigación más profunda.

  • La seguridad de los datos, que se entrecruza tanto con la habilitación de datos como con la gobernanza de datos, se considera normalmente como un conjunto de mecanismos establecidos para impedir y bloquear el acceso no autorizado. La gobernanza de los datos se basa en la existencia de una mecánica de seguridad de los datos, pero va más allá de la mera prevención de accesos no autorizados y abarca las políticas sobre los propios datos, su transformación según la clase de datos (véase el Capítulo 7) y la capacidad de demostrar que se cumplen las políticas establecidas para acceder a los datos y transformarlos a lo largo del tiempo. La correcta aplicación de la mecánica de seguridad fomenta la confianza necesaria para compartir ampliamente los datos o "democratizar el acceso" a los mismos.

Por qué es cada vez más importante la gobernanza de datos

La gobernanza de datos existe desde que hay datos que gobernar, aunque a menudo se limitaba a los departamentos de TI de los sectores regulados, y a cuestiones de seguridad en torno a conjuntos de datos concretos, como las credenciales de autenticación. Incluso los sistemas de procesamiento de datos heredados necesitaban una forma no sólo de garantizar la calidad de los datos, sino también de controlar el acceso a los mismos.

Tradicionalmente, el gobierno de datos se consideraba una función de TI que se realizaba en silos relacionados con el tipo de fuente de datos. Por ejemplo, los datos de RR.HH. y los datos financieros de una empresa, que suelen ser fuentes de datos muy controladas con un acceso estrictamente controlado y directrices de uso específicas, estarían controlados por un silo de TI, mientras que los datos de ventas estarían en un silo diferente y menos restrictivo. El gobierno de datos holístico o "centralizado" puede haber existido en algunas organizaciones, pero la mayoría de las empresas consideraban el gobierno de datos como una preocupación departamental.

El gobierno de los datos ha cobrado importancia debido a la reciente introducción de normativas del tipo GDPR y CCPA que afectan a todos los sectores, más allá de la sanidad, las finanzas y algunos otros sectores regulados. También se ha producido una creciente toma de conciencia sobre el valor empresarial de los datos. Por ello, el panorama de los datos es muy diferente hoy en día.

Las siguientes son sólo algunas de las formas en que la topografía ha cambiado con el tiempo, justificando enfoques y métodos muy diferentes para la gobernanza de los datos.

El tamaño de los datos está creciendo

Casi no hay límites para los tipos y la cantidad de datos que pueden recopilarse ahora. En un libro blanco publicado en noviembre de 2018, International Data Corporation predice que la datasfera mundial alcanzará los 175 ZB en 2025 (ver Figura 1-4).4

Este aumento de los datos captados a través de la tecnología, unido a los análisis predictivos, hace que los sistemas casi sepan más sobre los usuarios actuales que los propios usuarios.

Figura 1-4. Se prevé que el tamaño de la datasfera mundial experimente un crecimiento espectacular

El número de personas que trabajan y/o consultan los datos ha crecido exponencialmente

Un informe de Indeed muestra que la demanda de puestos de trabajo en ciencia de datos ha aumentado un 78% entre 2015 y 2018.5 IDC también informa de que actualmente hay más de 5.000 millones de personas en el mundo que interactúan con datos, y prevé que esta cifra aumente a 6.000 millones (casi el 75% de la población mundial) en 2025. Las empresas están obsesionadas con poder tomar "decisiones basadas en los datos", lo que requiere una cantidad desmesurada de personal: desde los ingenieros que crean canalizaciones de datos hasta los analistas que los conservan y analizan, y las partes interesadas de la empresa que consultan cuadros de mando e informes. Cuantas más personas trabajen y vean datos, mayor será la necesidad de sistemas complejos para gestionar el acceso, el tratamiento y el uso de los datos, debido a la mayor posibilidad de que se haga un mal uso de ellos.

Los métodos de recogida de datos han avanzado

Los datos ya no sólo deben procesarse por lotes y cargarse para su análisis. Las empresas están aprovechando el flujo de datos y análisis en tiempo real o casi real para ofrecer a sus clientes un compromiso mejor y más personalizado. Ahora los clientes esperan acceder a los productos y servicios estén donde estén, tengan la conexión que tengan y utilicen cualquier dispositivo. IDC predice que esta infusión de datos en los flujos de trabajo empresariales y en los flujos de vida personales hará que casi el 30% de la datasfera mundial sea en tiempo real en 2025, como muestra la Figura 1-5.6

Figura 1-5. Más del 25% de la datasfera mundial serán datos en tiempo real en 2025

Sin embargo, la llegada del streaming, aunque aumenta enormemente la velocidad de los análisis, también conlleva el riesgo potencial de infiltración, lo que hace necesaria una configuración y un monitoreo complejos para la protección.

Ahora se recogen más tipos de datos (incluidos los más sensibles)

Se prevé que en 2025 cada persona que utilice la tecnología y genere datos tendrá más de 4.900 interacciones de datos digitales al día; es decir, aproximadamente una interacción digital cada dieciocho segundos (ver Figura 1-7).8

Figura 1-7. En 2025, una persona interactuará con la tecnología de creación de datos más de 4.900 veces al día

Muchas de esas interacciones incluirán la generación y consiguiente recopilación de una miríada de datos sensibles, como números de la seguridad social, números de tarjetas de crédito, nombres, direcciones y estados de salud, por nombrar algunas categorías. La proliferación de la recopilación de estos tipos de datos extremadamente sensibles conlleva una gran preocupación por parte de los clientes (y de los reguladores) sobre cómo se utilizan y tratan esos datos, y quién puede verlos.

Los casos de uso de los datos se han ampliado

Las empresas se esfuerzan por utilizar los datos para tomar mejores decisiones empresariales, lo que se ha acuñado toma de decisiones basada en datos. No sólo utilizan los datos internamente para impulsar la ejecución diaria del negocio, sino también para ayudar a sus clientes a tomar mejores decisiones. Amazon es un ejemplo de empresa que hace esto recopilando y analizando los artículos de las compras anteriores de los clientes, los artículos que los clientes han visto y los artículos de sus carritos de la compra virtuales, así como los artículos que han clasificado/revisado después de la compra, para dirigir mensajes y recomendaciones específicos para futuras compras.

Aunque este caso de uso de Amazon tiene mucho sentido desde el punto de vista empresarial, hay tipos de datos (sensibles) junto con casos de uso específicos para esos datos que no son apropiados (ni siquiera legales). Para los tipos de datos sensibles, no sólo importa cómo se tratan esos datos, sino también cómo se utilizan. Por ejemplo, los datos de los empleados pueden ser utilizados/consultados internamente por el departamento de RRHH de una empresa, pero no sería apropiado que esos datos fueran utilizados/consultados por el departamento de marketing.

Nuevos Reglamentos y Leyes en torno al Tratamiento de Datos

El aumento de los datos y de su disponibilidad ha provocado el deseo y la necesidad de normativas sobre datos, recopilación de datos, acceso a los datos y uso de los datos. Algunas normativas que existen desde hace bastante tiempo -por ejemplo, la Ley de Portabilidad y Responsabilidad de los Seguros Sanitarios de 1996 (HIPAA), la ley que protege la recopilación y el uso de los datos sanitarios personales- no sólo son bien conocidas, sino que las empresas que han tenido que cumplirlas llevan décadas haciéndolo, lo que significa que sus procesos y metodología para el tratamiento de estos datos sensibles son bastante sofisticados. Las nuevas normativas, como el Reglamento General de Protección de Datos (RGPD) de la UE y la Ley de Privacidad del Consumidor de California (CCPA) en EE.UU., son sólo dos ejemplos de los controles de uso y recopilación que se aplican a una miríada de empresas, para muchas de las cuales este gobierno de los datos no estaba incorporado en su estrategia original de arquitectura de datos. Por ello, a las empresas que no han tenido que preocuparse antes por el cumplimiento normativo les resulta más difícil modificar su tecnología y sus procesos empresariales para mantener la conformidad con estas nuevas normativas.

Preocupaciones éticas en torno al uso de datos

Aunque los casos de uso en sí mismos pueden encajar en la categoría de uso ético de los datos, la nueva tecnología en torno al aprendizaje automático y la inteligencia artificial ha generado nuevas preocupaciones en torno al uso ético de los datos.

Un ejemplo reciente de 2018 es el de Elaine Herzberg, que, mientras cruzaba en bicicleta una calle de Tempe (Arizona), fue atropellada y murió por un coche autoconducido.9 Este incidente planteó cuestiones sobre la responsabilidad. ¿Quién fue responsable de la muerte de Elaine? ¿La persona que conducía? ¿La empresa que probaba las capacidades del coche? ¿Los diseñadores del sistema de inteligencia artificial?

Aunque no son mortales, considera los siguientes ejemplos adicionales:

  • En 2014, Amazon desarrolló una herramienta de reclutamiento para identificar a los ingenieros de software que podría querer contratar; sin embargo, se descubrió que la herramienta discriminaba a las mujeres. Finalmente, Amazon tuvo que abandonar la herramienta en 2017.

  • En 2016, ProPublica analizó un sistema desarrollado comercialmente que se creó para ayudar a los jueces a tomar mejores decisiones sobre las condenas prediciendo la probabilidad de que los delincuentes reincidieran, y descubrió que estaba sesgado contra los negros.10

Incidentes como éstos son enormes pesadillas de relaciones públicas para las empresas.

En consecuencia, los reguladores han publicado directrices sobre el uso ético de los datos. Por ejemplo, los reguladores de la UE publicaron un conjunto de siete requisitos que deben cumplirse para que los sistemas de IA se consideren dignos de confianza:

  • Los sistemas de IA deben estar bajo supervisión humana.

  • Tienen que tener un plan de emergencia por si algo sale mal. También tienen que ser precisos, fiables y reproducibles.

  • Deben garantizar el pleno respeto de la privacidad y la protección de datos.

  • Los modelos de negocio de datos, sistemas e IA deben ser transparentes y ofrecer trazabilidad.

  • Los sistemas de IA deben evitar los prejuicios injustos.

  • Deben beneficiar a todos los seres humanos.

  • Deben garantizar la responsabilidad y la rendición de cuentas.

Sin embargo, el impulso de las decisiones basadas en datos, alimentado por más datos y análisis sólidos, exige una necesaria consideración y atención a la ética de los datos y su uso que va más allá de estos requisitos normativos.

Ejemplos de Gobernanza de Datos en Acción

Esta sección examina más de cerca varias empresas y cómo pudieron obtener beneficios de sus esfuerzos de gobernanza. Estos ejemplos demuestran que la gobernanza de los datos se utiliza para gestionar la accesibilidad y la seguridad, que aborda la cuestión de la confianza enfrentándose directamente a la calidad de los datos, y que la estructura de gobernanza hace que estos esfuerzos tengan éxito.

Gestión de la descubribilidad, la seguridad y la responsabilidad

En julio de 2019, Capital One, uno de los mayores emisores de tarjetas de crédito para consumidores y pequeñas empresas, descubrió que un intruso había podido aprovecharse de un cortafuegos de aplicaciones web mal configurado en su servidor web Apache. El atacante pudo obtener credenciales temporales y acceder a archivos que contenían información personal de clientes de Capital One.11 La fuga de información resultante afectó a más de 100 millones de personas que habían solicitado tarjetas de crédito de Capital One.

Dos aspectos de esta filtración limitaron el radio de explosión. En primer lugar, la filtración era de datos de aplicaciones enviados a Capital One, por lo que, aunque la información incluía nombres, números de la seguridad social, números de cuentas bancarias y direcciones, no incluía credenciales de inicio de sesión que hubieran permitido al atacante robar dinero. En segundo lugar, el atacante fue rápidamente capturado por el FBI, y la razón de que el atacante fuera capturado es el motivo por el que incluimos esta anécdota en este libro.

Como los archivos en cuestión se almacenaban en un cubo de almacenamiento en la nube pública donde se registraba cada acceso a los archivos, los investigadores pudieron acceder a los registros de acceso después del hecho. Pudieron averiguar las rutas IP y reducir el origen del ataque a unas pocas casas. Aunque los sistemas informáticos mal configurados que crean vulnerabilidades de seguridad pueden ocurrir en cualquier parte, los atacantes que roban credenciales de administrador de sistemas locales suelen cubrir sus huellas modificando los registros de acceso al sistema. En la nube pública, sin embargo, estos registros de acceso no son modificables porque el atacante no tiene acceso a ellos.

Este incidente pone de relieve un puñado de lecciones:

  • Asegúrate de que tu recogida de datos tiene una finalidad. Además, almacena una porción de datos lo más reducida posible. Fue una suerte que el almacenamiento de datos de las solicitudes de tarjetas de crédito no incluyera también los detalles de las cuentas de tarjetas de crédito resultantes.

  • Activa los registros de auditoría a nivel organizativo en tu almacén de datos. Si no lo hubieras hecho, no habría sido posible descubrir al culpable.

  • Realiza auditorías de seguridad periódicas de todos los puertos abiertos. Si no se hace esto, no se emitirán alertas sobre intentos de burlar las salvaguardas de seguridad.

  • Aplicar una capa adicional de seguridad a los datos sensibles dentro de los documentos. Los números de la seguridad social, por ejemplo, deberían haberse enmascarado o tokenizado mediante un servicio de inteligencia artificial capaz de identificar datos PII y redactarlos.

La cuarta buena práctica es una salvaguarda adicional: podría decirse que, si sólo se recogieran y almacenaran los datos absolutamente necesarios, no habría necesidad de enmascararlos. Sin embargo, la mayoría de las organizaciones tienen múltiples usos de los datos, y en algunos casos de uso, podría necesitarse el número de la Seguridad Social descifrado. Para que estos usos múltiples sean eficaces, es necesario etiquetar o clasificar cada atributo en función de múltiples categorías para garantizar que se le aplican los controles y la seguridad adecuados. Esto suele ser un esfuerzo de colaboración entre muchas organizaciones de la empresa. Merece la pena señalar que los sistemas de este tipo que eliminan datos de la consideración conllevan sus propios retos y riesgos.12

A medida que aumentan los datos recopilados y conservados por las empresas, cada vez es más importante garantizar que se comprenden bien y se aplican correctamente buenas prácticas como éstas. Estas buenas prácticas y las políticas y herramientas para aplicarlas son el núcleo de la gobernanza de datos.

Mejorar la calidad de los datos

La gobernanza de los datos no sólo tiene que ver con las brechas de seguridad. Para que los datos sean útiles a una organización, es necesario que sean fiables. La calidad de los datos es importante, y gran parte de la gobernanza de datos se centra en garantizar que las aplicaciones posteriores puedan confiar en la integridad de los datos. Esto es especialmente difícil cuando los datos no son propiedad de tu organización y cuando esos datos se mueven de un lado a otro.

Un buen ejemplo de actividades de gobernanza de datos que mejoran la calidad de los datos procede de la Guardia Costera de EEUU (USCG). La USCG se centra en la búsqueda y rescate marítimos, la limpieza de vertidos oceánicos, la seguridad marítima y el cumplimiento de la ley. Nuestro colega Dom Zippilli formó parte del equipo que probó los conceptos y técnicas de gobernanza de datos detrás de lo que se conoció como el Servicio Autorizado de Identificación de Buques (AVIS) de . El siguiente texto sobre AVIS está escrito por él.

El programa de la USCG es un práctico recordatorio de que la calidad de los datos es algo por lo que hay que esforzarse y vigilar constantemente. Cuanto más limpios estén los datos, más probabilidades hay de que sean utilizables para casos de uso más críticos. En el caso de la USCG, lo vemos también en la utilidad de los datos para tareas de búsqueda y rescate.

El valor empresarial de la gobernanza de datos

La gobernanza de datos no es únicamente una práctica de control. Cuando se aplica de forma cohesionada, la gobernanza de datos aborda la necesidad estratégica de proporcionar a los trabajadores del conocimiento los conocimientos que necesitan con un proceso claro para "buscar datos". Esto hace posible la extracción de información de múltiples fuentes que antes estaban aisladas en diferentes unidades de negocio.

En las organizaciones en las que la gobernanza de datos es un proceso estratégico, los trabajadores del conocimiento pueden esperar encontrar fácilmente todos los datos necesarios para cumplir su misión, solicitar acceso de forma segura y que se les conceda acceso a los datos según un proceso sencillo con plazos claros y un proceso de aprobación transparente. Los que aprueban y gobiernan los datos pueden esperar obtener fácilmente una imagen de qué datos son accesibles para quién, y qué datos están "fuera" de la zona de control de gobierno (y qué hacer con cualquier discrepancia al respecto). Los CIO pueden esperar poder revisar un análisis de alto nivel de los datos de la organización para revisar holísticamente métricas cuantificables como "cantidad total de datos" o "datos fuera de conformidad" e incluso comprender (y mitigar) los riesgos para la organización debidos a la fuga de datos.

Fomentar la innovación

Una buena estrategia de gobierno de datos, cuando se pone en marcha, combina varios factores que permiten a una empresa extraer más valor de los datos. Tanto si el objetivo es mejorar las operaciones, como encontrar fuentes adicionales de ingresos o incluso monetizar los datos directamente, una estrategia de gobierno de datos es un facilitador de varios impulsores de valor en las empresas.

Una estrategia de gobernanza de datos, si funciona bien, es una combinación de proceso (para que los datos estén disponibles bajo gobernanza), personas (que gestionan las políticas e introducen el acceso a los datos en toda la organización, rompiendo los silos donde sea necesario), y herramientas que facilitan lo anterior aplicando técnicas de aprendizaje automático para categorizar los datos e indexar los datos disponibles para su descubrimiento.

Lo ideal sería que la gobernanza de datos permitiera a todos los empleados de la organización acceder a todos los datos (sujetos a un proceso de gobernanza) con arreglo a un conjunto de normas de gobernanza (que se definen con más detalle más adelante), al tiempo que se preserva la postura de riesgo de la organización (es decir, no se introduce ninguna exposición o riesgo adicional por hacer accesibles los datos con arreglo a una estrategia de gobernanza). Dado que la postura de riesgo se mantiene y posiblemente incluso se mejora con los controles adicionales que aporta la gobernanza de datos, se podría argumentar que hacer que los datos sean accesibles sólo tiene un lado positivo. Dar a todos los trabajadores del conocimiento acceso a los datos, de forma gobernada, puede fomentar la innovación al permitir a las personas crear rápidamente prototipos de respuestas a preguntas basadas en los datos que existen en la organización. Esto puede conducir a una mejor toma de decisiones, un mejor descubrimiento de oportunidades y una organización más productiva en general.

La calidad de los datos disponibles es otra forma de determinar si la gobernanza está bien implantada en la organización. Una parte de la gobernanza de datos es una forma bien entendida de codificar y heredar una "señal de calidad" en los datos. Esta señal debe indicar a los posibles usuarios y analistas de datos si los datos se han curado, si se han normalizado o faltan, si se han eliminado los datos corruptos y, potencialmente, hasta qué punto es fiable la fuente de los datos. Las señales de calidad son cruciales a la hora de tomar decisiones sobre posibles usos de los datos; por ejemplo, dentro de los conjuntos de datos de entrenamiento de aprendizaje automático.

La tensión entre la gobernanza de datos y la democratización del análisis de datos

Muy a menudo, se piensa que la democratización completa de los datos entra en conflicto con la gobernanza de los datos. Este conflicto no es necesariamente un axioma. La democratización de los datos, en su interpretación más extrema, puede significar que todos los analistas o trabajadores del conocimiento pueden acceder a todos los datos, sea cual sea la clase a la que pertenezcan. El acceso aquí descrito incomoda a una organización moderna cuando considera ejemplos concretos, como los datos de los empleados (por ejemplo, los salarios) y los datos de los clientes (por ejemplo, los nombres y direcciones de los clientes). Está claro que sólo determinadas personas deberían poder acceder a datos de los tipos mencionados, y sólo deberían hacerlo dentro de sus responsabilidades laborales específicas.

La gobernanza de datos es en realidad un facilitador aquí, que resuelve esta tensión. El concepto clave que hay que tener en cuenta es que los datos tienen dos capas: los datos en sí (por ejemplo, los salarios) y los metadatos (datos sobre los datos; por ejemplo, "tengo una tabla que contiene los salarios, pero no te diré nada más").

Con la gobernanza de datos, puedes conseguir tres cosas:

  • Accede a un catálogo de metadatos, que incluye un índice de todos los datos gestionados (democratización total, en cierto modo) y te permite buscar la existencia de determinados datos. Un buen catálogo de datos también incluye ciertas reglas de control de acceso que limitan los límites de la búsqueda (por ejemplo, yo podré buscar "datos relacionados con las ventas", pero "RRHH" está completamente fuera de mi alcance, y por tanto incluso los metadatos de RRHH me resultan inaccesibles).

  • Gobernar el acceso a los datos, lo que incluye un proceso de adquisición (descrito anteriormente) y una forma de adherirse al principio del menor acceso: una vez solicitado el acceso, proporcionar acceso limitado a los límites del recurso específico; no compartir en exceso.

  • Independientemente de los demás pasos, crea un "rastro de auditoría" disponible para la solicitud de acceso a los datos, el ciclo de aprobación del acceso a los datos y el aprobador (administrador de datos), así como para todas las operaciones de acceso posteriores. Esta pista de auditoría son los propios datos y, por tanto, debe cumplir con la gobernanza de datos.

En cierto modo, la gobernanza de los datos se convierte en la instalación donde puedes permitir la democratización de los datos, permitiendo que una mayor parte de tus datos sean accesibles a una mayor parte de la población de empleados del conocimiento, y por lo tanto sea un acelerador para la empresa a la hora de facilitar y agilizar el uso de los datos.

Los resultados empresariales, como la visibilidad de todas las partes de una cadena de suministro, la comprensión del comportamiento de los clientes en todos los activos en línea, el seguimiento del éxito de una campaña múltiple y los viajes de los clientes resultantes, son cada vez más posibles. Bajo gobernanza, las diferentes unidades de negocio podrán reunir datos, analizarlos para lograr una visión más profunda y reaccionar rápidamente a los cambios tanto locales como globales.

Gestionar el riesgo (robo, uso indebido, corrupción de datos)

Las principales preocupaciones que los CIO y los administradores de datos responsables han tenido durante mucho tiempo (y esto no ha cambiado con la llegada de la analítica de grandes datos) siempre han sido: ¿Cuáles son mis factores de riesgo, cuál es mi plan de mitigación y cuál es el daño potencial?

Los CIO han aprovechado estas preocupaciones para asignar recursos en función de la respuesta a esas preguntas. La gobernanza de los datos viene a proporcionar un conjunto de herramientas, procesos y puestos para que el personal gestione el riesgo que corren los datos, entre otros temas que en ella se presentan (por ejemplo, la eficiencia de los datos, u obtener valor de los datos). Esos riesgos incluyen

Robo
El robo de datos es preocupante en aquellas organizaciones en las que los datos son el producto o un factor clave para generar valor. El robo de datos sobre piezas, proveedores o precios en la cadena de suministro de un fabricante de productos electrónicos puede suponer un golpe demoledor para la empresa si la competencia utiliza esa información para negociar con esos mismos proveedores, o para obtener una hoja de ruta del producto a partir de la información de la cadena de suministro. El robo de una lista de clientes puede ser muy perjudicial para cualquier organización. Establecer una gobernanza de los datos en torno a la información que la organización considera sensible puede fomentar la confianza a la hora de compartir datos circundantes, agregados, etc., contribuyendo a la eficacia empresarial y derribando barreras para compartir y reutilizar datos.
Mal uso
El mal uso suele consistir en la utilización inconsciente de los datos de forma distinta a la finalidad para la que se recopilaron, a veces para apoyar conclusiones erróneas. A menudo se debe a la falta de información sobre la fuente de los datos, su calidad o incluso su significado. A veces también se produce un uso malintencionado de los datos, lo que significa que la información recopilada con consentimiento para fines benignos se utiliza para otros fines no previstos y a veces nefastos. Un ejemplo es el pago de AT&T a la FCC en 2015, después de que se descubriera que los empleados de su centro de llamadas habían revelado información personal de los consumidores a terceros para obtener beneficios económicos. La gobernanza de los datos puede proteger contra el uso indebido con varias capas. En primer lugar, establece la confianza antes de compartir los datos. Otra forma de proteger contra el uso indebido es la declarativa: declarar la fuente de los datos dentro del contenedor, la forma en que se recopilaron y para qué estaban destinados. Por último, limitar el tiempo durante el cual se puede acceder a los datos puede evitar un posible uso indebido. Esto no significa tapar los datos y hacerlos inaccesibles. Recuerda que el hecho de que los datos existan debe compartirse junto con su finalidad y descripción, lo que debería hacer realidad la democratización de los datos.
Corrupción de datos
La corrupción de datos es un riesgo insidioso, porque es difícil de detectar y difícil de proteger. El riesgo se materializa cuando se obtienen conclusiones empresariales operativas a partir de datos corruptos (y, por tanto, incorrectos). La corrupción de datos suele ocurrir fuera del control de la gobernanza de datos y puede deberse a errores en la ingesta de datos, uniendo datos "limpios" con datos corruptos (creando un nuevo producto corrupto). Los datos parciales, autocorregidos para incluir algunos valores por defecto, pueden ser malinterpretados, por ejemplo, como datos curados. La gobernanza de datos puede intervenir aquí y permitir el registro, incluso a nivel de columna de datos estructurados, de los procesos y el linaje de los datos, y el nivel de confianza, o calidad, de la fuente de nivel superior de los datos.

Cumplimiento de la normativa

La gobernanza de los datos suele aprovecharse cuando existe un conjunto de normativas aplicables a la empresa, y concretamente a los datos que ésta procesa. Las normativas son, en esencia, políticas que deben cumplirse para poder actuar en el entorno empresarial en el que opera la organización. A menudo se hace referencia al GDPR como ejemplo de normativa en torno a los datos. Esto se debe, entre otras cosas, a que el GDPR obliga a separar los datos personales (de los ciudadanos europeos) de otros datos, y a tratar esos datos de forma diferente, especialmente en torno a los datos que pueden utilizarse para identificar a una persona. Este manuscrito no pretende entrar en los detalles específicos del GDPR.

La regulación suele referirse a una o varias de las siguientes especificidades:

  • Control de acceso detallado

  • Conservación y eliminación de datos

  • Registro de auditoría

  • Clases de datos sensibles

Vamos a discutirlos uno por uno.

Regulación en torno al control de acceso de grano fino

El control de acceso ya es un tema establecido que se relaciona sobre todo con la seguridad. El control de acceso de grano fino añade las siguientes consideraciones al control de acceso:

Al facilitar el acceso, ¿estás facilitando el acceso al tamaño adecuado de contenedor?
Esto significa asegurarte de que proporcionas el tamaño mínimo del contenedor de los datos (tabla, conjunto de datos, etc.) que incluye la información solicitada. En el almacenamiento estructurado, lo más habitual es que se trate de una sola tabla, en lugar de todo el conjunto de datos o el permiso de todo el proyecto.
Cuando proporcionas acceso, ¿estás proporcionando el nivel de acceso adecuado?

Son posibles distintos niveles de acceso a los datos. Un patrón de acceso común es poder leer los datos o escribirlos, pero hay niveles adicionales: puedes optar por permitir que un colaborador añada (pero posiblemente no cambie) los datos, o que un editor tenga acceso para modificar o incluso borrar datos. Además, considera sistemas protegidos en los que algunos datos se transforman al acceder a ellos. Podrías redactar ciertas columnas (por ejemplo, los números de la seguridad social de EE.UU., que sirven como identificación nacional) para exponer sólo los cuatro últimos dígitos, o reducir las coordenadas GPS a la ciudad y el país. Una forma útil de compartir datos sin exponer demasiado es tokenizar (encriptar) los datos con encriptación simétrica (reversible), de forma que los valores de los datos clave (por ejemplo, el DNI de una persona) conserven la unicidad (y así puedas contar cuántas personas distintas tienes en tu conjunto de datos) sin que queden expuestos los detalles específicos del DNI de una persona.

Deben tenerse en cuenta todos los niveles de acceso aquí mencionados (leer/escribir/borrar/actualizar y redactar/enmascarar/tokenizar).

Al facilitar el acceso, ¿durante cuánto tiempo debe permanecer abierto?
Recuerda que el acceso suele solicitarse por un motivo (debe completarse un proyecto concreto), y los permisos concedidos no deben "colgar" sin la justificación adecuada. El regulador se preguntará "¿quién tiene acceso a qué?", por lo que limitar el número de personas que tienen acceso a una determinada clase de datos tendrá sentido y puede resultar eficaz.

Conservación y eliminación de datos

Un importante cuerpo normativo se ocupa de la supresión y la conservación de los datos. Es habitual la exigencia de conservar los datos durante un periodo determinado, y no inferior a ese periodo. Por ejemplo, en el caso de la normativa sobre transacciones financieras, no es infrecuente encontrar el requisito de que toda la información sobre transacciones comerciales se conserve durante un plazo de hasta siete años para permitir a los investigadores de fraudes financieros hacer un seguimiento retrospectivo.

A la inversa, una organización puede querer limitar el tiempo que conserva cierta información, lo que le permite sacar conclusiones rápidas al tiempo que limita la responsabilidad. Por ejemplo, disponer de información constantemente actualizada sobre la ubicación de todos los camiones de reparto es útil para tomar decisiones rápidas sobre las recogidas y entregas "justo a tiempo", pero se convierte en una responsabilidad si mantienes esa información durante un periodo de tiempo y puedes, en teoría, trazar una imagen de la ubicación de un conductor de reparto concreto a lo largo de varias semanas.

Registro de auditoría

Poder presentar registros de auditoría a un regulador es útil como prueba de que se cumplen las políticas. No puedes presentar datos que han sido borrados, pero puedes mostrar un registro de auditoría de los medios por los que los datos fueron creados, manipulados, compartidos (y con quién), accedidos (y por quién), y posteriormente caducados o borrados. El auditor podrá verificar que se cumplen las políticas. Los registros de auditoría también pueden ser una herramienta forense útil.

Para ser útiles a efectos de gobernanza de datos, los registros de auditoría deben ser inmutables, de sólo escritura (inalterables por partes internas o externas) y conservarse, por sí mismos, durante un largo periodo de tiempo: tanto como la política de conservación de datos más exigente (y más allá, para mostrar los datos que se eliminan).

Los registros de auditoría deben incluir información no sólo sobre los datos y las operaciones de datos en sí, sino también sobre las operaciones que se producen en torno a la instalación de gestión de datos. Hay que registrar los cambios en las políticas y en los esquemas de datos. Es necesario registrar la gestión de permisos y los cambios en los permisos, y la información de registro debe contener no sólo el sujeto del cambio (ya sea un contenedor de datos o una persona a la que se concede un permiso), sino también el autor de la acción (el administrador o el proceso del servicio que inició la actividad).

Clases de datos sensibles

Muy a menudo, un regulador determinará que una clase de datos debe tratarse de forma diferente a otros datos. Se trata del núcleo de la regulación que suele referirse a un grupo de personas protegidas, o a un tipo de actividad. El regulador utilizará un lenguaje jurídico (por ejemplo, datos de identificación personal de residentes en la Unión Europea, o "historial de transacciones financieras"). Dependerá de la organización identificar correctamente qué parte de esos datos procesa realmente, y cómo se comparan estos datos con los almacenados en soportes estructurados o no estructurados. Para los datos estructurados, a veces es más fácil vincular una clase de datos a un conjunto de columnas (la IPI se almacena en estas columnas) y etiquetar las columnas para que se apliquen determinadas políticas a estas columnas específicamente, incluido el acceso y la retención. Esto respalda los principios del control de acceso de grano fino, así como el cumplimiento de la normativa sobre los datos (no sobre el almacén de datos o el personal que manipula esos datos).

Consideraciones para las Organizaciones a la hora de Pensar en la Gobernanza de los Datos

Cuando una organización se sienta y empieza a definir un programa de gobierno de datos y los objetivos de dicho programa, debe tener en cuenta el entorno en el que opera. En concreto, debe considerar qué normativas son relevantes y con qué frecuencia cambian, si una implementación en la nube tiene sentido o no para la organización, y qué experiencia se requiere por parte de TI y de los analistas/propietarios de los datos. A continuación analizamos estos factores.

Normativa cambiante y necesidades de cumplimiento

En los últimos años, las normativas sobre gobierno de datos han acaparado más atención. Con el GDPR y la CCPA uniéndose a las normativas relacionadas con la HIPAA y la PCI, las organizaciones afectadas están reaccionando.

El cambiante entorno normativo ha hecho que las organizaciones deban permanecer vigilantes en lo que respecta a la gobernanza. Ninguna organización quiere aparecer en las noticias por ser demandada por no gestionar la información de los clientes según una serie de normas. En un mundo en el que la información de los clientes es muy valiosa, las empresas deben tener cuidado con la forma en que manejan los datos de los clientes. Las empresas no sólo deben conocer las normativas vigentes, sino que también deben mantenerse al día de cualquier cambio en los mandatos o estipulaciones, así como de cualquier nueva normativa que pueda afectar a su forma de hacer negocios. Además, los cambios en la tecnología también han creado retos adicionales. El aprendizaje automático y la IA han permitido a las organizaciones predecir resultados y probabilidades futuras. Estas tecnologías también crean un montón de nuevos conjuntos de datos como parte de este proceso. Con estos nuevos valores predichos, ¿cómo piensan las empresas sobre la gobernanza? ¿Deberían estos nuevos conjuntos de datos asumir las mismas políticas y gobernanza que tenían los conjuntos de datos originales, o deberían tener su propio conjunto de políticas para la gobernanza? ¿Quién debe tener acceso a estos datos? ¿Durante cuánto tiempo deben conservarse? Todas estas son preguntas que hay que considerar y responder.

Acumulación de datos y crecimiento de la organización

Con el rápido descenso de los costes de infraestructura y el crecimiento de las organizaciones, tanto orgánicamente como mediante la adquisición de unidades de negocio adicionales (con sus propios almacenes de datos), cobra importancia el tema de la acumulación de datos y cómo reaccionar adecuadamente ante la rápida acumulación de grandes cantidades de datos. Con la acumulación de datos, una organización recopila más datos de más fuentes y con más fines.

Big data es un término que no dejarás de oír, y alude a las ingentes cantidades de datos (estructurados y no estructurados) que ahora se recogen de dispositivos conectados, sensores, redes sociales, flujos de clics, etc. El volumen, la variedad y la velocidad de los datos han cambiado y se han acelerado en la última década. El esfuerzo por gestionar e incluso consolidar estos datos ha creado pantanos de datos (colecciones desorganizadas e incoherentes de datos sin una curación clara) e incluso más silos, es decir, los clientes decidieron consolidar en Aplicaciones y Productos del Sistema (SAP), y luego decidieron consolidar en Hive Metastore, y algunos consolidaron en la nube, y así sucesivamente. Teniendo en cuenta estos retos, saber lo que tienes y aplicar la gobernanza a estos datos es complicado, pero es una tarea que las organizaciones deben emprender. Las organizaciones pensaban que construir un lago de datos resolvería todos sus problemas, pero ahora estos lagos de datos se están convirtiendo en pantanos de datos con tantos datos que es imposible comprender y gobernar. En un entorno en el que IDC predice que más de una cuarta parte de los datos generados en 2025 serán de naturaleza en tiempo real, ¿cómo se aseguran las organizaciones de que están preparadas para este paradigma cambiante?

Trasladar datos a la nube

Tradicionalmente, todos los datos residían en infraestructuras proporcionadas y mantenidas por la organización. Esto significaba que la organización tenía el control total sobre el acceso, y no había un uso compartido dinámico de los recursos. Con la aparición de la computación en nube -que en este contexto implica una infraestructura barata pero compartida-, las organizaciones tienen que reflexionar sobre su respuesta e inversión en infraestructura local frente a la infraestructura en nube.

Muchas grandes empresas todavía mencionan que no tienen planes de trasladar sus datos principales, o datos gobernados, a la nube en un futuro próximo. Aunque las mayores empresas de la nube han invertido dinero y recursos para proteger los datos de los clientes en la nube, la mayoría de los clientes siguen sintiendo la necesidad de mantener estos datos on-prem. Esto es comprensible, porque las violaciones de datos en la nube parecen tener más consecuencias. El potencial de daño, tanto monetario como para la reputación, explica por qué las empresas quieren más transparencia en cómo funciona la gobernanza para proteger sus datos en la nube. Con esta presión, estás viendo que las empresas de la nube ponen más guardarraíles. Necesitan "mostrar" y "abrir el capó" de cómo se aplica la gobernanza, así como proporcionar controles que no sólo generen confianza entre los clientes, sino que también pongan algo de poder en sus manos. Trataremos estos temas en el Capítulo 7.

Experiencia en infraestructura de datos

Otra consideración para las organizaciones es la enorme complejidad del panorama de las infraestructuras. ¿Cómo piensas en la gobernanza en un mundo híbrido y multicloud? La informática híbrida permite a las organizaciones disponer de infraestructura tanto local como en la nube, mientras que la multicloud permite a las organizaciones utilizar más de un proveedor de nube. ¿Cómo implementas la gobernanza en toda la organización cuando los datos residen en las instalaciones y en otras nubes? Esto complica la gobernanza y, por tanto, va más allá de las herramientas utilizadas para implantarla. Cuando las organizaciones empiezan a pensar en las personas, los procesos y las herramientas y definen un marco que engloba estas facetas, entonces resulta un poco más fácil extender la gobernanza a través de las instalaciones y la nube.

Por qué la gobernanza de datos es más fácil en la nube pública

La gobernanza de los datos implica gestionar el riesgo. El profesional siempre está sopesando la seguridad inherente a no permitir nunca el acceso a los datos frente a la agilidad que es posible si los datos están fácilmente disponibles dentro de la organización para respaldar distintos tipos de decisiones y productos. El cumplimiento normativo suele dictar los requisitos mínimos para las políticas de control de acceso, linaje y retención. Como hemos comentado en las secciones anteriores, la aplicación de éstas puede suponer un reto debido a los cambios en la normativa y al crecimiento orgánico.

La nube pública tiene varias características que facilitan la implantación, el monitoreo y la actualización del gobierno de datos. En muchos casos, estas funciones no están disponibles o tienen un coste prohibitivo en los sistemas locales.

Ubicación

La localidad de datos es sobre todo relevante para las organizaciones globales que almacenan y utilizan datos en todo el mundo, pero un examen más profundo de la normativa revela que la situación no es tan sencilla. Por ejemplo, si, por razones empresariales, quieres aprovechar un centro de datos en una ubicación central (digamos, en EE.UU., junto a tus clientes potenciales) pero tu empresa es alemana, la normativa exige que los datos sobre los empleados permanezcan en suelo alemán; por tanto, tu estrategia de datos acaba de complicarse.

La necesidad de almacenar los datos de los usuarios dentro de fronteras soberanas es un requisito normativo cada vez más común. En 2016, el Parlamento de la UE aprobó medidas de soberanía de datos dentro del RGPD, en virtud de las cuales el almacenamiento y el tratamiento de registros sobre ciudadanos y residentes de la UE deben llevarse a cabo de forma que se cumpla la legislación de la UE. Clases específicas de datos (por ejemplo, registros sanitarios en Australia, metadatos de telecomunicaciones en Alemania o datos de pago en India) también pueden estar sujetos a normativas de localidad de datos; éstas van más allá de las meras medidas de soberanía al exigir que todo el procesamiento y almacenamiento de datos se produzca dentro de las fronteras nacionales. Los principales proveedores de nubes públicas ofrecen la posibilidad de almacenar tus datos de acuerdo con estas normativas. Puede ser cómodo marcar simplemente un conjunto de datos como dentro de la multirregión de la UE y saber que tienes tanto redundancia (porque es una multirregión) como cumplimiento (porque los datos nunca salen de la UE). Implantar una solución de este tipo en tu centro de datos local puede ser bastante difícil, ya que puede resultar prohibitivo construir centros de datos en cada ubicación soberana en la que desees hacer negocios y que tenga normativas de localidad.

Otra razón por la que importa la ubicación es que importa el acceso global seguro consciente de las transacciones. A medida que tus clientes viajen o ubiquen sus propias operaciones, te exigirán que les proporciones acceso a los datos y aplicaciones estén donde estén. Esto puede ser difícil si tu cumplimiento de la normativa empieza y termina colocando aplicaciones y datos en silos regionales. Necesitas la capacidad de aplicar sin problemas funciones de cumplimiento basadas en los usuarios, no sólo en las aplicaciones. Ejecutar tus aplicaciones en una nube pública que ejecute su propia fibra privada y ofrezca seguridad de red física de extremo a extremo y sincronización horaria global (no todas las nubes hacen esto) simplifica la arquitectura de tus aplicaciones.

Superficie reducida

En los sectores fuertemente regulados, existen enormes ventajas si hay una única fuente "dorada" de verdad para los conjuntos de datos, especialmente para los datos que requieren auditabilidad. Tener tu almacén de datos empresariales (EDW) en una nube pública, sobre todo en un entorno en el que puedes separar la computación del almacenamiento y acceder a los datos desde clústeres efímeros, te proporciona la capacidad de crear diferentes mercados de datos para diferentes casos de uso. Estos marts de datos se proporcionan a través de vistas del EDW que se crean sobre la marcha. No es necesario mantener copias, y basta con examinar las vistas para garantizar la auditabilidad en cuanto a la corrección de los datos.

A su vez, la falta de almacenamiento permanente en estos mercados de datos simplifica enormemente su gobernanza. Al no haber almacenamiento, el cumplimiento de las normas sobre eliminación de datos es trivial a nivel del mercado de datos. Todas esas normas deben aplicarse sólo en el EDW. Por supuesto, también deben aplicarse otras normas sobre el uso y control adecuados de los datos. Por eso pensamos que se trata de una superficie reducida, no de una gobernanza cero.

Computación efímera

Para tener una única fuente de datos y poder seguir dando soporte a las aplicaciones empresariales, actuales y futuras, tenemos que asegurarnos de que los datos no se almacenan dentro de un clúster informático, ni se escalan en proporción a él. Si nuestro negocio tiene picos, o si necesitamos la capacidad de soportar cargas de trabajo interactivas u ocasionales, necesitaremos una capacidad informática infinitamente escalable y fácilmente explosiva, separada de la arquitectura de almacenamiento. Esto sólo es posible si nuestra arquitectura de procesamiento y análisis de datos es sin servidor y/o separa claramente la computación del almacenamiento.

¿Por qué necesitamos que tanto el procesamiento de datos como la analítica sean sin servidor? Porque la utilidad de los datos a menudo sólo se obtiene después de aplicarles una serie de herramientas de preparación, limpieza e inteligencia. Todas estas herramientas deben soportar la separación de la computación y el almacenamiento y el autoescalado para aprovechar las ventajas de una plataforma analítica sin servidor. No basta con tener un almacén de datos sin servidor o una arquitectura de aplicaciones construida en torno a funciones sin servidor. Necesitas que tus propios marcos de herramientas sean sin servidor. Esto sólo está disponible en la nube.

Sin servidor y potente

En muchas empresas, la falta de datos no es el problema, sino la disponibilidad de herramientas para procesarlos a escala. La misión de Google de organizar la información del mundo ha supuesto que Google tuviera que inventar métodos de procesamiento de datos, incluidos métodos para asegurar y gobernar los datos que se procesan. Muchas de estas herramientas de investigación se han perfeccionado mediante su uso en producción en Google y están disponibles en Google Cloud como herramientas sin servidor (ver Figura 1-14). También existen equivalentes en otras nubes públicas. Por ejemplo, la base de datos Aurora en Amazon Web Services (AWS) y Azure Cosmos DB de Microsoft son sin servidor; S3 en AWS y Azure Cloud Storage son equivalentes a Google Cloud Storage. Del mismo modo, Lambda en AWS y Azure Functions ofrecen la posibilidad de llevar a cabo un procesamiento de datos sin estado y sin servidor. Elastic Map Reduce (EMR) en AWS y HDInsight en Azure son el equivalente de Google Cloud Dataproc. En el momento de escribir esto, el procesamiento sin servidor y sin estado (Dataflow en Google Cloud) aún no está disponible en otras nubes públicas, pero sin duda esto se remediará con el tiempo. Este tipo de capacidades son prohibitivas desde el punto de vista de los costes, debido a la necesidad de implantar herramientas sin servidor de forma eficiente, a la vez que se equilibran los picos de carga y tráfico entre miles de cargas de trabajo.

Figura 1-14. Muchas de las técnicas de procesamiento de datos inventadas en Google (panel superior; véase también http://research.google.com/pubs/papers.html) existen como servicios gestionados en Google Cloud (panel inferior).

Recursos etiquetados

Los proveedores de nubes públicas proporcionan un etiquetado granular de los recursos para dar soporte a diversas consideraciones de facturación. Por ejemplo, la organización propietaria de los datos en un mercado de datos puede no ser la que lleve a cabo (y por tanto pague) el cálculo. Esto te da la posibilidad de implementar el cumplimiento normativo sobre las sofisticadas funciones de etiquetado y etiquetado de estas plataformas.

Estas capacidades podrían incluir la posibilidad de descubrir, etiquetar y catalogar elementos (pregunta a tu proveedor de la nube si éste es el caso). Es importante poder etiquetar los recursos, no sólo en términos de gestión de identidades y accesos, sino también en términos de atributos, como si una columna concreta se considera PII en determinadas jurisdicciones. Entonces es posible aplicar políticas coherentes a todos esos campos en cualquier lugar de tu empresa.

Seguridad en un mundo híbrido

El último punto sobre tener políticas coherentes que sean fácilmente aplicables es clave. La coherencia y un único panel de seguridad son ventajas clave de alojar tu infraestructura de software empresarial en la nube. Sin embargo, este enfoque de todo o nada no es realista para la mayoría de las empresas. Si tu empresa opera con equipos (dispositivos portátiles, cámaras de vídeo, cajas registradoras de puntos de venta, etc.) "en el perímetro", a menudo es necesario tener también allí parte de tu infraestructura de software. A veces, como ocurre con las máquinas de votación, el cumplimiento de la normativa puede exigir el control físico del equipo que se utiliza. Puede que tus sistemas heredados no estén preparados para aprovechar la separación de computación y almacenamiento que ofrece la nube. En estos casos, te gustaría seguir funcionando en las instalaciones. Los sistemas que incluyen componentes que viven en una nube pública y en otro lugar -en dos nubes públicas, o en una nube pública y en el perímetro, o en una nube pública y en las instalaciones- se denominan sistemas de nube híbrida.

Es posible ampliar enormemente el alcance de tu postura y políticas de seguridad en la nube empleando soluciones que te permitan controlar tanto la infraestructura local como la de la nube utilizando las mismas herramientas. Por ejemplo, si has auditado una aplicación local y su uso de los datos, es más fácil aprobar esa misma aplicación ejecutándose en la nube que volver a auditar una aplicación reescrita. El coste de entrada a esta capacidad es contenerizar tus aplicaciones, y puede ser un coste que merezca la pena pagar, sólo por las ventajas de gobernanza.

Resumen

Cuando se habla de una estrategia de gobernanza de datos exitosa, hay que tener en cuenta algo más que la arquitectura de datos/estructura de canalización de datos o las herramientas que realizan las tareas de "gobernanza". También es muy importante tener en cuenta a las personas que hay detrás de las herramientas de gobierno, así como los "procesos humanos" que se ponen en marcha, y no deben descartarse. Una estrategia de gobernanza realmente eficaz debe tener en cuenta no sólo las herramientas implicadas, sino también las personas y los procesos. En los Capítulos 2 y 3 analizaremos estos ingredientes de la gobernanza de datos.

En el Capítulo 4, tomamos un corpus de datos de ejemplo y consideramos cómo se lleva a cabo la gobernanza de datos a lo largo de todo el ciclo de vida de esos datos: desde la ingesta a la preparación y el almacenamiento, pasando por la incorporación a informes, cuadros de mando y modelos de aprendizaje automático, hasta las actualizaciones y la eventual eliminación. Una preocupación clave aquí es que la calidad de los datos es una preocupación continua; se inventan nuevos métodos de procesamiento de datos, y las reglas empresariales cambian. En el Capítulo 5 se explica cómo gestionar la mejora continua de la calidad de los datos.

Para 2025, se espera que más del 25% de los datos empresariales sean datos en streaming. En el Capítulo 6, abordamos los retos de gobernar los datos en movimiento. Los datos en vuelo implican gobernar los datos en el origen y en el destino, y cualquier agregación y manipulación que se lleven a cabo en vuelo. El gobierno de los datos también tiene que abordar los retos que plantean los datos que llegan tarde y lo que significa para la corrección de los cálculos que los sistemas de almacenamiento sólo sean correctos eventualmente.

En el Capítulo 7, profundizamos en la protección de datos y en las soluciones disponibles para la autenticación, la seguridad, las copias de seguridad, etc. El mejor gobierno de los datos no sirve de nada si no se lleva a cabo un monitoreo y no se descubren las fugas, el uso indebido y los accidentes con la suficiente antelación para mitigarlos. El monitoreo se trata en el Capítulo 8.

Por último, en el Capítulo 9, reunimos los temas de este libro y tratamos las buenas prácticas para crear una cultura de datos, una cultura en la que se respete tanto al usuario como la oportunidad.

Una pregunta que nos hacen a menudo es cómo hace Google internamente la gobernanza de datos. En el Apéndice A, utilizamos a Google como ejemplo (uno que conocemos bien) de un sistema de gobierno de datos, y señalamos las ventajas y los retos de los enfoques que adopta Google y los ingredientes que lo hacen posible.

1 Leandro DalleMule y Thomas H. Davenport, "¿Cuál es tu estrategia de datos?" Harvard Business Review (mayo-junio de 2017): 112-121.

2 Esta aplicación es el Proyecto de Identificación de Fenómenos Meteorológicos Cercanos al Suelo (mPING), desarrollado mediante una asociación entre el NSSL, la Universidad de Oklahoma y el Instituto Cooperativo de Estudios Meteorológicos de Mesoescala.

3 Fue en la radio, pero puedes leerlo en el blog All Tech Considered de NPR.

4 David Reinsel, John Gantz y John Rydning, "La digitalización del mundo: Del perímetro al núcleo", noviembre de 2018.

5 "Los mejores trabajos de EEUU: 2019", Indeed, 19 de marzo de 2019.

6 Reinsel et al. "La digitalización del mundo".

7 Kaggle: NFL Big Data Bowl.

8 Reinsel et al. "La digitalización del mundo".

9 Aarian Marshall y Alex Davies, "Uber's Self-Driving Car Saw the Woman It Killed, Report Says", Wired, 24 de mayo de 2018.

10 Jonathan Shaw, "Inteligencia Artificial y Ética", Harvard Magazine, enero-febrero de 2019, 44-49, 74.

11 "Information on the Capital One Cyber Incident", Capital One, actualizado el 23 de septiembre de 2019; Brian Krebs, "What We Can Learn from the Capital One Hack", Krebs on Security (blog), 2 de agosto de 2019.

12 Véase, por ejemplo, el libro Dark Data: Why What You Don't Know Matters, de David Hand (Princeton University Press).

13 David Winkler, "AIS Data Quality and the Authoritative Vessel Identification Service (AVIS)" (presentación en PowerPoint, National GMDSS Implementation Task Force, Arlington, VA, 10 de enero de 2012).

Get Gobierno de datos: La Guía Definitiva now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.