Capítulo 10. Servicio de Virtualización de Datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Con los datos listos, ya podemos empezar a escribir la lógica de procesamiento para generar las percepciones. Hay tres tendencias en las Implementaciones de big data que hay que tener en cuenta para diseñar eficazmente la lógica de procesamiento. La primera son los modelos de datos políglotas asociados a los conjuntos de datos. Por ejemplo, los datos de grafos se persisten y consultan mejor en una base de datos de grafos. Del mismo modo, existen otros modelos, como clave-valor, columna ancha, documento, etc. La persistencia políglota es aplicable tanto a los datos del lago como a los datos transaccionales de la aplicación. En segundo lugar, la desvinculación de los motores de consulta de la persistencia del almacenamiento de datos permite que distintos motores de consulta ejecuten consultas sobre los datos persistidos en el lago. Por ejemplo, las consultas breves e interactivas se ejecutan en clústeres Presto, mientras que los procesos por lotes de larga duración se ejecutan en Hive o Spark. Normalmente, se configuran varios clústeres de procesamiento para diferentes combinaciones de cargas de trabajo de consulta. Seleccionar los tipos de clúster adecuados es clave. En tercer lugar, para un número creciente de casos de uso, como el BI en tiempo real, los datos del lago se unen a las fuentes de la aplicación en tiempo ...

Get La hoja de ruta de los datos de autoservicio now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.