Capítulo 5. Análisis de Lakehouse de Datos Abiertos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Hasta ahora, has aprendido a conectar Presto a un lago de datos utilizando conectores estándar como MySQL y Pinot. Además, has aprendido a escribir un conector personalizado utilizando las clases y métodos Java de Presto. Por último, has conectado un cliente a Presto para ejecutar consultas genéricas o personalizadas. Ahora ha llegado el momento de utilizar Presto en un escenario avanzado, más realista, que aborde los principales retos de la gestión de big data: la consulta de tablas, el acceso concurrente a los datos y el control de acceso.

En este capítulo, daremos una visión general del lago de datos e implementaremos un escenario práctico. El capítulo se divide en dos partes. En la primera parte, presentamos la arquitectura de un lago de datos, centrándonos en sus componentes principales. En la segunda parte del capítulo, realizarás un escenario práctico de un lago de datos utilizando Presto y componentes totalmente abiertos.

La aparición de la casa del lago

La primera generación de lagos de datos, basada principalmente en el Sistema de Archivos Distribuidos Hadoop (HDFS), demostró la promesa del análisis a escala. Como resultado, muchas organizaciones formaron arquitecturas de plataformas de datos consistentes en lagos de datos y almacenes de datos, cosiendo conductos y flujos de trabajo entre ellos. Sin ...

Get Aprender y utilizar Presto now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.