book

Apache Iceberg: La Guía Definitiva

Name: Apache Iceberg: La Guía Definitiva
ISBN: 9781098182595

by Tomer Shiran, Jason Hughes, Alex Merced

September 2024

Intermediate to advanced

344 pages

9h 43m

Spanish

O'Reilly Media, Inc.

Read now

Unlock full access

Prólogo de Gerrit Kazmaier
Prólogo de Raghu Ramakrishnan
Prólogo de Rick Sears
Prefacio
Acerca de este libroPor qué escribimos este libroLo que encontrarás dentroCómo utilizar este libroComentarios y preguntasConvenciones utilizadas en este libroUtilizar ejemplos de códigoAprendizaje en línea O'ReillyCómo contactar con nosotrosAgradecimientos
I. Fundamentos de Apache Iceberg
1. Introducción a Apache Iceberg
¿Cómo hemos llegado hasta aquí? Breve historiaComponentes básicos de un sistema diseñado para cargas de trabajo OLAPReunirlo todoEl almacén de datosBreve historiaVentajas e inconvenientes de un almacén de datosEl Lago de DatosBreve historiaVentajas e inconvenientes de un lago de datos¿Debo ejecutar los análisis en un lago de datos o en un almacén de datos?La Casa del Lago de Datos¿Qué es un formato de tabla?Colmena: El formato de tabla originalFormatos modernos de tablas de lago de datos¿Qué es el Iceberg Apache?Cómo surgió el Iceberg ApacheLa arquitectura Iceberg de ApacheCaracterísticas principales de Apache IcebergConclusión
2. La arquitectura de Apache Iceberg
La capa de datosArchivos de datosEliminar archivosLa capa de metadatosArchivos de manifiestoListas de manifiestosArchivos de metadatosArchivos PuffinEl CatálogoConclusión
3. Ciclo de vida de las consultas de escritura y lectura
Escribir consultas en Apache IcebergCrear la TablaInserta la consultaFusionar consultaLectura de consultas en Apache IcebergLa consulta SELECTLa consulta sobre el viaje en el tiempoConclusión
4. Optimizar el rendimiento de las mesas Iceberg
CompactaciónManos a la obra con la compactaciónEstrategias de compactaciónAutomatizar la compactaciónClasificaciónOrden ZParticiónPartición ocultaEvolución de la particiónOtras consideraciones sobre la particiónCopiar al escribir frente a combinar al leerCopia en escrituraFusión en lecturaConfigurar COW y MOROtras consideracionesRecogida de métricasReescribir los manifiestosOptimizar el almacenamientoModo de distribución de escrituraConsideraciones sobre el almacenamiento de objetosFiltros Bloom de archivos de datosConclusión
5. Catálogos Iceberg
Requisitos de un catálogo IcebergComparación de catálogosEl Catálogo HadoopEl Catálogo ColmenaCatálogo de pegamentos AWSCatálogo NessieEl Catálogo RESTEl Catálogo JDBCOtros catálogosCatálogo MigraciónUso de la CLI de migración del Catálogo Iceberg de ApacheUtilizar un motorConclusión

II. Prácticas con Apache Iceberg
6. Apache Spark
ConfiguraciónConfiguración de Apache Iceberg y SparkConfigurar los catálogosIniciar Spark con todas las configuraciones (Ejemplo de AWS Glue)Operaciones del Lenguaje de Definición de DatosCREAR TABLAALTERAR TABLAAlterar una tabla con las extensiones SQL de Spark de IcebergELIMINAR TABLALectura de datosLa consulta Seleccionar todoLa consulta Filtrar filasConsultas de agregaciónUso de las funciones de ventanaDatos de escrituraINSERTAR ENFUSIONAR ENINSERTAR SOBRESCRIBIRBORRAR DEACTUALIZACIÓNProcedimientos de mantenimiento de la mesa IcebergCaducar instantáneasReescribir archivos de datosReescribir manifiestosEliminar archivos huérfanosConclusión
7. Motor de consulta SQL de Dremio
ConfiguraciónOperaciones del Lenguaje de Definición de DatosCREAR TABLAALTERAR TABLAELIMINAR TABLALectura de datosUtilizar la consulta SELECTFiltrar filasUtilizar consultas agregadasUso de las funciones de ventanaDatos de escrituraINSERTAR ENCOPIAR ENFUSIONAR ENBORRARACTUALIZACIÓNMantenimiento de la Mesa IcebergCaducar instantáneasReescribir archivos de datosReescribir manifiestosConclusión
8. Pegamento AWS
ConfiguraciónCrear una base de datos de pegamentoConfigurar el trabajo ETL de colaCrear una tabla utilizando el catálogo de datos GlueLee la TablaInserta los DatosConclusión
9. Apache Flink
ConfiguraciónRequisitos previosIniciar el clúster Flink y el cliente SQL FlinkOperaciones del Lenguaje de Definición de DatosCREAR CATÁLOGOCREAR BASE DE DATOSCREAR TABLAALTERAR TABLAELIMINAR TABLALectura de datosLectura por lotes de Flink SQLFlink SQL Streaming LecturaTabla de metadatosDatos de escrituraINSERTAR ENINSERTAR SOBRESCRIBIRUPSERTAPI de tablas y marcos de datos de Flink con tablas Iceberg de ApacheRequisitos previosConfigurar el trabajo FlinkIniciar el clúster y crear el paqueteEjecutar el trabajoConclusión
III. Apache Iceberg en la práctica
10. Apache Iceberg en producción
Tablas de metadatos de Apache IcebergLa tabla de metadatos del historialLa tabla de metadatos metadata_log_entriesTabla de metadatos de las instantáneasLa tabla de metadatos de los archivosLa tabla de metadatos de manifiestosTabla de metadatos de las particionesLa tabla de metadatos all_data_filesLa tabla de metadatos all_manifestsLa tabla de metadatos refsLa tabla de metadatos de las entradasUtilización conjunta de las tablas de metadatosAislamiento de cambios con ramasRamificación y etiquetado de tablasRamificación y etiquetado de catálogosTransacciones MultitableAnular cambiosRetroceder a nivel de tablaRetroceder a nivel de catálogoConclusión
11. Streaming con Apache Iceberg
Streaming con SparkStreaming en Iceberg con SparkStreaming desde Iceberg con SparkStreaming con FlinkStreaming en Iceberg con FlinkEjemplo de streaming en Iceberg con FlinkStreaming con Kafka ConnectEl sumidero Iceberg KafkaStreaming con AWSConclusión
12. Gobernanza y seguridad
Proteger los archivos de datosProteger archivos: Buenas prácticasSistema de archivos distribuidos HadoopServicio de almacenamiento simple de AmazonAlmacenamiento Azure Data LakeAlmacenamiento en la nube de GoogleAsegurar y gobernar en la capa semánticaBuenas prácticas de la capa semánticaDremioTrinoAsegurar y gobernar a nivel de catálogoNessieTabularPegamento AWS y formación de lagosConsideraciones adicionales sobre seguridad y gobernanzaConclusión
13. Migrar a Apache Iceberg
Consideraciones sobre la migraciónPlan de migración in situ en tres pasosPlan de migración a la sombra en cuatro fasesMigrar Tablas Hive a Apache IcebergEl procedimiento de instantáneaEl procedimiento de migraciónMigración del Lago Delta al Iceberg ApacheMigrar Apache Hudi a Apache IcebergMigrar archivos individuales a Apache IcebergUso del procedimiento add_filesMigrar desde el lago Delta o Apache Hudi sin preservar la historiaMigrar desde cualquier lugar reescribiendo datosMigrar datos a una nueva tabla IcebergMigrar datos a una tabla Iceberg existenteConclusión
14. Casos de uso de Apache Iceberg en el mundo real
Garantizar datos de alta calidad con Write-Audit-Publish en Apache IcebergWAP utilizando la función de ramificación de IcebergEjecutar cargas de trabajo de BI en el lago de datosAterriza los datos brutos en el lago de datosCurar Mercados de Datos Virtuales/Productos de DatosCrear una Reflexión para Acelerar Nuestro Cuadro de MandoConecta nuestra vista a nuestra herramienta BIVentajas de ejecutar cargas de trabajo de BI en el lago de datosImplementar la Captura de Datos de Cambios con Apache IcebergCrear tablas Iceberg ApacheAplicar las actualizaciones de los sistemas operativosCrear la Vista del Registro de Cambios para Capturar los CambiosFusionar datos modificados en la tabla agregadaConclusión
Índice
Sobre los autores

Overview

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Los patrones tradicionales de arquitectura de datos están muy limitados. Para utilizar estos patrones, tienes que ETL los datos en cada herramienta, un proceso de coste prohibitivo para hacer que las funciones del almacén estén disponibles para todos tus datos. La falta de flexibilidad de estos patrones te obliga a encerrarte en un conjunto de herramientas y formatos prioritarios, lo que crea silos de datos y deriva de datos. Este práctico libro te muestra una forma mejor.

Apache Iceberg proporciona las capacidades, el rendimiento, la escalabilidad y el ahorro que cumplen la promesa de un lago de datos abierto. Siguiendo las lecciones de este libro, podrás realizar análisis interactivos, por lotes, de aprendizaje automático y de streaming con este formato de código abierto de alto rendimiento. Los autores Tomer Shiran, Jason Hughes y Alex Merced de Dremio te muestran cómo empezar con Iceberg.

Con este libro, aprenderás

La arquitectura de las tablas de Apache Iceberg
Qué ocurre bajo el capó cuando realizas operaciones en tablas Iceberg
Cómo optimizar aún más las tablas Iceberg para obtener el máximo rendimiento
Cómo utilizar Iceberg con motores de datos populares como Apache Spark, Apache Flink y Dremio

Descubre por qué Apache Iceberg es una tecnología fundamental para implementar un lago de datos abierto.

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9781098182595

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills