Prólogo de Raghu Ramakrishnan
Apache Iceberg es uno de los principales formatos abiertos para tablas actualizables basadas en Parquet, que están emergiendo como el nuevo estándar de almacenamiento de datos para analítica. Históricamente, las bases de datos relacionales han almacenado los datos fila por fila, empaquetados en páginas físicas para una E/S eficiente. Sin embargo, los formatos de tablas columnares han demostrado ser mucho más eficientes para cargas de trabajo de consulta intensiva. Los lagos de datos empezaron soportando consultas sobre formatos columnares como Parquet, pero, por supuesto, las actualizaciones transaccionales también deben soportarse eficientemente para hacer frente a los escenarios de almacén tradicionales. Iceberg está emergiendo como una opción popular de formato de tabla que soporta escenarios que requieren cargas de trabajo de consulta intensiva mezcladas con actualizaciones e ingestas masivas.
Este libro oportuno y bien escrito hace un excelente trabajo de presentación de Iceberg, empezando por lo básico y extendiéndose a la arquitectura y a cómo obtener el mejor rendimiento para una amplia gama de cargas de trabajo, incluidas las consultas SQL en Apache Spark y Dremio, así como el procesamiento de flujos en Apache Flink. También incluye un capítulo en el que se examina Iceberg en entornos de producción, incluido el uso de tablas de metadatos y funciones como ramificación, partición e instantáneas para manejar escenarios complejos a escala. Debería ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access