Capítulo 10. Apache Iceberg en producción

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Los ingenieros de datos son responsables de recopilar, almacenar y procesar los datos de forma eficiente, fiable y segura. Cuando ponen los datos en producción, necesitan seguir una serie de buenas prácticas para garantizar que los datos son precisos, coherentes y accesibles. En este capítulo, hablaremos de muchas de las herramientas que pueden utilizarse para ayudar a monitorear y mantener las tablas de Apache Iceberg en producción. Empezaremos hablando de las tablas de metadatos de Apache Iceberg, que puedes utilizar para comprender mejor tus tablas Iceberg. Luego trataremos las formas de garantizar la calidad de los datos, incluyendo la ramificación para aislar la ingestión a nivel de tabla o catálogo; el versionado de catálogos para llevar a cabo transacciones multiestables; y la reversión del estado de una tabla o catálogo cuando las cosas van mal.

Todas las prácticas tratadas en este capítulo pueden aplicarse de forma reactiva o proactiva. Un enfoque reactivo significa reaccionar ante situaciones que ya existen, como reescribir una partición que ya se ha hecho demasiado grande o hacer retroceder una tabla que ya ha ingestado datos erróneos.

Las técnicasproactivas intentan evitar este tipo de problemas en primer lugar, e incluyen el control del tamaño de las particiones antes de que afecten al rendimiento de las consultas ...

Get Apache Iceberg: La Guía Definitiva now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.