Capítulo 6. Apache Spark

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Apache Spark destaca como motor de cálculo distribuido muy versátil emparejado con Apache Iceberg debido a su compatibilidad con una amplia gama de funciones. Aprovechar Spark e Iceberg te permite beneficiarte de las ventajas computacionales de las eficientes capacidades de organización y gestión de datos de Iceberg. En este capítulo, exploraremos los pasos necesarios para empezar a trabajar con Apache Iceberg y Spark, así como nos sumergiremos en algunas capacidades críticas. Al final de este capítulo, serás capaz de configurar Apache Iceberg; realizar varias operaciones de Lenguaje de Definición de Datos (DDL) (CREATE, ALTER), consultas (SELECT), y operaciones de Lenguaje de Manipulación de Datos (DML) (INSERT, UPDATE, DELETE, MERGE); y gestionar tablas Iceberg con diferentes motores de procesamiento.

Configuración

Empezaremos hablando de cómo configurar tablas y catálogos de Apache Iceberg utilizando Spark como motor de cálculo. La idea es familiarizarte con los parámetros básicos de configuración necesarios para trabajar con Iceberg y Spark sin problemas.

Configuración de Apache Iceberg y Spark

Para empezar a trabajar con tablas Apache Iceberg utilizando Apache Spark, es necesario configurarlas para que trabajen juntas. Hay un par de formas de definir estas configuraciones. Primero verás cómo establecer estas configuraciones mediante ...

Get Apache Iceberg: La Guía Definitiva now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.