Capítulo 6. Apache Spark
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
Apache Spark destaca-se como um mecanismo de computação distribuída altamente versátil emparelhado com o Apache Iceberg devido ao seu suporte para uma ampla gama de recursos. Aproveitar o Spark e o Iceberg permite-te tirar partido dos benefícios computacionais das capacidades eficientes de organização e gestão de dados do Iceberg. Neste capítulo, exploraremos as etapas necessárias para começar a usar o Apache Iceberg e o Spark, além de analisar alguns recursos críticos. No final deste capítulo, serás capaz de configurar o Apache Iceberg; executar várias operações de Linguagem de Definição de Dados (DDL) (CREATE, ALTER), consultas (SELECT) e operações de Linguagem de Manipulação de Dados (DML) (INSERT, UPDATE, DELETE, MERGE); e gerir tabelas do Iceberg com diferentes motores de processamento.
Configuração
Começaremos discutindo como configurar tabelas e catálogos do Apache Iceberg usando o Spark como mecanismo de computação. A ideia é que te familiarizes com os parâmetros básicos de configuração necessários para trabalhar com o Iceberg e o Spark sem problemas.
Configurar o Apache Iceberg e o Spark
Para começar a trabalhar com tabelas do Apache Iceberg usando o Apache Spark, é necessário configurá-las para trabalharem juntas. Há algumas maneiras de definir essas configurações. Primeiro, verás como definir essas configurações por meio ...