book

Apache Iceberg: O guia definitivo

by Tomer Shiran, Jason Hughes, Alex Merced

March 2025

Intermediate to advanced

344 pages

9h 30m

Portuguese (Portugal, Brazil)

O'Reilly Media, Inc.

Read now

Unlock full access

Sobre este livroPorque escrevemos este livroO que vais encontrar no interiorComo utilizar este livroComentários e perguntasConvenções utilizadas neste livroUtilizar exemplos de códigoAprendizagem em linha da O'ReillyComo contactar-nosAgradecimentos
Como chegámos até aqui? Uma breve históriaComponentes fundamentais de um sistema concebido para cargas de trabalho OLAPJuntar tudoO armazém de dadosUma breve históriaPrós e contras de um Data WarehouseO lago de dadosUma breve históriaPrós e contras de um lago de dadosDevo executar a análise num Data Lake ou num Data Warehouse?O armazém de dadosO que é um formato de tabela?Colmeia: O formato original da tabelaFormatos modernos de tabela de lago de dadosO que é o Apache Iceberg?Como surgiu o Apache IcebergA arquitetura do Apache IcebergPrincipais caraterísticas do Apache IcebergConclusão
A camada de dadosFicheiros de dadosEliminar ficheirosA camada de metadadosFicheiros de manifestoListas de manifestosFicheiros de metadadosFicheiros PuffinO catálogoConclusão
Escreve consultas no Apache IcebergCria a tabelaInsere a consultaConsulta de fusãoLê as consultas no Apache IcebergA consulta SELECTA consulta de viagem no tempoConclusão
CompactaçãoCompactação práticaEstratégias de compactaçãoAutomatização da compactaçãoOrdenaçãoOrdem ZPartiçãoParticionamento ocultoEvolução da partiçãoOutras considerações sobre o particionamentoCopiar na escrita versus fundir na leituraCopiar na escritaFundir na leituraConfiguração de COW e MOROutras consideraçõesRecolha de métricasReescrever ManifestosOtimizar o armazenamentoModo de distribuição de escritaConsiderações sobre o armazenamento de objectosFiltros Bloom de ficheiros de dadosConclusão
Requisitos de um catálogo IcebergComparação de catálogosO catálogo HadoopO catálogo da colmeiaO catálogo de cola da AWSO catálogo NessieO catálogo RESTO catálogo JDBCOutros catálogosMigração de catálogoUtilizar o CLI de migração do catálogo do Apache IcebergUtilizar um motorConclusão

ConfiguraçãoConfigurar o Apache Iceberg e o SparkConfiguração dos catálogosIniciando o Spark com todas as configurações (exemplo do AWS Glue)Operações da linguagem de definição de dadosCRIATE TABLEALTER TABLEAltera uma tabela com as extensões Spark SQL do IcebergDROP TABLELeitura de dadosA consulta Selecionar tudoA consulta Filtrar linhasConsultas de agregaçãoUtilizar as funções do WindowsEscrever dadosINSERIR EMMERGE INTOINSERIR SOBRESCREVERDELETE FROMACTUALIZA-TEProcedimentos de manutenção da mesa IcebergExpirar instantâneosReescreve os ficheiros de dadosReescrever ManifestosRemove ficheiros órfãosConclusão
ConfiguraçãoOperações da linguagem de definição de dadosCRIATE TABLEALTER TABLEDROP TABLELeitura de dadosUtilizar a consulta SELECTFiltragem de linhasUtilizar consultas agregadasUtilizar as funções do WindowsEscrever dadosINSERIR EMCOPIAR EMMERGE INTOAPAGARACTUALIZA-TEManutenção da mesa IcebergExpirar instantâneosReescreve os ficheiros de dadosReescrever ManifestosConclusão
ConfiguraçãoCriar uma base de dados de colaConfigurar a tarefa ETL GlueCriar uma tabela usando o Glue Data CatalogLê a tabelaInsere os dadosConclusão
ConfiguraçãoPré-requisitosInicia o Flink Cluster e o Flink SQL ClientOperações da linguagem de definição de dadosCRIAR CATÁLOGOCRIA UMA BASE DE DADOSCRIATE TABLEALTER TABLEDROP TABLELeitura de dadosLeitura em lote de SQL do FlinkFlink SQL Streaming ReadTabela de metadadosEscrever dadosINSERIR EMINSERIR SOBRESCREVERUPSERTFlink DataFrame e Table API com Apache Iceberg TablesPré-requisitosConfigurar a tarefa FlinkIniciando o cluster e compilando o pacoteExecutar o trabalhoConclusão
Tabelas de metadados do Apache IcebergA tabela de metadados do históricoA tabela de metadados metadata_log_entriesA tabela de metadados dos instantâneosA tabela de metadados dos ficheirosA tabela de metadados dos manifestosA tabela de metadados das partiçõesA tabela de metadados all_data_filesA tabela de metadados all_manifestsA tabela de metadados refsA tabela de metadados das entradasUtilização das tabelas de metadados em conjuntoIsolamento de modificações com ramificaçõesRamificação e marcação de tabelasRamificação e marcação de catálogosTransacções multiestáveisReverter alteraçõesReversão no nível da tabelaReversão no nível do catálogoConclusão
Transmissão em fluxo contínuo com o SparkFaz streaming para o Iceberg com o SparkTransmite a partir do Iceberg com o SparkStreaming com FlinkFazendo streaming para o Iceberg com o FlinkExemplo de Streaming no Iceberg com FlinkTransmissão em fluxo contínuo com o Kafka ConnectO Iceberg Kafka SinkTransmissão em fluxo contínuo com a AWSConclusão
Proteger ficheiros de dadosProteger ficheiros: Melhores práticasSistema de ficheiros distribuídos HadoopServiço de armazenamento simples da AmazonArmazenamento do Lago de Dados do AzureGoogle Cloud StorageProteger e governar na camada semânticaMelhores práticas da camada semânticaDremioTrinoProteger e governar ao nível do catálogoNessieTabularCola AWS e formação de lagosConsiderações adicionais sobre segurança e governaçãoConclusão
Considerações sobre a migraçãoPlano de migração no local em três etapasPlano de Shadow Migration em quatro fasesMigrar tabelas do Hive para o Apache IcebergO procedimento de instantâneoO procedimento de migraçãoMigração do Delta Lake para o Apache IcebergMigrar o Apache Hudi para o Apache IcebergMigrar ficheiros individuais para o Apache IcebergUsando o procedimento add_filesMigrar de Delta Lake ou Apache Hudi sem preservar a históriaMigrar de qualquer lugar reescrevendo dadosMigrar dados para uma nova tabela IcebergMigrar dados para uma tabela Iceberg existenteConclusão
Garantindo dados de alta qualidade com Write-Audit-Publish no Apache IcebergWAP utilizando a funcionalidade de ramificação do IcebergExecuta cargas de trabalho de BI no Data LakeColoca os dados brutos no lago de dadosCuradoria de Data Marts virtuais/Produtos de dadosCria uma Reflexão para Acelerar o Nosso DashboardLiga a nossa vista à nossa ferramenta de BIBenefícios da execução de cargas de trabalho de BI no Data LakeImplementar a captura de dados de alterações com o Apache IcebergCria tabelas do Apache IcebergAplicar actualizações dos sistemas operacionaisCria a visualização do log de alterações para capturar alteraçõesMesclar dados modificados na tabela agregadaConclusão

Content preview from Apache Iceberg: O guia definitivo

Capítulo 6. Apache Spark

Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com

Apache Spark destaca-se como um mecanismo de computação distribuída altamente versátil emparelhado com o Apache Iceberg devido ao seu suporte para uma ampla gama de recursos. Aproveitar o Spark e o Iceberg permite-te tirar partido dos benefícios computacionais das capacidades eficientes de organização e gestão de dados do Iceberg. Neste capítulo, exploraremos as etapas necessárias para começar a usar o Apache Iceberg e o Spark, além de analisar alguns recursos críticos. No final deste capítulo, serás capaz de configurar o Apache Iceberg; executar várias operações de Linguagem de Definição de Dados (DDL) (CREATE, ALTER), consultas (SELECT) e operações de Linguagem de Manipulação de Dados (DML) (INSERT, UPDATE, DELETE, MERGE); e gerir tabelas do Iceberg com diferentes motores de processamento.

Configuração

Começaremos discutindo como configurar tabelas e catálogos do Apache Iceberg usando o Spark como mecanismo de computação. A ideia é que te familiarizes com os parâmetros básicos de configuração necessários para trabalhar com o Iceberg e o Spark sem problemas.

Configurar o Apache Iceberg e o Spark

Para começar a trabalhar com tabelas do Apache Iceberg usando o Apache Spark, é necessário configurá-las para trabalharem juntas. Há algumas maneiras de definir essas configurações. Primeiro, verás como definir essas configurações por meio ...