book

Apache Iceberg: O guia definitivo

by Tomer Shiran, Jason Hughes, Alex Merced

March 2025

Intermediate to advanced

344 pages

9h 30m

Portuguese (Portugal, Brazil)

O'Reilly Media, Inc.

Read now

Unlock full access

Sobre este livroPorque escrevemos este livroO que vais encontrar no interiorComo utilizar este livroComentários e perguntasConvenções utilizadas neste livroUtilizar exemplos de códigoAprendizagem em linha da O'ReillyComo contactar-nosAgradecimentos
Como chegámos até aqui? Uma breve históriaComponentes fundamentais de um sistema concebido para cargas de trabalho OLAPJuntar tudoO armazém de dadosUma breve históriaPrós e contras de um Data WarehouseO lago de dadosUma breve históriaPrós e contras de um lago de dadosDevo executar a análise num Data Lake ou num Data Warehouse?O armazém de dadosO que é um formato de tabela?Colmeia: O formato original da tabelaFormatos modernos de tabela de lago de dadosO que é o Apache Iceberg?Como surgiu o Apache IcebergA arquitetura do Apache IcebergPrincipais caraterísticas do Apache IcebergConclusão
A camada de dadosFicheiros de dadosEliminar ficheirosA camada de metadadosFicheiros de manifestoListas de manifestosFicheiros de metadadosFicheiros PuffinO catálogoConclusão
Escreve consultas no Apache IcebergCria a tabelaInsere a consultaConsulta de fusãoLê as consultas no Apache IcebergA consulta SELECTA consulta de viagem no tempoConclusão
CompactaçãoCompactação práticaEstratégias de compactaçãoAutomatização da compactaçãoOrdenaçãoOrdem ZPartiçãoParticionamento ocultoEvolução da partiçãoOutras considerações sobre o particionamentoCopiar na escrita versus fundir na leituraCopiar na escritaFundir na leituraConfiguração de COW e MOROutras consideraçõesRecolha de métricasReescrever ManifestosOtimizar o armazenamentoModo de distribuição de escritaConsiderações sobre o armazenamento de objectosFiltros Bloom de ficheiros de dadosConclusão
Requisitos de um catálogo IcebergComparação de catálogosO catálogo HadoopO catálogo da colmeiaO catálogo de cola da AWSO catálogo NessieO catálogo RESTO catálogo JDBCOutros catálogosMigração de catálogoUtilizar o CLI de migração do catálogo do Apache IcebergUtilizar um motorConclusão

ConfiguraçãoConfigurar o Apache Iceberg e o SparkConfiguração dos catálogosIniciando o Spark com todas as configurações (exemplo do AWS Glue)Operações da linguagem de definição de dadosCRIATE TABLEALTER TABLEAltera uma tabela com as extensões Spark SQL do IcebergDROP TABLELeitura de dadosA consulta Selecionar tudoA consulta Filtrar linhasConsultas de agregaçãoUtilizar as funções do WindowsEscrever dadosINSERIR EMMERGE INTOINSERIR SOBRESCREVERDELETE FROMACTUALIZA-TEProcedimentos de manutenção da mesa IcebergExpirar instantâneosReescreve os ficheiros de dadosReescrever ManifestosRemove ficheiros órfãosConclusão
ConfiguraçãoOperações da linguagem de definição de dadosCRIATE TABLEALTER TABLEDROP TABLELeitura de dadosUtilizar a consulta SELECTFiltragem de linhasUtilizar consultas agregadasUtilizar as funções do WindowsEscrever dadosINSERIR EMCOPIAR EMMERGE INTOAPAGARACTUALIZA-TEManutenção da mesa IcebergExpirar instantâneosReescreve os ficheiros de dadosReescrever ManifestosConclusão
ConfiguraçãoCriar uma base de dados de colaConfigurar a tarefa ETL GlueCriar uma tabela usando o Glue Data CatalogLê a tabelaInsere os dadosConclusão
ConfiguraçãoPré-requisitosInicia o Flink Cluster e o Flink SQL ClientOperações da linguagem de definição de dadosCRIAR CATÁLOGOCRIA UMA BASE DE DADOSCRIATE TABLEALTER TABLEDROP TABLELeitura de dadosLeitura em lote de SQL do FlinkFlink SQL Streaming ReadTabela de metadadosEscrever dadosINSERIR EMINSERIR SOBRESCREVERUPSERTFlink DataFrame e Table API com Apache Iceberg TablesPré-requisitosConfigurar a tarefa FlinkIniciando o cluster e compilando o pacoteExecutar o trabalhoConclusão
Tabelas de metadados do Apache IcebergA tabela de metadados do históricoA tabela de metadados metadata_log_entriesA tabela de metadados dos instantâneosA tabela de metadados dos ficheirosA tabela de metadados dos manifestosA tabela de metadados das partiçõesA tabela de metadados all_data_filesA tabela de metadados all_manifestsA tabela de metadados refsA tabela de metadados das entradasUtilização das tabelas de metadados em conjuntoIsolamento de modificações com ramificaçõesRamificação e marcação de tabelasRamificação e marcação de catálogosTransacções multiestáveisReverter alteraçõesReversão no nível da tabelaReversão no nível do catálogoConclusão
Transmissão em fluxo contínuo com o SparkFaz streaming para o Iceberg com o SparkTransmite a partir do Iceberg com o SparkStreaming com FlinkFazendo streaming para o Iceberg com o FlinkExemplo de Streaming no Iceberg com FlinkTransmissão em fluxo contínuo com o Kafka ConnectO Iceberg Kafka SinkTransmissão em fluxo contínuo com a AWSConclusão
Proteger ficheiros de dadosProteger ficheiros: Melhores práticasSistema de ficheiros distribuídos HadoopServiço de armazenamento simples da AmazonArmazenamento do Lago de Dados do AzureGoogle Cloud StorageProteger e governar na camada semânticaMelhores práticas da camada semânticaDremioTrinoProteger e governar ao nível do catálogoNessieTabularCola AWS e formação de lagosConsiderações adicionais sobre segurança e governaçãoConclusão
Considerações sobre a migraçãoPlano de migração no local em três etapasPlano de Shadow Migration em quatro fasesMigrar tabelas do Hive para o Apache IcebergO procedimento de instantâneoO procedimento de migraçãoMigração do Delta Lake para o Apache IcebergMigrar o Apache Hudi para o Apache IcebergMigrar ficheiros individuais para o Apache IcebergUsando o procedimento add_filesMigrar de Delta Lake ou Apache Hudi sem preservar a históriaMigrar de qualquer lugar reescrevendo dadosMigrar dados para uma nova tabela IcebergMigrar dados para uma tabela Iceberg existenteConclusão
Garantindo dados de alta qualidade com Write-Audit-Publish no Apache IcebergWAP utilizando a funcionalidade de ramificação do IcebergExecuta cargas de trabalho de BI no Data LakeColoca os dados brutos no lago de dadosCuradoria de Data Marts virtuais/Produtos de dadosCria uma Reflexão para Acelerar o Nosso DashboardLiga a nossa vista à nossa ferramenta de BIBenefícios da execução de cargas de trabalho de BI no Data LakeImplementar a captura de dados de alterações com o Apache IcebergCria tabelas do Apache IcebergAplicar actualizações dos sistemas operacionaisCria a visualização do log de alterações para capturar alteraçõesMesclar dados modificados na tabela agregadaConclusão

Overview

Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com

Os padrões tradicionais de arquitetura de dados são muito limitados. Para utilizar estes padrões, tem de ETL os dados para cada ferramenta - um processo de custo proibitivo para tornar as funcionalidades do armazém disponíveis para todos os seus dados. A falta de flexibilidade destes padrões obriga-o a ficar preso a um conjunto de ferramentas e formatos prioritários, o que cria silos de dados e desvios de dados. Este livro prático mostra-te uma forma melhor.

O Apache Iceberg fornece os recursos, o desempenho, a escalabilidade e a economia que cumprem a promessa de um lago de dados aberto. Seguindo as lições deste livro, poderás obter análises interactivas, em lote, de aprendizagem automática e de fluxo contínuo com este formato de código aberto de elevado desempenho. Os autores Tomer Shiran, Jason Hughes e Alex Merced, da Dremio, mostram-te como começar a utilizar o Iceberg.

Com este livro, aprenderás:

A arquitetura das tabelas do Apache Iceberg
O que acontece nos bastidores quando realizas operações em tabelas Iceberg
Como otimizar ainda mais as tabelas Iceberg para obter o máximo desempenho
Como utilizar o Iceberg com motores de dados populares, como o Apache Spark, o Apache Flink e o Dremio

Descobre porque é que o Apache Iceberg é uma tecnologia fundamental para a implementação de um lago de dados abertos.

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Publisher Resources

ISBN: 9798341637436Supplemental Content

Apache Iceberg: O guia definitivo

by Tomer Shiran, Jason Hughes, Alex Merced

Overview

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

Snowflake: O Guia Definitivo

Cassandra: O Guia Definitivo, (Revisto) Terceira Edição, 3ª Edição

Trino: O Guia Definitivo, 2ª Edição

Engenharia de IA

Publisher Resources

Overview

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

Snowflake: O Guia Definitivo

Cassandra: O Guia Definitivo, (Revisto) Terceira Edição, 3ª Edição

Trino: O Guia Definitivo, 2ª Edição

Engenharia de IA

Publisher Resources

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.