book

Apache Iceberg: O guia definitivo

by Tomer Shiran, Jason Hughes, Alex Merced

March 2025

Intermediate to advanced

344 pages

9h 30m

Portuguese (Portugal, Brazil)

O'Reilly Media, Inc.

Read now

Unlock full access

Sobre este livroPorque escrevemos este livroO que vais encontrar no interiorComo utilizar este livroComentários e perguntasConvenções utilizadas neste livroUtilizar exemplos de códigoAprendizagem em linha da O'ReillyComo contactar-nosAgradecimentos
Como chegámos até aqui? Uma breve históriaComponentes fundamentais de um sistema concebido para cargas de trabalho OLAPJuntar tudoO armazém de dadosUma breve históriaPrós e contras de um Data WarehouseO lago de dadosUma breve históriaPrós e contras de um lago de dadosDevo executar a análise num Data Lake ou num Data Warehouse?O armazém de dadosO que é um formato de tabela?Colmeia: O formato original da tabelaFormatos modernos de tabela de lago de dadosO que é o Apache Iceberg?Como surgiu o Apache IcebergA arquitetura do Apache IcebergPrincipais caraterísticas do Apache IcebergConclusão
A camada de dadosFicheiros de dadosEliminar ficheirosA camada de metadadosFicheiros de manifestoListas de manifestosFicheiros de metadadosFicheiros PuffinO catálogoConclusão
Escreve consultas no Apache IcebergCria a tabelaInsere a consultaConsulta de fusãoLê as consultas no Apache IcebergA consulta SELECTA consulta de viagem no tempoConclusão
CompactaçãoCompactação práticaEstratégias de compactaçãoAutomatização da compactaçãoOrdenaçãoOrdem ZPartiçãoParticionamento ocultoEvolução da partiçãoOutras considerações sobre o particionamentoCopiar na escrita versus fundir na leituraCopiar na escritaFundir na leituraConfiguração de COW e MOROutras consideraçõesRecolha de métricasReescrever ManifestosOtimizar o armazenamentoModo de distribuição de escritaConsiderações sobre o armazenamento de objectosFiltros Bloom de ficheiros de dadosConclusão
Requisitos de um catálogo IcebergComparação de catálogosO catálogo HadoopO catálogo da colmeiaO catálogo de cola da AWSO catálogo NessieO catálogo RESTO catálogo JDBCOutros catálogosMigração de catálogoUtilizar o CLI de migração do catálogo do Apache IcebergUtilizar um motorConclusão

ConfiguraçãoConfigurar o Apache Iceberg e o SparkConfiguração dos catálogosIniciando o Spark com todas as configurações (exemplo do AWS Glue)Operações da linguagem de definição de dadosCRIATE TABLEALTER TABLEAltera uma tabela com as extensões Spark SQL do IcebergDROP TABLELeitura de dadosA consulta Selecionar tudoA consulta Filtrar linhasConsultas de agregaçãoUtilizar as funções do WindowsEscrever dadosINSERIR EMMERGE INTOINSERIR SOBRESCREVERDELETE FROMACTUALIZA-TEProcedimentos de manutenção da mesa IcebergExpirar instantâneosReescreve os ficheiros de dadosReescrever ManifestosRemove ficheiros órfãosConclusão
ConfiguraçãoOperações da linguagem de definição de dadosCRIATE TABLEALTER TABLEDROP TABLELeitura de dadosUtilizar a consulta SELECTFiltragem de linhasUtilizar consultas agregadasUtilizar as funções do WindowsEscrever dadosINSERIR EMCOPIAR EMMERGE INTOAPAGARACTUALIZA-TEManutenção da mesa IcebergExpirar instantâneosReescreve os ficheiros de dadosReescrever ManifestosConclusão
ConfiguraçãoCriar uma base de dados de colaConfigurar a tarefa ETL GlueCriar uma tabela usando o Glue Data CatalogLê a tabelaInsere os dadosConclusão
ConfiguraçãoPré-requisitosInicia o Flink Cluster e o Flink SQL ClientOperações da linguagem de definição de dadosCRIAR CATÁLOGOCRIA UMA BASE DE DADOSCRIATE TABLEALTER TABLEDROP TABLELeitura de dadosLeitura em lote de SQL do FlinkFlink SQL Streaming ReadTabela de metadadosEscrever dadosINSERIR EMINSERIR SOBRESCREVERUPSERTFlink DataFrame e Table API com Apache Iceberg TablesPré-requisitosConfigurar a tarefa FlinkIniciando o cluster e compilando o pacoteExecutar o trabalhoConclusão
Tabelas de metadados do Apache IcebergA tabela de metadados do históricoA tabela de metadados metadata_log_entriesA tabela de metadados dos instantâneosA tabela de metadados dos ficheirosA tabela de metadados dos manifestosA tabela de metadados das partiçõesA tabela de metadados all_data_filesA tabela de metadados all_manifestsA tabela de metadados refsA tabela de metadados das entradasUtilização das tabelas de metadados em conjuntoIsolamento de modificações com ramificaçõesRamificação e marcação de tabelasRamificação e marcação de catálogosTransacções multiestáveisReverter alteraçõesReversão no nível da tabelaReversão no nível do catálogoConclusão
Transmissão em fluxo contínuo com o SparkFaz streaming para o Iceberg com o SparkTransmite a partir do Iceberg com o SparkStreaming com FlinkFazendo streaming para o Iceberg com o FlinkExemplo de Streaming no Iceberg com FlinkTransmissão em fluxo contínuo com o Kafka ConnectO Iceberg Kafka SinkTransmissão em fluxo contínuo com a AWSConclusão
Proteger ficheiros de dadosProteger ficheiros: Melhores práticasSistema de ficheiros distribuídos HadoopServiço de armazenamento simples da AmazonArmazenamento do Lago de Dados do AzureGoogle Cloud StorageProteger e governar na camada semânticaMelhores práticas da camada semânticaDremioTrinoProteger e governar ao nível do catálogoNessieTabularCola AWS e formação de lagosConsiderações adicionais sobre segurança e governaçãoConclusão
Considerações sobre a migraçãoPlano de migração no local em três etapasPlano de Shadow Migration em quatro fasesMigrar tabelas do Hive para o Apache IcebergO procedimento de instantâneoO procedimento de migraçãoMigração do Delta Lake para o Apache IcebergMigrar o Apache Hudi para o Apache IcebergMigrar ficheiros individuais para o Apache IcebergUsando o procedimento add_filesMigrar de Delta Lake ou Apache Hudi sem preservar a históriaMigrar de qualquer lugar reescrevendo dadosMigrar dados para uma nova tabela IcebergMigrar dados para uma tabela Iceberg existenteConclusão
Garantindo dados de alta qualidade com Write-Audit-Publish no Apache IcebergWAP utilizando a funcionalidade de ramificação do IcebergExecuta cargas de trabalho de BI no Data LakeColoca os dados brutos no lago de dadosCuradoria de Data Marts virtuais/Produtos de dadosCria uma Reflexão para Acelerar o Nosso DashboardLiga a nossa vista à nossa ferramenta de BIBenefícios da execução de cargas de trabalho de BI no Data LakeImplementar a captura de dados de alterações com o Apache IcebergCria tabelas do Apache IcebergAplicar actualizações dos sistemas operacionaisCria a visualização do log de alterações para capturar alteraçõesMesclar dados modificados na tabela agregadaConclusão

Content preview from Apache Iceberg: O guia definitivo

Prefácio de Rick Sears

Os dados tornaram-se uma parte central da criação de aplicações de software modernas e do crescimento de organizações modernas orientadas para os dados. Engenheiros de dados, administradores de dados, analistas de dados e cientistas de dados estão entre os indivíduos nessas organizações que desejam fazer mais uso de seus dados. Muitos destes profissionais de dados optam por criar as suas aplicações orientadas para os dados na Amazon Web Services (AWS), optando frequentemente por armazenar os seus dados num lago de dados baseado no Amazon Simple Storage Service (S3).

Estes clientes podem querer alterar e manipular os seus dados ao longo do tempo, continuando a utilizar os dados enquanto estes estão a mudar e, por isso, constroem as suas aplicações com suporte para tecnologias de data lake transaccionais. O Apache Iceberg é uma tecnologia-chave utilizada pelos clientes da AWS que constroem lagos de dados transaccionais porque é rápida, eficiente e fiável em escala, ao mesmo tempo que oferece integrações simples com estruturas populares de processamento de dados em execução na AWS, como o Apache Spark, o Apache Flink, o Apache Hive, o Presto, o Trino, o Dremio, entre outros, bem como suportada pelos serviços da AWS, como o Amazon EMR, o Amazon Redshift, o Amazon Athena, o AWS Glue, entre outros.

Apache Iceberg: O Guia Definitivo concentra-se em aplicações práticas e cenários úteis para profissionais de dados que utilizam o Apache Iceberg e tem exercícios práticos ...