book

Kafka: O Guia Definitivo, 2ª Edição

by Gwen Shapira, Todd Palino, Rajini Sivaram, Krit Petty

April 2025

Intermediate to advanced

488 pages

15h 37m

Portuguese (Portugal, Brazil)

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

Quem deve ler este livroConvenções utilizadas neste livroUtilizar exemplos de códigoAprendizagem em linha da O'ReillyComo contactar-nosAgradecimentos
Mensagens de publicação/assinaturaComo começaSistemas individuais de filas de esperaEntra em KafkaMensagens e lotesEsquemasTópicos e partiçõesProdutores e consumidoresCorretores e clustersVários clustersPorquê Kafka?Vários produtoresConsumidores múltiplosRetenção baseada em discoEscalávelAlto desempenhoCaraterísticas da plataformaO ecossistema de dadosCasos de utilizaçãoA origem de KafkaO problema do LinkedInO nascimento de KafkaCódigo abertoCompromisso comercialO nomeComeça a utilizar o Kafka
Configuração do ambienteEscolher um sistema operativoInstalar o JavaInstalar o ZooKeeperInstalar um corretor KafkaConfigurar o BrokerParâmetros gerais do BrokerPredefinições de tópicosSeleção de hardwareRendimento do discoCapacidade do discoMemóriaNetwork+CPUKafka na CloudMicrosoft AzureAmazon Web ServicesConfigurar clusters do KafkaQuantos corretores?Configuração do BrokerAfinação do SOPreocupações com a produçãoOpções do coletor de lixoDisposição do centro de dadosColocação de aplicações no ZooKeeperResumo
Visão geral do produtorConstruir um Produtor KafkaEnviar uma mensagem para o KafkaEnviar uma mensagem de forma síncronaEnviar uma mensagem de forma assíncronaConfiguração de produtorescliente.idacksTempo de entrega da mensagemdemora.msbuffer.memorycompressão.tipotamanho do lotemax.in.flight.requests.per.connectiontamanho.máximo.do.pedidorecebe.buffer.bytes e envia.buffer.bytesativa.idempotênciaSerializadoresSerializadores personalizadosSerializando usando o Apache AvroUtilizar registos Avro com o KafkaDivisóriasCabeçalhosInterceptoresQuotas e estrangulamentoResumo
Conceitos de consumidor KafkaConsumidores e grupos de consumidoresGrupos de consumidores e reequilíbrio da partilhaAssociação de grupos estáticosCriar um consumidor KafkaSubscrição de tópicosO ciclo da sondagemSegurança da threadConfiguração de consumidoresbusca.min.bytesbusca.max.wait.msbusca.max.bytesmax.poll.recordsmax.partition.fetch.bytessession.timeout.ms e heartbeat.interval.msmax.poll.interval.msdefault.api.timeout.msrequest.timeout.msauto.offset.resetativar.auto.commitpartição.atribuição.estratégiacliente.idcliente.rackgroup.instance.idrecebe.buffer.bytes e envia.buffer.bytescompensações.retenção.minutosCompromissos e compensaçõesCompromisso automáticoCommit Current OffsetCompromisso assíncronoCombinação de commits síncronos e assíncronosComprometer um desvio especificadoReequilibra os ouvintesConsumo de registos com desvios específicosMas como é que saímos?DeserializadoresDeserializadores personalizadosUtiliza a desserialização Avro com o consumidor KafkaConsumidor autónomo: Porquê e como utilizar um consumidor sem um grupoResumo
Visão geral do AdminClientAPI assíncrona e eventualmente consistenteOpçõesHierarquia planaNotas adicionaisCiclo de vida do AdminClient: Criação, configuração e encerramentocliente.dns.lookuprequest.timeout.msGestão de tópicos essenciaisGestão da configuraçãoGestão de grupos de consumidoresExplorar os grupos de consumidoresModificação de grupos de consumidoresMetadados do clusterOperações administrativas avançadasAdicionar partições a um tópicoEliminar registos de um tópicoEleição do líderReatribuição de réplicasTestesResumo
Membro do clusterO controladorKRaft: O novo controlador baseado em jangadas da KafkaReplicaçãoProcessamento de pedidosProduzir pedidosPedidos de buscaOutros pedidosArmazenamento físicoArmazenamento em camadasAtribuição de partiçõesGestão de ficheirosFormato do ficheiroÍndicesCompactaçãoComo funciona a compactaçãoEventos eliminadosQuando é que os tópicos são compactados?Resumo
Garantias de fiabilidadeReplicaçãoConfiguração do BrokerFator de replicaçãoEleição do líder impuroMínimo de réplicas em sincroniaMantendo as réplicas sincronizadasPersistindo no discoUtilização de produtores num sistema fiávelEnviar agradecimentosConfiguração das tentativas do produtorTratamento adicional de errosUtilizar os consumidores num sistema fiávelPropriedades importantes de configuração do consumidor para um processamento fiávelCompromisso explícito de compensações nos consumidoresValidação da fiabilidade do sistemaValidação da configuraçãoValidação de aplicaçõesMonitorização da fiabilidade na produçãoResumo

Produtor idempotenteComo é que o Produtor Idempotente funciona?Limitações do Produtor IdempotenteComo é que utilizo o Produtor Idempotente Kafka?TransacçõesCasos de utilização de transacçõesQue problemas é que as transacções resolvem?Como é que as transacções garantem exatamente uma vez?Que problemas não são resolvidos pelas transacções?Como é que utilizo as transacções?IDs transaccionais e vedaçãoComo funcionam as transacçõesRealização de transacçõesResumo
Considerações sobre a criação de pipelines de dadosPontualidadeFiabilidadeRendimento elevado e variávelFormatos de dadosTransformaçõesSegurançaTratamento de falhasAcoplamento e AgileQuando utilizar o Kafka Connect em vez do Produtor e do ConsumidorLiga-te ao KafkaExecutar o Kafka ConnectExemplo de conetor: Fonte de ficheiro e sumidouro de ficheiroExemplo de conetor: MySQL para ElasticsearchTransformações de mensagem únicaVê melhor o Kafka ConnectAlternativas ao Kafka ConnectEstruturas de ingestão para outros armazenamentos de dadosFerramentas ETL baseadas em GUIEstruturas de processamento de fluxoResumo
Casos de uso de espelhamento entre clustersArquitecturas multiclusterAlgumas realidades da comunicação entre centros de dadosArquitetura Hub-and-SpokeArquitetura Ativo-AtivoArquitetura ativa-em esperaClusters de estiramentoMirrorMaker do Apache KafkaConfigurando o MirrorMakerTopologia de replicação multiclusterProtegendo o MirrorMakerImplementando o MirrorMaker na produçãoAfinação do MirrorMakerOutras soluções de espelhamento entre clustersUber uReplicatorLinkedIn BrooklinSoluções Confluent de espelhamento entre centros de dadosResumo
Bloquear o KafkaProtocolos de segurançaAutenticaçãoSSLSASLReautenticaçãoAtualizações de segurança sem tempo de inatividadeEncriptaçãoEncriptação de ponta a pontaAutorizaçãoAclAuthorizerPersonalização da autorizaçãoConsiderações sobre segurançaAuditoriaProtegendo o ZooKeeperSASLSSLAutorizaçãoProteger a plataformaProteção por palavra-passeResumo
Tópico OperaçõesCriar um novo tópicoListagem de todos os tópicos de um clusterDescrever os pormenores do tópicoAdicionar partiçõesReduzir as divisóriasEliminar um tópicoGrupos de consumidoresEnumera e descreve gruposEliminar grupoGestão de compensaçõesAlterações de configuração dinâmicaSubstituir as predefinições de configuração de tópicosSubstituir as predefinições de configuração do cliente e do utilizadorSubstituir as predefinições de configuração do BrokerDescrição das substituições de configuraçãoRemoção de substituições de configuraçãoProduzir e consumirProdutor de consolasConsola do consumidorGestão de partiçõesEleição da réplica preferidaAlterando as réplicas de uma partiçãoDespejar segmentos de logVerificação de réplicasOutras ferramentasOperações insegurasMover o controlador de clusterRemoção de tópicos a serem eliminadosEliminar tópicos manualmenteResumo
Noções básicas do sistema métricoOnde estão as métricas?De que métricas preciso?Verificações de integridade da aplicaçãoObjectivos ao nível do serviçoDefinições do nível de serviçoQuais são as métricas que fazem bons SLIs?Usando SLOs em alertasMétricas do corretor KafkaDiagnosticar problemas do clusterA arte das partições pouco replicadasMétricas do corretorMétricas de tópico e de partiçãoMonitorização da JVMMonitorização do SORegistoMonitorização de clientesMétricas do produtorMétricas de consumoQuotasMonitorização de atrasosMonitorização de ponta a pontaResumo
O que é o processamento de fluxo?Conceitos de processamento de fluxoTopologiaTempoEstadoDualidade entre fluxo e tabelaJanelas de tempoGarantias de processamentoPadrões de design de processamento de fluxoProcessamento de evento únicoProcessamento com o Estado localProcessamento/Repartição multifásicaProcessamento com pesquisa externa: União de tabelas de fluxoUnião de tabela a tabelaStreaming Junta-teEventos fora de seqüênciaReprocessamentoConsultas interactivasExemplos de fluxos do KafkaContagem de palavrasEstatísticas da bolsa de valoresEnriquecimento ClickStreamKafka Streams: Visão geral da arquiteturaConstruir uma topologiaOtimizar uma topologiaTestar uma topologiaDimensionamento de uma topologiaSobreviver aos fracassosCasos de uso de processamento de fluxoComo escolher uma estrutura de processamento de fluxoResumo
Instalar no WindowsUtiliza o subsistema Windows para LinuxUtilizar Java nativoInstalar no macOSUtilizar o HomebrewInstalar manualmente
Plataformas abrangentesImplementação e gestão de clustersMonitorização e exploração de dadosBibliotecas de clientesProcessamento de fluxos

Content preview from Kafka: O Guia Definitivo, 2ª Edição

Capítulo 9. Criar pipelines de dados

Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com

Quando as pessoas discutem a criação de pipelines de dados usando o Apache Kafka, geralmente estão se referindo a alguns casos de uso. O primeiro é a construção de um pipeline de dados em que o Apache Kafka é um dos dois pontos finais - por exemplo, obter dados do Kafka para o S3 ou obter dados do MongoDB para o Kafka. O segundo caso de uso envolve a construção de um pipeline entre dois sistemas diferentes, mas usando o Kafka como intermediário. Um exemplo disso é obter dados do Twitter para o Elasticsearch, enviando os dados primeiro do Twitter para o Kafka e depois do Kafka para o Elasticsearch.

Quando adicionámos o Kafka Connect ao Apache Kafka na versão 0.9, foi depois de vermos o Kafka ser utilizado em ambos os casos de utilização no LinkedIn e noutras grandes organizações. Percebemos que havia desafios específicos na integração do Kafka em pipelines de dados que cada organização tinha de resolver e decidimos adicionar APIs ao Kafka que resolvessem alguns desses desafios, em vez de forçar cada organização a descobri-los do zero.

O principal valor que o Kafka fornece aos pipelines de dados é a sua capacidade de servir como um buffer muito grande e fiável entre várias fases do pipeline. Isso efetivamente desacopla produtores e consumidores de dados dentro do pipeline e permite o uso dos mesmos dados da fonte em vários aplicativos ...