book

Kafka: La guida definitiva, 2a edizione

by Gwen Shapira, Todd Palino, Rajini Sivaram, Krit Petty

April 2025

Intermediate to advanced

488 pages

15h 56m

Italian

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

Chi dovrebbe leggere questo libroConvenzioni utilizzate in questo libroUtilizzo di esempi di codiceFormazione online O'ReillyCome contattarciRingraziamenti
Messaggistica Publish/SubscribeCome iniziaSistemi a coda individualeEntrare in KafkaMessaggi e batchSchemiArgomenti e partizioniProduttori e consumatoriBroker e ClusterCluster multipliPerché Kafka?Produttori multipliConsumatori multipliConservazione su discoScalabilePrestazioni elevateCaratteristiche della piattaformaL'ecosistema dei datiCasi d'usoLe origini di KafkaIl problema di LinkedInLa nascita di KafkaOpen SourceImpegno commercialeIl nomeCome iniziare con Kafka
Impostazione dell'ambienteScegliere un sistema operativoInstallazione di JavaInstallazione di ZooKeeperInstallare un Broker KafkaConfigurazione del BrokerParametri generali del brokerPredefiniti dell'argomentoSelezione dell'hardwareVelocità del discoCapacità del discoMemoriaNetwork+CPUKafka nel CloudMicrosoft AzureAmazon Web ServicesConfigurare i cluster di KafkaQuanti broker?Configurazione del brokerMessa a punto del sistema operativoProblemi di produzioneOpzioni del Garbage CollectorLayout del data centerColocazione delle applicazioni su ZooKeeperSommario
Panoramica dei produttoriCostruire un produttore KafkaInvio di un messaggio a KafkaInviare un messaggio in modo sincronoInviare un messaggio in modo asincronoConfigurazione dei produttoriclient.idacksTempo di consegna del messaggiosoffermarsi.msbuffer.memorycompressione.tipobatch.sizemax.richieste.di.volo.per.connessionemax.request.sizereceive.buffer.bytes e send.buffer.bytesabilitare.idempotenzaSerializzatoriSerializzatori personalizzatiSerializzare con Apache AvroUsare i record Avro con KafkaDivisoriIntestazioniIntercettatoriQuote e strozzatureSommario
Concetti di consumo di KafkaConsumatori e gruppi di consumatoriGruppi di consumatori e riequilibrio della partizioneAppartenenza statica al gruppoCreare un consumatore di KafkaAbbonamento agli argomentiIl ciclo del sondaggioSicurezza del filoConfigurazione dei consumatorifetch.min.bytesfetch.max.wait.msfetch.max.bytesmax.poll.recordsmax.partition.fetch.bytessession.timeout.ms e heartbeat.interval.msmax.poll.interval.msdefault.api.timeout.mstimeout.richiesta.msauto.offset.resetabilita.auto.commitpartizione.assegnazione.strategiaclient.idclient.rackgruppo.istanza.idreceive.buffer.bytes e send.buffer.bytesoffset.conservazione.minutiImpegni e compensazioniImpegno automaticoImpegna l'offset correnteImpegno asincronoCombinare commit sincroni e asincroniImpegnare un offset specificatoRiequilibrare gli ascoltatoriConsumo di record con offset specificiMa come si esce?DeserializzatoriDeserializzatori personalizzatiUtilizzare la deserializzazione Avro con Kafka ConsumerConsumatore autonomo: Perché e come usare un consumatore senza gruppoSommario
Panoramica di AdminClientAPI asincrona ed eventualmente coerenteOpzioniGerarchia piattaNote aggiuntiveCiclo di vita dell'AdminClient: Creazione, configurazione e chiusuraclient.dns.lookuptimeout.richiesta.msGestione degli argomenti essenzialiGestione della configurazioneGestione del gruppo di consumatoriEsplorare i gruppi di consumatoriModifica dei gruppi di consumatoriMetadati del clusterOperazioni amministrative avanzateAggiungere partizioni a un argomentoEliminare i record da un argomentoElezione del leaderRiassegnare le replicheTestRiassunto
Membri del clusterIl controlloreKRaft: Il nuovo controller di Kafka basato su una zatteraReplicaElaborazione della richiestaProdurre RichiesteRichieste di recuperoAltre richiesteArchiviazione fisicaStoccaggio a più livelliAllocazione delle partizioniGestione dei fileFormato del fileIndiciCompattazioneCome funziona la compattazioneEventi cancellatiQuando vengono compattati gli argomenti?Sommario
Garanzie di affidabilitàReplicaConfigurazione del brokerFattore di replicaElezione di un leader non pulitoRepliche minime in sincroniaMantenere le repliche sincronizzatePersistenza su discoUtilizzare i produttori in un sistema affidabileInvia i ringraziamentiConfigurazione dei tentativi del produttoreGestione degli errori aggiuntiviUtilizzare i consumatori in un sistema affidabileImportanti proprietà di configurazione del consumatore per un'elaborazione affidabileImpegnare esplicitamente le compensazioni nei consumatoriConvalida dell'affidabilità del sistemaConvalida della configurazioneConvalida delle applicazioniMonitoraggio dell'affidabilità nella produzioneRiassunto

Produttore IdempotenteCome funziona il Produttore Idempotente?Limitazioni del Produttore IdempotenteCome si usa il produttore Kafka Idempotent?TransazioniCasi d'uso delle transazioniQuali problemi risolvono le transazioni?In che modo le transazioni garantiscono esattamente una volta?Quali problemi non si risolvono con le transazioni?Come si usano le transazioni?ID transazionali e recinzioneCome funzionano le transazioniEsecuzione delle transazioniRiassunto
Considerazioni sulla creazione di pipeline di datiTempestivitàAffidabilitàProduttività elevata e variabileFormati dei datiTrasformazioniSicurezzaGestione dei fallimentiAccoppiamento e AgileQuando utilizzare Kafka Connect rispetto a Producer e ConsumerKafka ConnectEseguire Kafka ConnectEsempio di connettore: Origine file e lavandino fileEsempio di connettore: Da MySQL a ElasticsearchTrasformazioni di un singolo messaggioUno sguardo più approfondito su Kafka ConnectAlternative a Kafka ConnectFramework di ingest per altri datastoreStrumenti ETL basati su GUIFramework di elaborazione dei flussiRiassunto
Casi d'uso del mirroring cross-clusterArchitetture multiclusterAlcune realtà della comunicazione cross-datacenterArchitettura Hub-and-SpokeArchitettura attiva-attivaArchitettura Active-StandbyCluster estensibiliMirrorMaker di Apache KafkaConfigurazione di MirrorMakerTopologia di replica multiclusterProteggere MirrorMakerDistribuzione di MirrorMaker in produzioneMessa a punto di MirrorMakerAltre soluzioni di mirroring cross-clusterUber uReplicatorLinkedIn BrooklinSoluzioni di mirroring cross-datacenter ConfluentSommario
Bloccare KafkaProtocolli di sicurezzaAutenticazioneSSLSASLReautenticazioneAggiornamenti di sicurezza senza interruzioniCrittografiaCrittografia end-to-endAutorizzazioneAclAuthorizerPersonalizzazione dell'autorizzazioneConsiderazioni sulla sicurezzaAuditMettere in sicurezza ZooKeeperSASLSSLAutorizzazioneProteggere la piattaformaProtezione con passwordSommario
Argomento OperazioniCreare un nuovo argomentoElenco di tutti gli argomenti di un clusterDescrivere i dettagli dell'argomentoAggiunta di partizioniRiduzione delle partizioniEliminazione di un argomentoGruppi di consumatoriElenco e descrizione dei gruppiElimina gruppoGestione dell'offsetModifiche alla configurazione dinamicaSuperare i valori predefiniti della configurazione degli argomentiSovrascrivere i valori predefiniti della configurazione del client e dell'utenteSuperare i valori predefiniti della configurazione del brokerDescrivere le sovrascritture di configurazioneRimuovere le sovrascritte di configurazioneProdurre e consumareProduttore di consoleConsole ConsumerGestione delle partizioniElezione della replica preferitaModificare le repliche di una partizioneScarico di segmenti di registroVerifica delle replicheAltri strumentiOperazioni non sicureSpostare il controller del clusterRimuovere gli argomenti da eliminareEliminazione manuale degli argomentiRiassunto
Nozioni di base di metricaDove sono le metriche?Di quali metriche ho bisogno?Controlli sullo stato di salute dell'applicazioneObiettivi a livello di servizioDefinizioni del livello di servizioQuali sono le metriche che rendono buone le SLI?Utilizzo degli SLO nell'avvisoMetriche del broker KafkaDiagnosticare i problemi del clusterL'arte delle partizioni sotto-replicateMetriche del brokerMetriche di argomento e partizioneMonitoraggio della JVMMonitoraggio del sistema operativoRegistrazioneMonitoraggio del clienteMetriche del produttoreMetriche dei consumatoriQuoteMonitoraggio del ritardoMonitoraggio end-to-endRiassunto
Cos'è l'elaborazione dei flussi?Concetti di elaborazione dei flussiTopologiaTempoStatoDualità flusso-tabellaWindowsGaranzie di elaborazioneModelli di progettazione per l'elaborazione dei flussiElaborazione a evento singoloElaborazione con lo Stato localeElaborazione multifase/ripartizioneElaborazione con ricerca esterna: Join tra flussi e tabelleUnioni tabella-tabellaUnisciti allo streamingEventi fuori sequenzaRitrattamentoQuery interattiveEsempi di flussi KafkaConteggio delle paroleStatistiche del mercato azionarioArricchimento ClickStreamKafka Streams: Panoramica dell'architetturaCostruire una topologiaOttimizzare una topologiaTestare una topologiaScalare una topologiaSopravvivere ai fallimentiCasi d'uso dell'elaborazione dei flussiCome scegliere un framework per l'elaborazione dei flussiRiassunto
Installazione su WindowsUtilizzo del sottosistema Windows per LinuxUtilizzo di Java nativoInstallazione su macOSUtilizzo di HomebrewInstallazione manuale
Piattaforme completeDistribuzione e gestione dei clusterMonitoraggio ed esplorazione dei datiBiblioteche clientiElaborazione del flusso

Content preview from Kafka: La guida definitiva, 2a edizione

Capitolo 9. Costruire pipeline di dati

Questo lavoro è stato tradotto utilizzando l'AI. Siamo lieti di ricevere il tuo feedback e i tuoi commenti: translation-feedback@oreilly.com

Quando si parla di costruire pipeline di dati con Apache Kafka, di solito ci si riferisce a un paio di casi d'uso. Il primo è la creazione di una pipeline di dati in cui Apache Kafka è uno dei due punti finali, ad esempio per trasferire i dati da Kafka a S3 o per trasferire i dati da MongoDB a Kafka. Il secondo caso d'uso prevede la creazione di una pipeline tra due sistemi diversi ma utilizzando Kafka come intermediario. Un esempio è quello di ottenere dati da Twitter a Elasticsearch inviando i dati prima da Twitter a Kafka e poi da Kafka a Elasticsearch.

Quando abbiamo aggiunto Kafka Connect ad Apache Kafka nella versione 0.9, è stato dopo aver visto Kafka utilizzato in entrambi i casi d'uso presso LinkedIn e altre grandi organizzazioni. Abbiamo notato che l'integrazione di Kafka nelle pipeline di dati presentava sfide specifiche che ogni organizzazione doveva risolvere e abbiamo deciso di aggiungere a Kafka delle API che risolvessero alcune di queste sfide piuttosto che costringere ogni organizzazione a risolverle da zero.

Il valore principale che Kafka fornisce alle pipeline di dati è la sua capacità di fungere da buffer affidabile e di grandi dimensioni tra le varie fasi della pipeline. In questo modo disaccoppia efficacemente i produttori e i consumatori di dati all'interno della pipeline e permette ...