book

Elaborazione di flussi con Apache Flink

Name: Elaborazione di flussi con Apache Flink
ISBN: 9798341644052

by Fabian Hueske, Vasiliki Kalavri

April 2025

Intermediate to advanced

310 pages

9h 20m

Italian

O'Reilly Media, Inc.

Read now

Unlock full access

Prefazione
Cosa imparerai in questo libroConvenzioni utilizzate in questo libroUtilizzo di esempi di codiceFormazione online O'ReillyCome contattarciRingraziamenti
1. Introduzione all'elaborazione statica dei flussi
Infrastrutture dati tradizionaliElaborazione transazionaleElaborazione analiticaElaborazione di flussi staticiApplicazioni guidate dagli eventiPipeline di datiAnalisi dello streamingL'evoluzione dell'elaborazione dei flussi open sourceUn po' di storiaUno sguardo veloce a FlinkEsegui la tua prima applicazione FlinkSommario
2. Fondamenti di elaborazione dei flussi
Introduzione alla programmazione DataflowGrafici del flusso di datiParallelismo dei dati e parallelismo dei taskStrategie di scambio datiElaborazione di flussi in paralleloLatenza e throughputOperazioni sui flussi di datiSemantica del tempoCosa significa un minuto nell'elaborazione dei flussi?Tempo di elaborazioneOra dell'eventoFiligraneTempo di elaborazione rispetto al tempo dell'eventoModelli di stato e di coerenzaFallimenti delle attivitàGaranzie di risultatoSommario
3. L'architettura di Apache Flink
Architettura del sistemaComponenti di un setup FlinkDistribuzione delle applicazioniEsecuzione delle attivitàConfigurazione altamente disponibileTrasferimento dei dati in FlinkControllo del flusso basato sul creditoConcatenamento di attivitàElaborazione a tempo di eventoTimestampFiligranePropagazione del watermark e tempo dell'eventoAssegnazione del timestamp e generazione del watermarkGestione dello StatoStato dell'operatoreStato con chiaveBackend di StatoScalare gli operatori StatefulCheckpoint, savepoint e ripristino dello statoPunti di controllo coerentiRipristino da un punto di controllo coerenteAlgoritmo di Checkpointing di FlinkImplicazioni di performance del checkpointPunti di salvataggioRiassunto
4. Impostazione di un ambiente di sviluppo per Apache Flink
Software necessarioEseguire e debuggare le applicazioni Flink in un IDEImportare gli esempi del libro in un IDEEseguire le applicazioni Flink in un IDEDebug delle applicazioni Flink in un IDEBootstrap di un progetto Flink MavenRiassunto
5. L'API DataStream (v1.7)
Ciao, Flink!Imposta l'ambiente di esecuzioneLeggere un flusso di ingressoApplicare le trasformazioniEmettere il risultatoEseguireTrasformazioniTrasformazioni di baseTrasformazioni KeyedStreamTrasformazioni multistreamTrasformazioni di distribuzioneImpostazione del parallelismoTipiTipi di dati supportatiCreare informazioni sul tipo per i tipi di datiFornire esplicitamente informazioni sul tipoDefinire le chiavi e referenziare i campiPosizioni sul campoEspressioni di campoSelezionatori di tastiImplementazione delle funzioniClassi di funzioniFunzioni LambdaFunzioni riccheIncludere le dipendenze esterne e di FlinkRiassunto
6. Operatori a tempo e a Windows
Configurazione delle caratteristiche temporaliAssegnazione di timestamp e generazione di filigraneFiligrana, latenza e completezzaFunzioni di processoTimerService e timerEmissione verso le uscite lateraliFunzione di co-processoOperatori di WindowsDefinizione degli operatori di WindowsAssegnatori di finestre integratiApplicazione delle funzioni su WindowsPersonalizzazione degli operatori di WindowsUnirsi ai flussi in tempoIntervallo di unioneWindows JoinGestione dei dati in ritardoEliminazione degli eventi in ritardoReindirizzare gli eventi in ritardoAggiornare i risultati includendo gli eventi tardiviSommario
7. Operatori e applicazioni stateful
Implementazione di funzioni staticheDichiarare lo stato con chiave al RuntimeContextImplementazione dello stato della lista degli operatori con l'interfaccia ListCheckpointedUtilizzo dello stato di trasmissione connessoUsare l'interfaccia CheckpointedFunctionRicevere le notifiche sui punti di controllo completatiAbilitare il recupero dei guasti per le applicazioni StatefulGarantire la manutenibilità delle applicazioni staticheSpecificare gli identificatori univoci dell'operatoreDefinire il massimo parallelismo degli operatori di stato a chiavePrestazioni e robustezza delle applicazioni statefulScegliere un Backend di StatoScegliere una primitiva di statoPrevenire le perdite di statoEvoluzione delle applicazioni StatefulAggiornare un'applicazione senza modificare lo stato esistenteRimuovere lo stato da un'applicazioneModificare lo stato di un operatoreStato interrogabileArchitettura e abilitazione dello stato interrogabileEsporre lo stato interrogabileQuery sullo stato da applicazioni esterneSommario
8. Leggere da e scrivere su sistemi esterni
Garanzie di coerenza dell'applicazioneScrive IdempotenteScritture transazionaliConnettori fornitiConnettore sorgente di Apache KafkaConnettore sink di Apache KafkaConnettore sorgente del filesystemConnettore di scarico del filesystemConnettore lavello di Apache CassandraImplementare una funzione sorgente personalizzataFunzioni della sorgente ripristinabileFunzioni sorgente, timestamp e watermarkImplementare una funzione di lavandino personalizzataConnettori lavello idempotentiConnettori transazionali di lavanderiaAccesso asincrono a sistemi esterniSommario
9. Impostazione di Flink per le applicazioni di streaming
Modalità di distribuzioneCluster standaloneDockerApache Hadoop YARNKubernetesSetup altamente disponibiliConfigurazione HA StandaloneConfigurazione HA YARNConfigurazione HA KubernetesIntegrazione con i componenti di HadoopConfigurazione del filesystemConfigurazione del sistemaJava e il caricamento delle classiCPUMemoria principale e buffer di reteArchiviazione su discoCheckpointing e backend di statoSicurezzaRiassunto

10. Funzionamento di Flink e delle applicazioni di streaming
Esecuzione e gestione delle applicazioni di streamingPunti di salvataggioGestione delle applicazioni con il client della riga di comandoGestione delle applicazioni con l'API RESTImpacchettare e distribuire le applicazioni nei containerControllare la programmazione delle attivitàControllo del concatenamento dei taskDefinire i gruppi di condivisione degli slotMessa a punto del checkpoint e del ripristinoConfigurare il checkpointConfigurare i backend di statoConfigurazione del recuperoMonitoraggio dei cluster e delle applicazioni FlinkInterfaccia web di FlinkSistema metricoMonitoraggio della latenzaConfigurazione del comportamento di registrazioneRiassunto
11. Dove andare da qui?
Il resto dell'ecosistema FlinkL'API DataSet per l'elaborazione batchAPI delle tabelle e SQL per l'analisi relazionaleFlinkCEP per l'elaborazione di eventi complessi e il pattern matchingGelly per l'elaborazione dei graficiUna comunità accogliente
Indice

Content preview from Elaborazione di flussi con Apache Flink

Capitolo 8. Leggere da e scrivere su sistemi esterni

Questo lavoro è stato tradotto utilizzando l'AI. Siamo lieti di ricevere il tuo feedback e i tuoi commenti: translation-feedback@oreilly.com

I dati possono essere memorizzati in molti sistemi diversi, come filesystem, object store, database relazionali, key-value store, indici di ricerca, log di eventi, code di messaggi e così via. Ciascuna classe di sistemi è stata progettata per specifici modelli di accesso ed eccelle nel servire un determinato scopo. Di conseguenza, le infrastrutture di dati di oggi sono spesso composte da molti sistemi di archiviazione diversi. Prima di aggiungere un nuovo componente al mix, è logico chiedersi: "Come funziona con gli altri componenti del mio stack?".

L'aggiunta di un sistema di elaborazione dati, come Apache Flink, richiede un'attenta considerazione perché non include un proprio livello di archiviazione ma si affida a sistemi di archiviazione esterni per l'inserimento e la persistenza dei dati. Per questo motivo, è importante che i processori di dati come Flink forniscano una libreria ben fornita di connettori per leggere i dati da e scrivere i dati su sistemi esterni, nonché un'API per implementare connettori personalizzati. Tuttavia, la semplice capacità di leggere o scrivere dati su datastore esterni non è sufficiente per uno stream processor che voglia fornire garanzie di coerenza significative in caso di guasto.

In questo capitolo discutiamo di come i connettori source e sink influenzino ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Deep Learning per programmatori con fastai e PyTorch

Publisher Resources

ISBN: 9798341644052

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Elaborazione di flussi con Apache Flink

by Fabian Hueske, Vasiliki Kalavri

Capitolo 8. Leggere da e scrivere su sistemi esterni

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.