book

Traitement des flux avec Apache Flink

Name: Traitement des flux avec Apache Flink
ISBN: 9798341618022

by Fabian Hueske, Vasiliki Kalavri

November 2024

Intermediate to advanced

310 pages

9h 48m

French

O'Reilly Media, Inc.

Read now

Unlock full access

Préface
Ce que tu apprendras dans ce livreConventions utilisées dans ce livreUtiliser des exemples de codeApprentissage en ligne O'ReillyComment nous contacterRemerciements
1. Introduction au traitement des flux avec état
Infrastructures de données traditionnellesTraitement transactionnelTraitement analytiqueTraitement des flux avec étatApplications pilotées par les événementsPipelines de donnéesAnalyse de la diffusion en continuL'évolution du traitement des flux Open SourceUn peu d'histoireUn coup d'œil sur FlinkExécute ta première application FlinkRésumé
2. Principes de base du traitement des flux
Introduction à la programmation par flux de donnéesGraphiques de flux de donnéesParallélisme des données et parallélisme des tâchesStratégies d'échange de donnéesTraitement des flux en parallèleTemps de latence et débitOpérations sur les flux de donnéesSémantique du tempsQue signifie une minute dans le traitement en continu ?Délai de traitementHeure de l'événementFiligranesTemps de traitement par rapport au temps de l'événementModèles d'état et de cohérenceÉchec des tâchesGaranties de résultatsRésumé
3. L'architecture d'Apache Flink
Architecture du systèmeComposants d'une configuration FlinkDéploiement de l'applicationExécution des tâchesConfiguration hautement disponibleTransfert de données dans FlinkContrôle de flux basé sur le créditEnchaînement de tâchesTraitement des événementsHorodatageFiligranesPropagation du filigrane et durée de l'événementAttribution d'un horodatage et génération d'un filigraneGestion de l'ÉtatÉtat de l'opérateurÉtat de la cléBackends de l'ÉtatMise à l'échelle des opérateurs d'étatPoints de contrôle, points de sauvegarde et récupération d'étatPoints de contrôle cohérentsRécupération à partir d'un point de contrôle cohérentAlgorithme de point de contrôle de FlinkImplications de la vérification des performancesPoints de sauvegardeRésumé
4. Mise en place d'un environnement de développement pour Apache Flink.
Logiciel requisExécuter et déboguer les applications Flink dans un IDEImporte les exemples du livre dans un IDEExécuter les applications Flink dans un IDEDéboguer les applications Flink dans un IDEBootstrap un projet Maven FlinkRésumé
5. L'API DataStream (v1.7)
Bonjour, Flink !Configurer l'environnement d'exécutionLire un flux d'entréeAppliquer des transformationsProduis le résultatExécuterTransformationsTransformations de baseTransformations KeyedStreamTransformations à flux multiplesTransformations de la distributionRéglage du parallélismeTypesTypes de données pris en chargeCréation d'informations sur les types de donnéesFournir explicitement des informations sur le typeDéfinir des clés et référencer des champsPostes sur le terrainExpressions de terrainSélecteurs de touchesFonctions de mise en œuvreClasses de fonctionsFonctions LambdaDes fonctions richesInclure les dépendances externes et les dépendances FlinkRésumé
6. Opérateurs temporels et opérateurs de fenêtre
Configuration des caractéristiques temporellesAttribuer des horodatages et générer des filigranesFiligranes, latence et exhaustivitéFonctions du processusTimerService et TimersÉmettre vers les sorties latéralesCoProcessFunctionOpérateurs de fenêtresDéfinition des opérateurs de fenêtreAffecteurs de fenêtres intégrésAppliquer des fonctions sur WindowsPersonnalisation des opérateurs de fenêtresRejoindre les cours d'eau à tempsIntervalle de jointureJointes à la fenêtreTraitement des données tardivesAbandonner les événements tardifsRedirection des événements tardifsMise à jour des résultats en incluant les événements tardifsRésumé
7. Opérateurs avec état et applications
Implémentation des fonctions avec étatDéclaration d'un état clé dans le contexte d'exécution (RuntimeContext)Implémentation de l'état de la liste des opérateurs avec l'interface ListCheckpointedUtilisation de l'état de diffusion connectéUtilisation de l'interface CheckpointedFunctionRecevoir des notifications sur les points de contrôle terminésActivation de la reprise après défaillance pour les applications avec étatAssurer la maintenabilité des applications avec étatSpécifier des identifiants uniques pour les opérateursDéfinir le parallélisme maximal des opérateurs d'état à cléPerformance et robustesse des applications avec étatChoisir un backend d'ÉtatChoisir une primitive d'étatPrévenir les fuites d'eauÉvolution des applications avec étatMise à jour d'une application sans modification de l'état existantSupprimer l'état d'une applicationModifier l'état d'un opérateurÉtat interrogeableArchitecture et mise en place d'un état interrogeableExposer l'état interrogeableInterroger l'état des applications externesRésumé
8. Lire et écrire dans des systèmes externes
Garanties de cohérence des applicationsIdempotent écritEcritures transactionnellesConnecteurs fournisConnecteur de source Apache KafkaConnecteur de puits Apache KafkaConnecteur de source de système de fichiersConnecteur de puits de système de fichiersConnecteur d'évier Apache CassandraImplémentation d'une fonction source personnaliséeFonctions de la source réinitialisableFonctions sources, horodatages et filigranesImplémentation d'une fonction d'évier personnaliséeConnecteurs de puits idempotentsConnecteurs de puits transactionnelsAccès asynchrone à des systèmes externesRésumé
9. Configurer Flink pour les applications de diffusion en continu
Modes de déploiementGrappe autonomeDockerApache Hadoop YARNKubernetesConfigurations hautement disponiblesConfiguration autonome HAConfiguration de HA YARNConfiguration de Kubernetes HAIntégration avec les composants HadoopConfiguration du système de fichiersConfiguration du systèmeJava et le chargement des classesUNITÉ CENTRALEMémoire principale et tampons de réseauStockage sur disquePoints de contrôle et backends d'étatSécuritéRésumé

10. Fonctionnement de Flink et des applications de diffusion en continu
Exécuter et gérer des applications de diffusion en continuPoints de sauvegardeGérer les applications avec le client de ligne de commandeGérer les applications avec l'API RESTRegrouper et déployer des applications dans des conteneursContrôler la planification des tâchesContrôler l'enchaînement des tâchesDéfinition des groupes de partage des créneaux horairesOptimisation du point de contrôle et de la récupérationConfiguration du point de contrôleConfiguration des backends d'étatConfiguration de la récupérationSurveillance des clusters et des applications FlinkInterface Web de FlinkSystème métriqueSurveillance de la latenceConfigurer le comportement de la journalisationRésumé
11. Que faire à partir de maintenant ?
Le reste de l'écosystème FlinkL'API DataSet pour le traitement par lotsAPI de tableau et SQL pour l'analyse relationnelleFlinkCEP pour le traitement d'événements complexes et la recherche de motifsGelly pour le traitement des graphesUne communauté accueillante
Index

Content preview from Traitement des flux avec Apache Flink

Chapitre 3. L'architecture d'Apache Flink

Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com

Le chapitre 2 a abordé les concepts importants du traitement des flux distribués, tels que la parallélisation, le temps et l'état. Dans ce chapitre, nous présentons l'architecture de Flink et décrivons la façon dont Flink aborde les aspects du traitement des flux que nous avons abordés précédemment. En particulier, nous expliquons l'architecture distribuée de Flink, nous montrons comment il gère le temps et l'état dans les applications de streaming et nous discutons de ses mécanismes de tolérance aux pannes. Ce chapitre fournit des informations de base pertinentes pour réussir à mettre en œuvre et à exploiter des applications de streaming avancées avec Apache Flink. Il t'aidera à comprendre les éléments internes de Flink et à raisonner sur les performances et le comportement des applications de streaming.

Architecture du système

Flink est un système distribué pour le traitement de flux de données parallèles avec état. Une configuration Flink se compose de plusieurs processus qui s'exécutent généralement de manière distribuée sur plusieurs machines. Les défis courants que les systèmes distribués doivent relever sont l'allocation et la gestion des ressources informatiques dans un cluster, la coordination des processus, le stockage durable et hautement disponible des données, et la reprise sur panne.

Flink ne ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Run Llama-2 Models Locally with llama.cpp

Publisher Resources

ISBN: 9798341618022

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Traitement des flux avec Apache Flink

by Fabian Hueske, Vasiliki Kalavri

Chapitre 3. L'architecture d'Apache Flink

Architecture du système

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.