book

Stream Processing mit Apache Flink

Name: Stream Processing mit Apache Flink
ISBN: 9781098184858

by Fabian Hueske, Vasiliki Kalavri

September 2024

Intermediate to advanced

310 pages

9h 32m

German

O'Reilly Media, Inc.

Read now

Unlock full access

Vorwort
Was du in diesem Buch lernen wirstIn diesem Buch verwendete KonventionenCode-Beispiele verwendenO'Reilly Online LearningWie du uns kontaktierstDanksagungen
1. Einführung in Stateful Stream Processing
Traditionelle DateninfrastrukturenTransaktionsverarbeitungAnalytische VerarbeitungStateful Stream ProcessingEreignisgesteuerte AnwendungenDaten-PipelinesStreaming-AnalytikDie Entwicklung von Open Source Stream ProcessingEin bisschen GeschichteEin kurzer Blick auf FlinkDeine erste Flink-Anwendung ausführenZusammenfassung
2. Grundlagen der Stromverarbeitung
Einführung in die DatenflussprogrammierungDatenflussdiagrammeDatenparallelität und AufgabenparallelitätStrategien für den DatenaustauschParallele Verarbeitung von StreamsLatenz und DurchsatzOperationen mit DatenströmenZeitsemantikWas bedeutet eine Minute in der Stromverarbeitung?BearbeitungszeitEreignis ZeitWasserzeichenBearbeitungszeit vs. EreigniszeitZustands- und KonsistenzmodelleAufgabenausfälleErgebnis GarantienZusammenfassung
3. Die Architektur von Apache Flink
SystemarchitekturKomponenten eines Flink-SetupsEinsatz der AnwendungAusführung der AufgabeHochverfügbare EinrichtungDatenübertragung in FlinkKreditbasierte FlusskontrolleAufgabenverkettungEvent-Time-VerarbeitungZeitstempelWasserzeichenAusbreitung von Wasserzeichen und EreigniszeitZuweisung von Zeitstempeln und Erzeugung von WasserzeichenStaatliches ManagementBetreiber StaatVerschlüsselter ZustandStaatliche BackendsSkalierung zustandsabhängiger OperatorenCheckpoints, Savepoints und StatuswiederherstellungKonsistente KontrollpunkteErholung von einem konsistenten KontrollpunktDer Checkpointing-Algorithmus von FlinkAuswirkungen von Checkpointing auf die LeistungSavepointsZusammenfassung
4. Einrichten einer Entwicklungsumgebung für Apache Flink
Erforderliche SoftwareFlink-Anwendungen in einer IDE ausführen und debuggenImportiere die Beispiele des Buches in eine IDEFlink-Anwendungen in einer IDE ausführenFlink-Anwendungen in einer IDE debuggenBootstrap für ein Flink Maven ProjektZusammenfassung
5. Die DataStream API (v1.7)
Hallo, Flink!Einrichten der AusführungsumgebungEinen Input Stream lesenTransformationen anwendenDas Ergebnis ausgebenAusführenVerwandlungenGrundlegende TransformationenKeyedStream TransformationenMultistream-TransformationenVertriebstransformationenEinstellung der ParallelitätTypenUnterstützte DatentypenErstellen von Typinformationen für DatentypenAusdrückliche Bereitstellung von TypinformationenDefinieren von Schlüsseln und Verweisen auf FelderFeldpositionenFeldausdrückeSchlüsselwählerFunktionen implementierenFunktionsklassenLambda-FunktionenReiche FunktionenExterne und Flink-Abhängigkeiten einbeziehenZusammenfassung
6. Zeitgesteuerte und Fenster-Operatoren
Konfigurieren der ZeitmerkmaleZuweisung von Zeitstempeln und Erzeugung von WasserzeichenWasserzeichen, Latenz und VollständigkeitProzess-FunktionenTimerService und ZeitgeberEmittieren zu den SeitenausgängenCoProzessFunktionFensterbedienerDefinieren von FensteroperatorenEingebaute Fenster-ZuweiserFunktionen unter Windows anwendenFensterantriebe anpassenRechtzeitiger Beitritt zu den StreamsIntervall-VerbindungFenster verbindenUmgang mit verspäteten DatenSpäte Ereignisse fallen lassenVerspätete Ereignisse umleitenAktualisierung der Ergebnisse durch Einbeziehung verspäteter EreignisseZusammenfassung
7. Zustandsabhängige Operatoren und Anwendungen
Implementierung von zustandsabhängigen FunktionenDeklarieren des deklarierten Zustands im RuntimeContextImplementierung des Operator-Listenstatus mit der ListCheckpointed-SchnittstelleVerwendung des Connected Broadcast StatusVerwendung der CheckpointedFunction-SchnittstelleErhalt von Benachrichtigungen über abgeschlossene CheckpointsAktivieren von Failure Recovery für zustandsabhängige AnwendungenSicherstellung der Wartbarkeit von zustandsabhängigen AnwendungenEindeutige Operator-Identifikatoren festlegenDefinition der maximalen Parallelität von Keyed State OperatorenLeistung und Robustheit von zustandsabhängigen AnwendungenAuswahl eines State BackendsAuswählen eines ZustandsprimitivsVerhinderung von LeckagenEntwicklung zustandsorientierter AnwendungenAktualisieren einer Anwendung ohne Änderung des bestehenden ZustandsStatus aus einer Anwendung entfernenÄndern des Status eines OperatorsAbfragbarer ZustandArchitektur und Ermöglichung abfragbarer ZuständeAbfragbaren Zustand offenlegenAbfrage des Status von externen AnwendungenZusammenfassung
8. Lesen von und Schreiben in externe Systeme
Garantierte Konsistenz der AnwendungÖdipus schreibtTransaktionale SchreibvorgängeMitgelieferte VerbinderApache Kafka Source ConnectorApache Kafka Sink ConnectorFilesystem Source ConnectorFilesystem Sink ConnectorApache Cassandra Sink ConnectorImplementieren einer benutzerdefinierten QuellfunktionZurücksetzbare QuellenfunktionenQuellfunktionen, Zeitstempel und WasserzeichenImplementieren einer benutzerdefinierten SenkenfunktionIdempotente SenkenanschlüsseTransaktionsbezogene SenkenanschlüsseAsynchroner Zugriff auf externe SystemeZusammenfassung
9. Flink für Streaming-Anwendungen einrichten
EinsatzmodiEigenständiger ClusterDockerApache Hadoop YARNKubernetesHochverfügbare SetupsHA Eigenständige EinrichtungHA YARN EinrichtungHA Kubernetes EinrichtungIntegration mit Hadoop-KomponentenKonfiguration des DateisystemsSystemkonfigurationJava und KlassenladenCPUHauptspeicher und NetzwerkpufferSpeicherung von FestplattenCheckpointing und State BackendsSicherheitZusammenfassung

10. Betrieb von Flink- und Streaming-Anwendungen
Streaming-Anwendungen ausführen und verwaltenSavepointsAnwendungen mit dem Command-Line Client verwaltenAnwendungen mit der REST API verwaltenBündeln und Bereitstellen von Anwendungen in ContainernSteuerung der Zeitplanung von AufgabenSteuerung der Task-VerkettungFestlegen von Slot-Sharing-GruppenTuning von Checkpointing und WiederherstellungCheckpointing konfigurierenKonfigurieren von State BackendsWiederherstellung konfigurierenÜberwachung von Flink Clustern und AnwendungenFlink Web UIMetrisches SystemÜberwachung der LatenzzeitKonfigurieren des Logging-VerhaltensZusammenfassung
11. Wie geht es jetzt weiter?
Der Rest des Flink-ÖkosystemsDie DataSet-API für StapelverarbeitungTabellen-API und SQL für relationale AnalysenFlinkCEP für komplexe Ereignisverarbeitung und Pattern MatchingGelly für GraphenverarbeitungEine einladende Gemeinschaft
Index

Content preview from Stream Processing mit Apache Flink

Kapitel 3. Die Architektur von Apache Flink

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In Kapitel 2 wurden unter wichtige Konzepte der verteilten Stream-Verarbeitung, wie Parallelisierung, Zeit und Zustand, erläutert. In diesem Kapitel geben wir eine allgemeine Einführung in die Architektur von Flink und beschreiben, wie Flink die zuvor besprochenen Aspekte der Stream-Verarbeitung behandelt. Wir erläutern insbesondere die verteilte Architektur von Flink, zeigen, wie Flink mit Zeit und Zustand in Streaming-Anwendungen umgeht, und diskutieren die Mechanismen zur Fehlertoleranz. Dieses Kapitel liefert wichtige Hintergrundinformationen, um fortgeschrittene Streaming-Anwendungen mit Apache Flink erfolgreich zu implementieren und zu betreiben. Es hilft dir, die Interna von Flink zu verstehen und Rückschlüsse auf die Leistung und das Verhalten von Streaming-Anwendungen zu ziehen.

Systemarchitektur

Flink ist ein verteiltes System für die zustandsabhängige parallele Verarbeitung von Datenströmen. Ein Flink-Setup besteht aus mehreren Prozessen, die in der Regel über mehrere Rechner verteilt laufen. Allgemeine Herausforderungen, die verteilte Systeme bewältigen müssen, sind die Zuweisung und Verwaltung von Rechenressourcen in einem Cluster, die Koordination von Prozessen, die dauerhafte und hochverfügbare Speicherung von Daten und die Wiederherstellung nach einem Ausfall.

Flink implementiert all diese ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9781098184858

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Stream Processing mit Apache Flink

by Fabian Hueske, Vasiliki Kalavri

Kapitel 3. Die Architektur von Apache Flink

Systemarchitektur

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.