book

Apache Flinkによるストリーム処理

Name: Apache Flinkによるストリーム処理
ISBN: 9798341625044

by Fabian Hueske, Vasiliki Kalavri

March 2025

Intermediate to advanced

310 pages

5h 10m

Japanese

O'Reilly Media, Inc.

Read now

Unlock full access

序文
本書で学べること本書で使用されている慣例コード例を使うオライリー・オンライン・ラーニング問い合わせ先謝辞
1.ステートフル・ストリーム処理入門
従来のデータインフラトランザクション処理分析処理ステートフル・ストリーム処理イベント駆動型アプリケーションデータパイプラインストリーミング分析オープンソースのストリーム処理の進化ちょっとした歴史フリンクの早見表最初のFlinkアプリケーションを実行する概要
2.ストリーム処理の基礎
データフロー・プログラミング入門データフロー・グラフデータ並列とタスク並列データ交換戦略ストリームを並列処理する遅延とスループットデータストリームの演算子時間の意味論ストリーム処理における1分の意味とは？処理時間開催時間ウォーターマーク処理時間とイベント時間の比較状態と一貫性モデルタスクの失敗結果保証概要
3.Apache Flinkのアーキテクチャ
システムアーキテクチャFlinkセットアップの構成要素アプリケーションのデプロイタスク実行可用性の高いセットアップFlinkでのデータ転送クレジット・ベースのフロー制御タスク・チェイニングイベント・タイム処理タイムスタンプウォーターマーク透かしの伝播とイベント時間タイムスタンプ代入と電子透かし生成国家経営演算子状態キー付き状態ステート・バックエンドステートフル演算子のスケーリングチェックポイント、セーブポイント、状態回復一貫したチェックポイント一貫したチェックポイントからのリカバリーFlinkのチェックポイント・アルゴリズムチェックポイントのパフォーマンスへの影響セーブポイント概要
4.Apache Flinkの開発環境のセットアップ
必要なソフトウェアIDEでFlinkアプリケーションを実行してデバッグするIDEでこの本の例をインポートするIDEでFlinkアプリケーションを実行するIDEでFlinkアプリケーションをデバッグするFlinkのMavenプロジェクトをBootstrapする概要
5.DataStream API (v1.7)
こんにちは、フリンク！実行環境をセットアップする入力ストリームを読み取るトランスフォームを適用する結果を出力する実行する変貌基本的な変形KeyedStreamの変換マルチストリーム変換分配の変換平行度をセットする種類サポートされるデータ型データ型の型情報を作成するタイプ情報を明示的に提供するキーの定義とフィールドの参照フィールドポジションフィールド式キーセレクター関数の実装関数クラスラムダ関数豊富な関数外部依存とFlink依存を含める概要
6.タイムベース演算子とウィンドウ演算子
時間特性を設定するタイムスタンプの代入と透かしの生成透かし、遅延、完全性プロセス関数タイマーサービスとタイマーサイド出力への放出コプロセスファンクションウィンドウ演算子Windows演算子の定義ビルトインWindows代入Windowsに関数を適用するWindows演算子をカスタマイズする時間通りにストリームに参加するインターバル・ジョインウィンドウジョイン遅れたデータを扱う遅れてきたイベントをドロップする後半イベントのリダイレクト後発イベントを含めて結果を更新する概要
7.and演算子とアプリケーション状態
ステートフル関数の実装ランタイムコンテキストでキー付きステートを宣言するListCheckpointedインタフェースによる演算子リスト状態の実装コネクテッド・ブロードキャスト・ステートを使うCheckpointedFunctionインタフェースを使うチェックポイント完了の通知を受け取るステートフル・アプリケーションの障害復旧を可能にするステートフル・アプリケーションの保守性を確保する一意な演算子識別子の指定キー付き状態演算子の最大並列度の定義ステートフル・アプリケーションの性能と堅牢性ステート・バックエンドを選ぶステート・プリミティブを選択する状態漏れを防ぐ進化するステートフル・アプリケーション既存の状態を変更せずにアプリケーションを更新するアプリケーションから状態を削除する演算子の状態の変更クエリ可能な状態アーキテクチャとクエリ可能な状態の実現クエリ可能な状態を公開する外部アプリケーションから状態をクエリする概要
8.外部システムからの読み取りと外部システムへの書き込み
アプリケーションの一貫性保証無限の書き手トランザクション書き込みコネクターApache KafkaソースコネクタApache Kafka Sink コネクタファイルシステム・ソース・コネクタファイルシステム・シンク・コネクターApache Cassandraシンク・コネクターカスタムソース関数を実装するリセット可能なソース関数ソース関数、タイムスタンプ、透かしカスタムシンク関数を実装するべき乗シンク・コネクタートランザクション・シンク・コネクター外部システムへの非同期アクセス概要
9.ストリーミング・アプリケーション用にFlinkをセットアップする
デプロイ・モードスタンドアロンクラスターDockerApache Hadoop YARNKubernetes可用性の高いセットアップHAスタンドアロンセットアップHA YARNのセットアップHA KubernetesのセットアップHadoopコンポーネントとの統合ファイルシステムの構成システム構成JavaとクラスローディングCPUメインメモリとNetwork+バッファディスクストレージチェックポイントとステート・バックエンドセキュリティ概要

10.Flinkとストリーミング・アプリケーションの演算子
ストリーミング・アプリケーションの実行と管理セーブポイントコマンドラインクライアントでアプリケーションを管理するREST APIでアプリケーションを管理するアプリケーションをバンドルしてコンテナにデプロイするタスクのスケジューリングを制御するタスクの連鎖を制御するスロット共有グループの定義チェックポイントとリカバリーのチューニングチェックポイントを設定するステート・バックエンドを設定するリカバリーを設定するFlinkクラスタとアプリケーションを監視するFlink Web UIメトリック方式遅延のモニタリングログの振る舞いを設定する概要
11.これからどこへ行くのか？
フリンク・エコシステムの残りの部分バッチ処理のためのデータセットAPI関係分析のためのテーブルAPIとSQL複雑なイベント処理とパターンマッチングのためのFlinkCEPグラフ処理のためのゲリー歓迎されるコミュニティ
インデックス

Content preview from Apache Flinkによるストリーム処理

第3章 Apache Flinkのアーキテクチャ Apache Flinkのアーキテクチャ

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

第2章では、、並列化、時間、ステートといった分散ストリーム処理の重要な概念について説明した。本章では、Flinkのアーキテクチャを高レベルで紹介し、Flinkが先に説明したストリーム処理の側面にどのように対処するかを説明する。特に、Flinkの分散アーキテクチャを説明し、ストリーミングアプリケーションで時間と状態をどのように扱うかを示し、そのフォールトトレランスメカニズムについて議論する。この章では、Apache Flinkを使って高度なストリーミング・アプリケーションをうまく実装し、運用するための関連する背景情報を提供する。Flinkの内部を理解し、ストリーミングアプリケーションのパフォーマンスや振る舞いを推論するのに役立つだろう。

システムアーキテクチャ

Flink は、ステートフルな並列データストリーム処理のための分散システムである。Flinkのセットアップは、通常複数のマシンに分散して実行される複数のプロセスで構成される。分散システムが取り組むべき共通の課題として、クラスタ内のコンピューティングリソースの割り当てと管理、プロセスの座標調整、耐久性が高く可用性の高いデータストレージ、障害回復などがある。

Flinkはこのような機能をすべて実装しているわけではない。その代わりに、コア機能である分散データストリーム処理にフォーカスし、既存のクラスタインフラやサービスを活用している。Flinkは、Apache Mesos、YARN、Kubernetesクラスタなどのクラスタ・リソース・マネージャとうまく統合されているが、スタンドアロン・クラスタとして動作するように設定することもできる。Flinkは耐久性のある分散ストレージを提供しない。代わりに、HDFSのような分散ファイルシステムやS3のようなオブジェクト・ストアを活用する。高可用性セットアップにおけるリーダー選出のために、FlinkはApache ZooKeeperに依存している。

このセクションでは、Flinkセットアップの様々なコンポーネントと、それらがアプリケーションを実行するためにどのように相互作用するかを説明する。Flinkアプリケーションをデプロイする2つの異なるスタイルと、それぞれがタスクを分散して実行する方法について説明する。最後に、Flinkの高可用モードがどのように機能するかを説明する。

Flinkセットアップの構成要素

Flinkのセットアップは、ストリーミング・アプリケーションを実行するために連携する4つの異なるコンポーネントで構成される。これらのコンポーネントは、JobManager、ResourceManager、TaskManager、Dispatcherである。FlinkはJavaとScalaで実装されているため、すべてのコンポーネントは Java仮想マシン（JVM）上で動作する。各コンポーネントは以下のようなレスポンスを持っている：

JobManagerは、単一アプリケーションの実行を制御するマスタープロセスである。JobManagerは実行のためにアプリケーションを受け取る。アプリケーションは、いわゆるJobGraphと呼ばれる論理データフロー・グラフ（「データフロー・プログラミング入門」を参照）から構成され、、必要なクラス、ライブラリ、その他のリソースをすべてバンドルしたJARファイルを受け取る。JobManagerはJobGraphをExecutionGraphと呼ばれる物理的なデータフロー・グラフに変換する。ExecutionGraphは並列実行可能なタスクで構成される。JobManagerはResourceManagerにタスク実行に必要なリソース（TaskManagerスロット）を要求する。十分な数のTaskManagerスロットを受け取ると、ExecutionGraphのタスクを実行するTaskManagerに分配する。実行中、JobManagerはチェックポイントの調整（ ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

LLMのプロンプトエンジニアリング ―GitHub Copilotを生んだ開発者が教える生成AIアプリケーション開発

Publisher Resources

ISBN: 9798341625044

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design