Skip to Content
Apache Flinkによるストリーム処理
book

Apache Flinkによるストリーム処理

by Fabian Hueske, Vasiliki Kalavri
March 2025
Intermediate to advanced
310 pages
5h 10m
Japanese
O'Reilly Media, Inc.
Content preview from Apache Flinkによるストリーム処理

第2章. ストリーム処理の基礎

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com

これまで、 、ストリーム処理が従来のバッチ処理の限界にどのように対処し、新しいアプリケーションやアーキテクチャをどのように可能にするかを見てきた。また、オープンソースのストリーム処理分野の進化や、Flink ストリーミング・アプリケーションがどのようなものなのかについても少し知っていただけただろう。この章では、いよいよストリーミングの世界に入っていく。

本章の目的は、ストリーム処理の基本概念と、そのフレームワークの要件を紹介することである。この章を読み終えた後、最新のストリーム処理システムの特徴を評価できるようになることを願っている。

データフロー・プログラミング入門

ストリーム処理の基礎を掘り下げる前に、データフロープログラミングの背景と、本書を通して使用する用語を見ておこう。

データフロー・グラフ

その名前が示すように、データフロー・プログラムは演算子間のデータの流れを記述する。データフロー・プログラムは一般的に有向グラフとして表現され、ノードは 演算子と呼ばれ、演算を表し、エッジは データの依存関係を表す。演算子はデータフローアプリケーションの基本的な機能単位である。オペレータは入力からデータをコンシューマし、それに対して計算を実行し、さらに処理するために出力にデータをプロデューサする。入力ポートを持たない演算子は データソースと呼ばれ、出力ポートを持たない演算子は データシンクと呼ばれる。データフロー・グラフは、少なくとも1つのデータソースと1つのデータシンクを持たなければならない。図2-1は、ツイートの入力ストリームからハッシュタグを抽出してカウントするデータフロー・プログラムを示している。

A logical dataflow graph
図2-1. ハッシュタグを連続的にカウントするための論理データフロー・グラフ(ノードは演算子、エッジはデータの依存関係を表す)。

図2-1のようなデータフロー・グラフは、計算ロジックのハイレベルなビューを伝えるため、論理グラフと呼び出される。データフロー・プログラムを実行するには、論理グラフを物理データフロー・グラフに変換する。例えば、分散処理エンジンを使用する場合、各演算子は異なる物理マシン上で複数の並列タスクを実行するかもしれない。図2-2は、図2-1の論理グラフに対する物理データフロー・グラフである。論理データフロー・グラフではノードは演算子を表すが、物理データフローではノードはタスクである。ハッシュタグの抽出 "と "カウント "演算子には2つの並列演算子タスクがあり、それぞれが入力データのサブセットに対して計算を実行する。

A physical dataflow graph
図2-2. ハッシュタグをカウントする物理的データフロー計画(ノードはタスクを表す)

データ並列とタスク並列

さまざまな方法でデータフロー・グラフの並列性を利用することができる。まず、入力データをパーティション分割し、同じ演算子のタスクをデータサブセット上で並列実行させることができる。このような並列処理はデータ並列処理と呼ばれている。データ並列は、大量のデータを処理し、計算負荷を複数の計算ノードに分散できるため有用である。次に、異なる演算子のタスクが、同じor異なるデータに対して並列に計算を実行することができる。このような並列処理をタスク並列処理と呼ぶ。タスク並列を使用すると、クラスタのコンピューティングリソースをより有効に活用できる。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

LLMのプロンプトエンジニアリング ―GitHub Copilotを生んだ開発者が教える生成AIアプリケーション開発

LLMのプロンプトエンジニアリング ―GitHub Copilotを生んだ開発者が教える生成AIアプリケーション開発

John Berryman, Albert Ziegler, 服部 佑樹, 佐藤 直生
信頼性の高い機械学習 ―SRE原則を活用したMLOps

信頼性の高い機械学習 ―SRE原則を活用したMLOps

Cathy Chen, Niall Richard Murphy, Kranti Parisa, D. Sculley, Todd Underwood, 井伊 篤彦, 張 凡, 樋口 千洋
AWS クックブック

AWS クックブック

John Culkin, Mike Zazon

Publisher Resources

ISBN: 9798341625044