book

ストリーミング・システム

by Tyler Akidau, Slava Chernyak, Reuven Lax

March 2025

Beginner to intermediate

352 pages

6h 8m

Japanese

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

本書のナビゲーション収穫本書で使用されている慣例オンラインリソース数字コード・スニペットオライリー・サファリ問い合わせ先謝辞
用語解説：ストリーミングとは何か？ストリーミングの大げさな限界についてイベント時間と処理時間の比較データ処理パターンバウンド・データ束縛されないデータバッチ束縛されないデータストリーミング概要
ロードマップバッチ財団：何を、どこで内容：トランスフォーメーションどこでWindowsストリーミングへ：いつ、どのようにいつトリガーについての素晴らしいことは、トリガーは素晴らしいものだということだ！いつウォーターマークいつ？アーリー／オン・タイム／レイト・トリガーはFTWだ！いつ許容される遅刻（＝ガベージコレクション）どのようにアキュムレータ概要
定義ソース透かしの作成完璧な透かしの作成ヒューリスティック透かしの作成透かしの伝播電子透かしの伝搬を理解する透かしの伝播と出力タイムスタンプオーバーラップするWindowsのトリッキーなケースパーセンタイル・ウォーターマーク処理時間の透かしケーススタディケーススタディGoogle Cloudデータフローにおける透かしケーススタディApache Flinkにおける透かしケーススタディGoogle Cloud Pub/Subのソースウォーターマーク概要
いつ／どこで処理時間のWindowsイベント・タイム・ウィンドウトリガーによる処理時間のウィンドウ表示イングレス・タイムによる処理時間のウィンドウ化どこでセッションWindowsどこでカスタムWindows固定WindowsのバリエーションセッションWindowsのバリエーションワンサイズはすべてにフィットしない概要
なぜ正確な1回が重要なのか正確さと完全性副作用問題の定義シャッフルで一度だけ正確に行う決定論への取り組みパフォーマンスグラフ最適化ブルームフィルターゴミ収集情報源で一度だけシンクで一度だけ使用例ソースの例Cloud Pub/Subシンクの例ファイルシンクの例Google BigQueryその他のシステムApache Spark ストリーミングApache Flink概要
ストリーム・アンド・テーブルの基礎あるいは：ストリーム・アンド・テーブル相対性理論の特殊化流線とテーブル相対性理論の一般化に向けてバッチ処理とストリームおよびテーブルの比較MapReduceのストリームとテーブル分析バッチ処理と照合するストリームとテーブルの世界で、何を、どこで、いつ、どのようにするのか？内容：トランスフォーメーションどこでWindowsいつ？トリガーどのようにアキュムレータビーム・モデルにおけるストリームとテーブルの全体像流線とテーブル相対性理論の一般化概要
モチベーション失敗の必然性正確さと効率性暗黙の状態生のグループ分けインクリメント・コンバイニング一般化国家ケーススタディコンバージョン属性Apache Beamによる属性変換概要

ストリーミングSQLとは何か？関係代数時間変化する関係ストリームとテーブル過去を振り返る：ストリームとテーブルのバイアスビーム・モデル：ストリーム・バイアス・アプローチSQLモデル：テーブルに基づいたアプローチ前を向いて：堅牢性ストリーミングSQLに向けてストリームとテーブルの選択時間演算子概要
すべてのジョインはストリーミングに帰属するアンウインドージョインフルアウター左外側右外側インナー反セミウィンドウ結合固定Windows時間的妥当性概要
マップリデュースHadoopフルーム嵐SparkミルホイールKafkaクラウドデータフローフリンクビーム概要

Content preview from ストリーミング・システム

第4章. 高度なWindows

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

再びこんにちは！第3章を楽しんでいただけたなら幸いだ。透かしは魅力的なトピックであり、スラバは地球上の誰よりも透かしを知っている。さて、透かしについての理解を深めたところで、「何を」「どこで」「いつ」「どのように」という質問に関連する、より高度なトピックに飛び込んでみたい。

イベント・タイム・ウィンドウとどのような関係があるのかを理解し、実際にどのような場合に正しいアプローチなのかを知るために、まず、処理時間ウィンドウについて見ていく。次に、より高度なイベント・タイム・ウィンドウの概念に飛び込み、セッション・ウィンドウを詳しく見て、最後に、3つの異なるタイプのカスタム・ウィンドウ、すなわち、整列されていない固定ウィンドウ、キーごとの固定ウィンドウ、拘束されたセッション・ウィンドウを調べることで、一般化カスタム・ウィンドウが有用な（そして驚くほど簡単な）概念である理由を説明する。

いつ／どこで処理時間のWindows

処理時間のウィンドウ化は2つの理由から重要である：

使用状況のモニタリング（例：ウェブサービスのトラフィックQPS）のように、受信したデータのストリームを可観測性で分析したいような特定のユースケースでは、処理時間ウィンドウ化は絶対に取るべき適切なアプローチである。
イベントが発生した時間が重要なユースケース（例えば、ユーザの振る舞い傾向の分析、課金、スコアリングなど）の場合、処理時間のウィンドウ化は絶対に間違ったアプローチであり、このようなケースを認識できることが重要である。

そのため、処理時間ウインドウウィングとイベント時間ウインドウウィングの違いについて、特に今日多くのストリーミングシステムで処理時間ウインドウウィングが普及していることを考えると、しっかりと理解する価値がある。

本書で紹介されているような、第一級概念としてのウィンドウウィングが厳密にイベント・タイム・ベースであるモデルで作業する場合、処理時間ウィンドウウィングを実現するために使用できるメソッドが2つある：

トリガー: イベント時間を無視し（つまり、イベント時間のすべてにまたがるグローバルウィンドウを使用する）、トリガーを使用して、処理時間軸にそのウィンドウのスナップショットを提供する。
イングレス時間: イングレス時間を、到着したデータのイベント時間として代入し、それ以降は通常のイベント・タイム・ウィンドウを使用する。これは、Spark Streaming 1.xのようなものが本質的に行っていることだ。

多段パイプラインの場合は若干異なるが、この2つのメソッドは多かれ少なかれ等価性であることに注意されたい：トリガー・バージョンでは、多段パイプラインは各ステージで独立に処理時間 "ウィンドウ "をスライスするので、例えばあるステージでウィンドウNにあるデータは、次のステージではウィンドウN-1またはN+1になる；ingress-timeバージョンでは、データがウィンドウNに取り込まれた後、ウォーターマーク（Cloud Dataflowの場合）、マイクロバッチ境界（Spark Streamingの場合）、またはエンジンレベルで関与するその他の座標要素を介してステージ間の進捗が同期されるため、パイプラインの期間中はウィンドウNに留まる。

これまで述べてきたように、処理時間型ウィンドウ処理の大きな欠点は、入力の観測順序が変わるとウィンドウの内容（ ...