book

Apache Spark によるストリーム処理

Name: Apache Spark によるストリーム処理
ISBN: 9798341650602

by Gerard Maas, Francois Garillot

May 2025

Intermediate to advanced

452 pages

6h 3m

Japanese

O'Reilly Media, Inc.

Read now

Unlock full access

序文
序文
誰がこの本を読むべきか？SparkのインストールScalaを学ぶ前途書誌本書で使用されている慣例コード例を使うオライリー・オンライン・ラーニング問い合わせ先謝辞ジェラードよりフランソワより
I.Apache Sparkによるストリーム処理の基礎
1.ストリーム処理の紹介
ストリーム処理とは何か？バッチ処理とストリーム処理の比較ストリーム処理における時間の概念不確実性という要因ストリーム処理の例データ処理のスケールアップマップリデュース学んだ教訓スケーラビリティと耐障害性分散ストリーム処理分散システムにおけるステートフルなストリーム処理Apache Sparkの紹介最初の波機能的API第二の波SQL統一されたエンジンスパーク・コンポーネントスパーク・ストリーミング構造化ストリーミング次はどこだ？
2.ストリーム処理モデル
ソースとシンク不変性ストリームは互いに定義される変換と集約Windowsアグリゲーションタンブリング・ウインドウズスライディングウィンドウステートレス処理とステートフル処理ステートフル・ストリーム例Scalaにおける局所的ステートフル計算ストリーム変換としてのフィボナッチ数列のステートレス定義ステートレスまたはステートフル・ストリーミング時間の効果タイムスタンプ付きイベントを計算する時間という概念の提供者としてのタイムスタンプイベント時間と処理時間の比較透かしを使ったコンピューティング概要
3.ストリーミング・アーキテクチャ
データプラットフォームの構成要素アーキテクチャ・モデルストリーミング・アプリケーションにおけるバッチ処理コンポーネントの使用参照ストリーミングアーキテクチャラムダ・アーキテクチャカッパ・アーキテクチャーストリーミングとバッチ・アルゴリズムの比較ストリーミング・アルゴリズムは時に全く異なる性質を持つストリーミング・アルゴリズムは、バッチ・アルゴリズムとの比較において優れた結果を保証することはできない。概要
4.ストリーム処理エンジンとしてのApache Spark
2つのAPIの物語Sparkのメモリ使用量故障の回復怠惰な評価キャッシュのヒント遅延を理解するスループット指向の処理SparkのポリグロットAPIデータ分析の高速実装Sparkについてもっと知るには概要
5.Sparkの分散処理モデル
クラスタマネージャでApache Sparkを実行するクラスターマネージャーの例Spark独自のクラスタ・マネージャー分散システムのレジリエンスとフォールトトレランスを理解する障害復旧クラスターマネージャーのフォールトトレランスのサポートデータ配信セマンティクスマイクロバッチとワンエレメント・ア・タイムマイクロバッチ：一括同期処理の応用一度に1つのレコードを処理するマイクロバッチと1回ごとのバッチ：トレードオフマイクロバッチと1回1レコードの距離を縮める動的バッチ間隔構造化ストリーミング処理モデルバッチ間隔の消滅
6.Sparkのレジリエンス・モデル
Sparkにおけるレジリエンス分散データセットスパーク・コンポーネントSparkのフォールトトレランス保証タスクの障害回復ステージ故障のリカバリードライバーの障害復旧概要
A.第一部参考文献

II.構造化ストリーミング
7.構造化ストリーミングの導入
構造化ストリーミングの第一歩バッチ分析ストリーミング分析ストリームに接続するストリームにデータを準備するストリーミング・データセットに対する演算子クエリを作成するストリーム処理を開始するデータを探る概要
8.構造化ストリーミング・プログラミング・モデル
Sparkの初期化情報源ストリーミングデータの取得利用可能な情報源ストリーミング・データを変換するストリーミングAPI DataFrame APIの制限事項シンク結果データを出力する形式出力モードクエリー名オプションオプショントリガー開始()概要
9.構造化ストリーミングの実例
ストリーミング・ソースを消費するアプリケーション・ロジックストリーミング・シンクに書き込む概要
10.構造化ストリーミング・ソース
情報源を理解する信頼できる情報源は再生可能でなければならないソースはスキーマを提供しなければならない。利用可能な情報源ファイルソースファイルフォーマット指定子共通オプション一般的なテキスト解析オプション（CSV、JSON）JSONファイルソース形式CSVファイルソース形式パーケットファイルのソース形式テキストファイルのソース形式カフカ・ソースKafkaソースをセットアップするトピック購読メソッドを選択するKafkaソースオプションを設定するKafkaコンシューマオプションソケット・ソースコンフィギュレーション演算子レート・ソースオプション
11.構造化ストリーミング・シンク
シンクを理解する利用可能なシンク信頼できるシンク実験用シンクシンクAPIシンクの詳細を探るファイルシンクファイルシンクでトリガーを使うサポートされているすべてのファイル形式に共通する構成オプション一般的な時刻と日付の形式（CSV、JSON）ファイルシンクのCSV形式JSONファイルシンク形式パーケットファイルのシンク形式テキストファイルのシンク形式カフカ・シンクKafka Publishモデルを理解するKafkaシンクを使うメモリーシンク出力モードコンソールシンクオプション出力モードフォアシンクForeachWriterインタフェースTCPライターシンク：実用的なForeachWriterの例この例の教訓ForeachWriterシリアライゼーションのトラブルシューティング
12.イベントタイムベースのストリーム処理
構造化ストリーミングのイベント時間を理解するイベント・タイムを使う処理時間ウォーターマーク時間ベースのウィンドウ集約時間ベースのWindowsを定義するインターバルの計算方法を理解する複合集約キーを使うタンブリングとスライディング・ウィンドウレコードの重複排除概要
13.高度なステートフル・オペレーション
例カーフリート管理ステート演算子でグループを理解する内部状態の流れMapGroupsWithStateを使うFlatMapGroupsWithStateを使う出力モード時間をかけて状態を管理する概要
14.構造化ストリーミング・アプリケーションを監視する
Spark メトリクスサブシステム構造化ストリーミングのメトリックStreamingQueryインスタンスStreamingQueryProgressでメトリックを取得するStreamingQueryListener インタフェースStreamingQueryListenerを実装する
15.実験分野連続処理とマシン学習
連続処理連続処理を理解する連続処理を使う制限事項マシンラーニング学ぶことと利用すること機械学習モデルをストリームに適用する例アンビエント・センサを使った部屋の稼働率の推定オンライン・トレーニング
B.第二部の参考文献
III.スパーク・ストリーミング
16.Spark Streamingの紹介
Dストリームの抽象化プログラミング・モデルとしてのDStreams実行モデルとしてのDStreamsSparkストリーミング・アプリケーションの構造Spark Streaming Contextの作成Dストリームを定義する出力演算子を定義するSparkストリーミングコンテキストを起動するストリーミング・プロセスを停止する概要
17.Sparkストリーミング・プログラミング・モデル
Dストリームの基礎となる抽象化としてのRDDDストリーム変換を理解する要素中心のDストリーム変換RDD中心のDストリーム変換カウント構造を変える変換概要
18.Sparkストリーミング実行モデル
バルク同期アーキテクチャレシーバー・モデルレシーバーAPIレシーバーの仕組みレシーバーのデータフロー内部データのレジリエンスレシーバーの並列性リソースのバランスを取る：レシーバーと処理コアの比較ライト・アヘッド・ログでデータ損失ゼロを達成するレシーバーレスまたはダイレクトモデル概要
19.Spark ストリーミング・ソース
情報源の種類基本的な情報源受信機ベースのソースディレクトリよく使われる情報源ファイルソース仕組みキュー・ソース仕組み単体テストにキューソースを使うキュー・ソースに代わるよりシンプルな方法．ConstantInputDStreamソケット・ソース仕組みカフカ・ソースKafkaソースを使用する仕組みその他の情報源はどこで発見できるか？
20.Sparkストリーミング・シンク
出力演算子内蔵出力演算子プリントセーブアスキシズforeachRDDforeachRDDをプログラマブルシンクとして使う第三者出力演算子
21.時間ベースのストリーム処理
Windowsアグリゲーションタンブリング・ウインドウズWindowsの長さとバッチ間隔の関係スライディングウィンドウスライディング・ウィンドウとバッチ・インターバルの比較スライディング・ウィンドウとタンブリング・ウィンドウの比較Windowsと長いバッチ間隔を比較する窓の削減ウィンドウを縮小するreduceByKeyAndWindowカウント・バイ・ウィンドウcountByValueAndWindow反転可能な窓の集合体スライスストリーム概要
22.任意のステートフル・ストリーミング計算
ストリーム規模でのステートフルネスupdateStateByKeyupdateStateByKeyの制限事項パフォーマンスメモリ使用量mapwithStateによるステートフル計算の導入mapWithStateを使うmapWithStateを使ったイベント・タイム・ストリーム計算
23.Spark SQLを使う
Spark SQLSpark StreamingからSpark SQL関数にアクセスする例ストリーミング・データをParquetに書き込む静止データを扱うジョインを使って入力ストリームを豊かにする最適化に参加するストリーミングアプリケーションで参照データセットを更新するリファレンス・データセットで例を強化する概要
24.チェックポイント
チェックポイントの使い方を理解するDストリームをチェックポイントするチェックポイントからのリカバリー制限事項チェックポイントのコストチェックポイントのチューニング
25.Sparkストリーミングを監視する
ストリーミングUIストリーミングUIを使って仕事のパフォーマンスを理解する入力レート表スケジューリング遅延チャート処理時間チャート合計遅延チャートバッチ詳細モニタリングREST APIMonitoring REST API を使うMonitoring REST APIによって公開される情報メトリック・サブシステム内部イベントバスイベントバスと対話する概要
26.パフォーマンス・チューニング
Sparkストリーミングのパフォーマンスバランスバッチ間隔と処理遅延の関係仕事がうまくいかない最後の瞬間より深くスケジューリングの遅れと処理の遅れ処理時間におけるチェックポイントの影響仕事のパフォーマンスに影響を与える外部要因パフォーマンスを向上させるには？バッチ間隔を調整する固定レート・スロットリングでデータ入力を制限する背圧ダイナミック・スロットリング背圧PIDのチューニングカスタム料金見積もり別のダイナミック・ハンドリング戦略に関するメモキャッシュ投機的実行
C.第III部の参考文献
IV.高度なSparkストリーミング・テクニック
27.ストリーミング近似とサンプリングアルゴリズム
正確さ、リアルタイム、ビッグデータ正確さリアルタイム処理ビッグデータ正確さ、リアルタイム、ビッグデータのトライアングルビッグデータとリアルタイム近似アルゴリズムハッシュとスケッチ：入門要素をカウントする：ハイパーログログロールプレイング演習もし私たちがシステム管理者だったらSparkでHyperLogLogを実践する要素の頻度をカウントする：最小スケッチをカウントするブルームフィルターの紹介Sparkを使ったブルームフィルタカウント・ミン・スケッチでフリークエンシーを計算する順位と分位数TダイジェストSparkのTダイジェスト要素数を減らす：サンプリング無作為抽出層別サンプリング
28.リアルタイム・マシン学習
ナイーブ・ベイズによるストリーミング分類streamDMの紹介ナイーブ・ベイズの実践映画レビュー分類器を訓練する決定木の導入ホーフディングの木スパークにおけるヘフディング木の実践オンラインK平均によるストリーミング・クラスタリングK平均クラスタリングオンライン・データとK-Means崩壊するクラスターの問題Spark StreamingでK-Meansをストリーミングする
D.第4部の参考文献
V.Apacheスパークを超えて
29.その他の分散リアルタイム・ストリーム処理システム
アパッチ・ストーム加工モデル嵐のトポロジーストームクラスターSparkとの比較Apache Flinkストリーミング・ファーストのフレームワークSparkとの比較KafkaストリームKafkaストリームプログラミングモデルSparkとの比較クラウドAWS上のAmazon Kinesisマイクロソフト Azure Stream AnalyticsApache Beam/Google Cloudデータフロー
30.先を見据えて
プラグインを維持するスタックオーバーフローで助けを求めるメーリングリストでのディスカッションを開始する会議に出席するミートアップに参加する書籍を読むApache Sparkプロジェクトに貢献する
E.第5部参考文献
インデックス

Content preview from Apache Spark によるストリーム処理

第10章. 構造化ストリーミング・ソース

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

前の章では、Structured Streaming プログラミングモデルの概要と、それを実用的に適用する方法について説明した。また、ソースが各 Structured Streaming プログラムの出発点であることも説明した。この章では、ソースの一般的な特徴を学び、利用可能なソースについて、そのさまざまな設定オプションや演算子モードを含め、より詳細に検討する。

情報源を理解する

Structured Streamingでは、ソースはストリーミング・データ・プロバイダを表す抽象化である。ソース・インタフェースの背後にある概念は、ストリーミング・データは、単調にインクリメントするカウンタでインデックス付けされたシーケンスとして見ることができる、時間の経過に伴うイベントの連続的な流れであるということである。

図10-1は、ストリーム内の各イベントが、オフセットが増加し続けるものとみなされる様子を示している。

図 10-2 に示すように、オフセットは、外部ソースにデータを要求し、どのデータがすでに消費されたかを示すために使用される。構造化ストリーミングは、外部システムから現在のオフセットを要求し、最後に処理されたオフセットと比較することによって、処理するデータがいつあるかを知る。処理するデータは、2 つのオフセットstart とend の間のバッチを取得することによって要求される。ソースは、指定されたオフセットをコミットすることで、データが処理されたことを通知される。ソース契約は、コミットされたオフセット以下のオフセットを持つすべてのデータが処理されたこと、および後続の要求がそのコミットされたオフセットより大きいオフセットのみを規定することを保証する。これらの保証を考慮すると、ソースは、システムリソースを解放するために、処理されたデータを破棄することを選択する可能性がある。

図10-2に示したオフセット・ベースの処理のダイナミクスを詳しく見てみよう：

t1において、システムはgetOffset を呼び出し、ソースの現在のオフセットを取得する。
t2において、システムは、getBatch(start, end) を呼び出し、最後の既知のオフセットまでのバッチを取得する。その間に新しいデータが到着している可能性があることに注意。
t3で、システムはオフセットをcommits 、ソースは対応するレコードを削除する。

このプロセスは絶え間なく繰り返され、ストリーミングデータの取得を保証する。最終的な故障から回復するために、オフセットは外部ストレージにチェックポイントされることが多い。

オフセットに基づく相互作用の他に、ソースは2つの要件を満たす必要がある。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341650602

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Apache Spark によるストリーム処理

by Gerard Maas, Francois Garillot

第10章. 構造化ストリーミング・ソース

情報源を理解する

図10-1. インデックス化されたイベントのシーケンスとして見たストリーム

図10-2. オフセット処理のシーケンス

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.