book

Apache Spark によるストリーム処理

Name: Apache Spark によるストリーム処理
ISBN: 9798341650602

by Gerard Maas, Francois Garillot

May 2025

Intermediate to advanced

452 pages

6h 3m

Japanese

O'Reilly Media, Inc.

Read now

Unlock full access

序文
序文
誰がこの本を読むべきか？SparkのインストールScalaを学ぶ前途書誌本書で使用されている慣例コード例を使うオライリー・オンライン・ラーニング問い合わせ先謝辞ジェラードよりフランソワより
I.Apache Sparkによるストリーム処理の基礎
1.ストリーム処理の紹介
ストリーム処理とは何か？バッチ処理とストリーム処理の比較ストリーム処理における時間の概念不確実性という要因ストリーム処理の例データ処理のスケールアップマップリデュース学んだ教訓スケーラビリティと耐障害性分散ストリーム処理分散システムにおけるステートフルなストリーム処理Apache Sparkの紹介最初の波機能的API第二の波SQL統一されたエンジンスパーク・コンポーネントスパーク・ストリーミング構造化ストリーミング次はどこだ？
2.ストリーム処理モデル
ソースとシンク不変性ストリームは互いに定義される変換と集約Windowsアグリゲーションタンブリング・ウインドウズスライディングウィンドウステートレス処理とステートフル処理ステートフル・ストリーム例Scalaにおける局所的ステートフル計算ストリーム変換としてのフィボナッチ数列のステートレス定義ステートレスまたはステートフル・ストリーミング時間の効果タイムスタンプ付きイベントを計算する時間という概念の提供者としてのタイムスタンプイベント時間と処理時間の比較透かしを使ったコンピューティング概要
3.ストリーミング・アーキテクチャ
データプラットフォームの構成要素アーキテクチャ・モデルストリーミング・アプリケーションにおけるバッチ処理コンポーネントの使用参照ストリーミングアーキテクチャラムダ・アーキテクチャカッパ・アーキテクチャーストリーミングとバッチ・アルゴリズムの比較ストリーミング・アルゴリズムは時に全く異なる性質を持つストリーミング・アルゴリズムは、バッチ・アルゴリズムとの比較において優れた結果を保証することはできない。概要
4.ストリーム処理エンジンとしてのApache Spark
2つのAPIの物語Sparkのメモリ使用量故障の回復怠惰な評価キャッシュのヒント遅延を理解するスループット指向の処理SparkのポリグロットAPIデータ分析の高速実装Sparkについてもっと知るには概要
5.Sparkの分散処理モデル
クラスタマネージャでApache Sparkを実行するクラスターマネージャーの例Spark独自のクラスタ・マネージャー分散システムのレジリエンスとフォールトトレランスを理解する障害復旧クラスターマネージャーのフォールトトレランスのサポートデータ配信セマンティクスマイクロバッチとワンエレメント・ア・タイムマイクロバッチ：一括同期処理の応用一度に1つのレコードを処理するマイクロバッチと1回ごとのバッチ：トレードオフマイクロバッチと1回1レコードの距離を縮める動的バッチ間隔構造化ストリーミング処理モデルバッチ間隔の消滅
6.Sparkのレジリエンス・モデル
Sparkにおけるレジリエンス分散データセットスパーク・コンポーネントSparkのフォールトトレランス保証タスクの障害回復ステージ故障のリカバリードライバーの障害復旧概要
A.第一部参考文献

II.構造化ストリーミング
7.構造化ストリーミングの導入
構造化ストリーミングの第一歩バッチ分析ストリーミング分析ストリームに接続するストリームにデータを準備するストリーミング・データセットに対する演算子クエリを作成するストリーム処理を開始するデータを探る概要
8.構造化ストリーミング・プログラミング・モデル
Sparkの初期化情報源ストリーミングデータの取得利用可能な情報源ストリーミング・データを変換するストリーミングAPI DataFrame APIの制限事項シンク結果データを出力する形式出力モードクエリー名オプションオプショントリガー開始()概要
9.構造化ストリーミングの実例
ストリーミング・ソースを消費するアプリケーション・ロジックストリーミング・シンクに書き込む概要
10.構造化ストリーミング・ソース
情報源を理解する信頼できる情報源は再生可能でなければならないソースはスキーマを提供しなければならない。利用可能な情報源ファイルソースファイルフォーマット指定子共通オプション一般的なテキスト解析オプション（CSV、JSON）JSONファイルソース形式CSVファイルソース形式パーケットファイルのソース形式テキストファイルのソース形式カフカ・ソースKafkaソースをセットアップするトピック購読メソッドを選択するKafkaソースオプションを設定するKafkaコンシューマオプションソケット・ソースコンフィギュレーション演算子レート・ソースオプション
11.構造化ストリーミング・シンク
シンクを理解する利用可能なシンク信頼できるシンク実験用シンクシンクAPIシンクの詳細を探るファイルシンクファイルシンクでトリガーを使うサポートされているすべてのファイル形式に共通する構成オプション一般的な時刻と日付の形式（CSV、JSON）ファイルシンクのCSV形式JSONファイルシンク形式パーケットファイルのシンク形式テキストファイルのシンク形式カフカ・シンクKafka Publishモデルを理解するKafkaシンクを使うメモリーシンク出力モードコンソールシンクオプション出力モードフォアシンクForeachWriterインタフェースTCPライターシンク：実用的なForeachWriterの例この例の教訓ForeachWriterシリアライゼーションのトラブルシューティング
12.イベントタイムベースのストリーム処理
構造化ストリーミングのイベント時間を理解するイベント・タイムを使う処理時間ウォーターマーク時間ベースのウィンドウ集約時間ベースのWindowsを定義するインターバルの計算方法を理解する複合集約キーを使うタンブリングとスライディング・ウィンドウレコードの重複排除概要
13.高度なステートフル・オペレーション
例カーフリート管理ステート演算子でグループを理解する内部状態の流れMapGroupsWithStateを使うFlatMapGroupsWithStateを使う出力モード時間をかけて状態を管理する概要
14.構造化ストリーミング・アプリケーションを監視する
Spark メトリクスサブシステム構造化ストリーミングのメトリックStreamingQueryインスタンスStreamingQueryProgressでメトリックを取得するStreamingQueryListener インタフェースStreamingQueryListenerを実装する
15.実験分野連続処理とマシン学習
連続処理連続処理を理解する連続処理を使う制限事項マシンラーニング学ぶことと利用すること機械学習モデルをストリームに適用する例アンビエント・センサを使った部屋の稼働率の推定オンライン・トレーニング
B.第二部の参考文献
III.スパーク・ストリーミング
16.Spark Streamingの紹介
Dストリームの抽象化プログラミング・モデルとしてのDStreams実行モデルとしてのDStreamsSparkストリーミング・アプリケーションの構造Spark Streaming Contextの作成Dストリームを定義する出力演算子を定義するSparkストリーミングコンテキストを起動するストリーミング・プロセスを停止する概要
17.Sparkストリーミング・プログラミング・モデル
Dストリームの基礎となる抽象化としてのRDDDストリーム変換を理解する要素中心のDストリーム変換RDD中心のDストリーム変換カウント構造を変える変換概要
18.Sparkストリーミング実行モデル
バルク同期アーキテクチャレシーバー・モデルレシーバーAPIレシーバーの仕組みレシーバーのデータフロー内部データのレジリエンスレシーバーの並列性リソースのバランスを取る：レシーバーと処理コアの比較ライト・アヘッド・ログでデータ損失ゼロを達成するレシーバーレスまたはダイレクトモデル概要
19.Spark ストリーミング・ソース
情報源の種類基本的な情報源受信機ベースのソースディレクトリよく使われる情報源ファイルソース仕組みキュー・ソース仕組み単体テストにキューソースを使うキュー・ソースに代わるよりシンプルな方法．ConstantInputDStreamソケット・ソース仕組みカフカ・ソースKafkaソースを使用する仕組みその他の情報源はどこで発見できるか？
20.Sparkストリーミング・シンク
出力演算子内蔵出力演算子プリントセーブアスキシズforeachRDDforeachRDDをプログラマブルシンクとして使う第三者出力演算子
21.時間ベースのストリーム処理
Windowsアグリゲーションタンブリング・ウインドウズWindowsの長さとバッチ間隔の関係スライディングウィンドウスライディング・ウィンドウとバッチ・インターバルの比較スライディング・ウィンドウとタンブリング・ウィンドウの比較Windowsと長いバッチ間隔を比較する窓の削減ウィンドウを縮小するreduceByKeyAndWindowカウント・バイ・ウィンドウcountByValueAndWindow反転可能な窓の集合体スライスストリーム概要
22.任意のステートフル・ストリーミング計算
ストリーム規模でのステートフルネスupdateStateByKeyupdateStateByKeyの制限事項パフォーマンスメモリ使用量mapwithStateによるステートフル計算の導入mapWithStateを使うmapWithStateを使ったイベント・タイム・ストリーム計算
23.Spark SQLを使う
Spark SQLSpark StreamingからSpark SQL関数にアクセスする例ストリーミング・データをParquetに書き込む静止データを扱うジョインを使って入力ストリームを豊かにする最適化に参加するストリーミングアプリケーションで参照データセットを更新するリファレンス・データセットで例を強化する概要
24.チェックポイント
チェックポイントの使い方を理解するDストリームをチェックポイントするチェックポイントからのリカバリー制限事項チェックポイントのコストチェックポイントのチューニング
25.Sparkストリーミングを監視する
ストリーミングUIストリーミングUIを使って仕事のパフォーマンスを理解する入力レート表スケジューリング遅延チャート処理時間チャート合計遅延チャートバッチ詳細モニタリングREST APIMonitoring REST API を使うMonitoring REST APIによって公開される情報メトリック・サブシステム内部イベントバスイベントバスと対話する概要
26.パフォーマンス・チューニング
Sparkストリーミングのパフォーマンスバランスバッチ間隔と処理遅延の関係仕事がうまくいかない最後の瞬間より深くスケジューリングの遅れと処理の遅れ処理時間におけるチェックポイントの影響仕事のパフォーマンスに影響を与える外部要因パフォーマンスを向上させるには？バッチ間隔を調整する固定レート・スロットリングでデータ入力を制限する背圧ダイナミック・スロットリング背圧PIDのチューニングカスタム料金見積もり別のダイナミック・ハンドリング戦略に関するメモキャッシュ投機的実行
C.第III部の参考文献
IV.高度なSparkストリーミング・テクニック
27.ストリーミング近似とサンプリングアルゴリズム
正確さ、リアルタイム、ビッグデータ正確さリアルタイム処理ビッグデータ正確さ、リアルタイム、ビッグデータのトライアングルビッグデータとリアルタイム近似アルゴリズムハッシュとスケッチ：入門要素をカウントする：ハイパーログログロールプレイング演習もし私たちがシステム管理者だったらSparkでHyperLogLogを実践する要素の頻度をカウントする：最小スケッチをカウントするブルームフィルターの紹介Sparkを使ったブルームフィルタカウント・ミン・スケッチでフリークエンシーを計算する順位と分位数TダイジェストSparkのTダイジェスト要素数を減らす：サンプリング無作為抽出層別サンプリング
28.リアルタイム・マシン学習
ナイーブ・ベイズによるストリーミング分類streamDMの紹介ナイーブ・ベイズの実践映画レビュー分類器を訓練する決定木の導入ホーフディングの木スパークにおけるヘフディング木の実践オンラインK平均によるストリーミング・クラスタリングK平均クラスタリングオンライン・データとK-Means崩壊するクラスターの問題Spark StreamingでK-Meansをストリーミングする
D.第4部の参考文献
V.Apacheスパークを超えて
29.その他の分散リアルタイム・ストリーム処理システム
アパッチ・ストーム加工モデル嵐のトポロジーストームクラスターSparkとの比較Apache Flinkストリーミング・ファーストのフレームワークSparkとの比較KafkaストリームKafkaストリームプログラミングモデルSparkとの比較クラウドAWS上のAmazon Kinesisマイクロソフト Azure Stream AnalyticsApache Beam/Google Cloudデータフロー
30.先を見据えて
プラグインを維持するスタックオーバーフローで助けを求めるメーリングリストでのディスカッションを開始する会議に出席するミートアップに参加する書籍を読むApache Sparkプロジェクトに貢献する
E.第5部参考文献
インデックス

Content preview from Apache Spark によるストリーム処理

第22章. 任意のステートフル・ストリーミング計算

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

これまでのところ、、Spark Streamingが過去のレコードとは無関係に受信データに対してどのように動作するかを見てきた。多くのアプリケーションでは、古いデータ点に関して受信データの進化を分析することにも興味がある。また、受信データ点によって生成された変化を追跡することにも興味があるかもしれない。つまり、すでに見たデータを使ってシステムのステートフルな表現を構築することに興味があるかもしれない。

Spark Streamingには、以前に見たデータに関する知識を構築してストアしたり、その知識を使って新しいデータを変換したりするための関数がいくつか用意されている。

ストリーム規模でのステートフルネス

関数型プログラマは、ステートフルネスを持たない関数を好む。これらの関数は、関数定義の外界の状態とは無関係に戻り値を返す。

しかし、関数はステートレスであり、入力にのみ注意を払い、しかも関数であることの規則を破ることなく、その計算とともに管理された値の概念を保持することができる。この考え方は、ある中間状態を表すこの値は、計算の1つまたはいくつかの引数の走査で使用され、引数の構造の走査と同時に何らかの記録を保持するというものである。

例えば、第17章で説明したreduce の演算子は、引数として与えられたRDDの走査に沿って、1つの値を更新し続ける：

val streamSums = stream.reduce {
  case (accum, x) => (accum + x)
}

ここで、入力DStreamに沿った各RDDの中間和の計算は、RDDの要素を左から右へ反復し、アキュムレータ変数の更新を維持することによって行われる-アキュムレータの新しい値（括弧の間）を返す更新操作によって指定される操作である。

updateStateByKey

ストリームの前の要素に依存する結果を計算するのが便利な場合がある：

ストリームの全要素の総和。
特定のマーカー値の出現回数。
ストリームの要素の特定の順序が指定された場合に、ストリームで遭遇する要素のうち最も高い要素。

この演算は、しばしば、reduce のような大きな演算の結果と考えることができる。ストリームのトラバーサルに沿って、演算の状態の何らかの表現を更新することになる。Spark Streamingでは、これはupdateStateByKey 関数によって提供される：

  def updateStateByKey[S: ClassTag](
      updateFunc: (Seq[V], Option[S]) => Option[S]
    ): DStream[(K, S)]

updateStateBykey は、キーと値のペアのDStreamsに対してのみ定義される演算子である。引数として状態更新関数を取る。この状態更新関数は以下の型でなければならない：

`Seq[V] -> Option[S] -> Option[S]`

この型は、現在のバッチの演算中に到着した、与えられたキーに対するすべての値に対応する、V 型の新しい値のセットと、S 型で表されるオプションの状態を、更新演算がどのように受け取るかを反映している。その後、S 状態に対する新しい値を計算し、返すべき値がある場合はSome(state) ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341650602

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Apache Spark によるストリーム処理

by Gerard Maas, Francois Garillot

第22章. 任意のステートフル・ストリーミング計算

ストリーム規模でのステートフルネス

updateStateByKey

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

More than 5,000 organizations count on O’Reilly

Julian F.

Addison B.

Amir M.

Mark W.

You might also like

Apache Flinkによるストリーム処理

Kubernetes でのクラウドネイティブデータの管理

LLMのプロンプトエンジニアリング ―GitHub Copilotを生んだ開発者が教える生成AIアプリケーション開発

Java におけるリアクティブシステム

Publisher Resources

第22章. 任意のステートフル・ストリーミング計算

ストリーム規模でのステートフルネス

updateStateByKey

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

More than 5,000 organizations count on O’Reilly

Julian F.

Addison B.

Amir M.

Mark W.

You might also like

Apache Flinkによるストリーム処理

Kubernetes でのクラウドネイティブデータの管理

LLMのプロンプトエンジニアリング ―GitHub Copilotを生んだ開発者が教える生成AIアプリケーション開発

Java におけるリアクティブシステム

Publisher Resources

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.