book

Apache Spark によるストリーム処理

Name: Apache Spark によるストリーム処理
ISBN: 9798341650602

by Gerard Maas, Francois Garillot

May 2025

Intermediate to advanced

452 pages

6h 3m

Japanese

O'Reilly Media, Inc.

Read now

Unlock full access

序文
序文
誰がこの本を読むべきか？SparkのインストールScalaを学ぶ前途書誌本書で使用されている慣例コード例を使うオライリー・オンライン・ラーニング問い合わせ先謝辞ジェラードよりフランソワより
I.Apache Sparkによるストリーム処理の基礎
1.ストリーム処理の紹介
ストリーム処理とは何か？バッチ処理とストリーム処理の比較ストリーム処理における時間の概念不確実性という要因ストリーム処理の例データ処理のスケールアップマップリデュース学んだ教訓スケーラビリティと耐障害性分散ストリーム処理分散システムにおけるステートフルなストリーム処理Apache Sparkの紹介最初の波機能的API第二の波SQL統一されたエンジンスパーク・コンポーネントスパーク・ストリーミング構造化ストリーミング次はどこだ？
2.ストリーム処理モデル
ソースとシンク不変性ストリームは互いに定義される変換と集約Windowsアグリゲーションタンブリング・ウインドウズスライディングウィンドウステートレス処理とステートフル処理ステートフル・ストリーム例Scalaにおける局所的ステートフル計算ストリーム変換としてのフィボナッチ数列のステートレス定義ステートレスまたはステートフル・ストリーミング時間の効果タイムスタンプ付きイベントを計算する時間という概念の提供者としてのタイムスタンプイベント時間と処理時間の比較透かしを使ったコンピューティング概要
3.ストリーミング・アーキテクチャ
データプラットフォームの構成要素アーキテクチャ・モデルストリーミング・アプリケーションにおけるバッチ処理コンポーネントの使用参照ストリーミングアーキテクチャラムダ・アーキテクチャカッパ・アーキテクチャーストリーミングとバッチ・アルゴリズムの比較ストリーミング・アルゴリズムは時に全く異なる性質を持つストリーミング・アルゴリズムは、バッチ・アルゴリズムとの比較において優れた結果を保証することはできない。概要
4.ストリーム処理エンジンとしてのApache Spark
2つのAPIの物語Sparkのメモリ使用量故障の回復怠惰な評価キャッシュのヒント遅延を理解するスループット指向の処理SparkのポリグロットAPIデータ分析の高速実装Sparkについてもっと知るには概要
5.Sparkの分散処理モデル
クラスタマネージャでApache Sparkを実行するクラスターマネージャーの例Spark独自のクラスタ・マネージャー分散システムのレジリエンスとフォールトトレランスを理解する障害復旧クラスターマネージャーのフォールトトレランスのサポートデータ配信セマンティクスマイクロバッチとワンエレメント・ア・タイムマイクロバッチ：一括同期処理の応用一度に1つのレコードを処理するマイクロバッチと1回ごとのバッチ：トレードオフマイクロバッチと1回1レコードの距離を縮める動的バッチ間隔構造化ストリーミング処理モデルバッチ間隔の消滅
6.Sparkのレジリエンス・モデル
Sparkにおけるレジリエンス分散データセットスパーク・コンポーネントSparkのフォールトトレランス保証タスクの障害回復ステージ故障のリカバリードライバーの障害復旧概要
A.第一部参考文献

II.構造化ストリーミング
7.構造化ストリーミングの導入
構造化ストリーミングの第一歩バッチ分析ストリーミング分析ストリームに接続するストリームにデータを準備するストリーミング・データセットに対する演算子クエリを作成するストリーム処理を開始するデータを探る概要
8.構造化ストリーミング・プログラミング・モデル
Sparkの初期化情報源ストリーミングデータの取得利用可能な情報源ストリーミング・データを変換するストリーミングAPI DataFrame APIの制限事項シンク結果データを出力する形式出力モードクエリー名オプションオプショントリガー開始()概要
9.構造化ストリーミングの実例
ストリーミング・ソースを消費するアプリケーション・ロジックストリーミング・シンクに書き込む概要
10.構造化ストリーミング・ソース
情報源を理解する信頼できる情報源は再生可能でなければならないソースはスキーマを提供しなければならない。利用可能な情報源ファイルソースファイルフォーマット指定子共通オプション一般的なテキスト解析オプション（CSV、JSON）JSONファイルソース形式CSVファイルソース形式パーケットファイルのソース形式テキストファイルのソース形式カフカ・ソースKafkaソースをセットアップするトピック購読メソッドを選択するKafkaソースオプションを設定するKafkaコンシューマオプションソケット・ソースコンフィギュレーション演算子レート・ソースオプション
11.構造化ストリーミング・シンク
シンクを理解する利用可能なシンク信頼できるシンク実験用シンクシンクAPIシンクの詳細を探るファイルシンクファイルシンクでトリガーを使うサポートされているすべてのファイル形式に共通する構成オプション一般的な時刻と日付の形式（CSV、JSON）ファイルシンクのCSV形式JSONファイルシンク形式パーケットファイルのシンク形式テキストファイルのシンク形式カフカ・シンクKafka Publishモデルを理解するKafkaシンクを使うメモリーシンク出力モードコンソールシンクオプション出力モードフォアシンクForeachWriterインタフェースTCPライターシンク：実用的なForeachWriterの例この例の教訓ForeachWriterシリアライゼーションのトラブルシューティング
12.イベントタイムベースのストリーム処理
構造化ストリーミングのイベント時間を理解するイベント・タイムを使う処理時間ウォーターマーク時間ベースのウィンドウ集約時間ベースのWindowsを定義するインターバルの計算方法を理解する複合集約キーを使うタンブリングとスライディング・ウィンドウレコードの重複排除概要
13.高度なステートフル・オペレーション
例カーフリート管理ステート演算子でグループを理解する内部状態の流れMapGroupsWithStateを使うFlatMapGroupsWithStateを使う出力モード時間をかけて状態を管理する概要
14.構造化ストリーミング・アプリケーションを監視する
Spark メトリクスサブシステム構造化ストリーミングのメトリックStreamingQueryインスタンスStreamingQueryProgressでメトリックを取得するStreamingQueryListener インタフェースStreamingQueryListenerを実装する
15.実験分野連続処理とマシン学習
連続処理連続処理を理解する連続処理を使う制限事項マシンラーニング学ぶことと利用すること機械学習モデルをストリームに適用する例アンビエント・センサを使った部屋の稼働率の推定オンライン・トレーニング
B.第二部の参考文献
III.スパーク・ストリーミング
16.Spark Streamingの紹介
Dストリームの抽象化プログラミング・モデルとしてのDStreams実行モデルとしてのDStreamsSparkストリーミング・アプリケーションの構造Spark Streaming Contextの作成Dストリームを定義する出力演算子を定義するSparkストリーミングコンテキストを起動するストリーミング・プロセスを停止する概要
17.Sparkストリーミング・プログラミング・モデル
Dストリームの基礎となる抽象化としてのRDDDストリーム変換を理解する要素中心のDストリーム変換RDD中心のDストリーム変換カウント構造を変える変換概要
18.Sparkストリーミング実行モデル
バルク同期アーキテクチャレシーバー・モデルレシーバーAPIレシーバーの仕組みレシーバーのデータフロー内部データのレジリエンスレシーバーの並列性リソースのバランスを取る：レシーバーと処理コアの比較ライト・アヘッド・ログでデータ損失ゼロを達成するレシーバーレスまたはダイレクトモデル概要
19.Spark ストリーミング・ソース
情報源の種類基本的な情報源受信機ベースのソースディレクトリよく使われる情報源ファイルソース仕組みキュー・ソース仕組み単体テストにキューソースを使うキュー・ソースに代わるよりシンプルな方法．ConstantInputDStreamソケット・ソース仕組みカフカ・ソースKafkaソースを使用する仕組みその他の情報源はどこで発見できるか？
20.Sparkストリーミング・シンク
出力演算子内蔵出力演算子プリントセーブアスキシズforeachRDDforeachRDDをプログラマブルシンクとして使う第三者出力演算子
21.時間ベースのストリーム処理
Windowsアグリゲーションタンブリング・ウインドウズWindowsの長さとバッチ間隔の関係スライディングウィンドウスライディング・ウィンドウとバッチ・インターバルの比較スライディング・ウィンドウとタンブリング・ウィンドウの比較Windowsと長いバッチ間隔を比較する窓の削減ウィンドウを縮小するreduceByKeyAndWindowカウント・バイ・ウィンドウcountByValueAndWindow反転可能な窓の集合体スライスストリーム概要
22.任意のステートフル・ストリーミング計算
ストリーム規模でのステートフルネスupdateStateByKeyupdateStateByKeyの制限事項パフォーマンスメモリ使用量mapwithStateによるステートフル計算の導入mapWithStateを使うmapWithStateを使ったイベント・タイム・ストリーム計算
23.Spark SQLを使う
Spark SQLSpark StreamingからSpark SQL関数にアクセスする例ストリーミング・データをParquetに書き込む静止データを扱うジョインを使って入力ストリームを豊かにする最適化に参加するストリーミングアプリケーションで参照データセットを更新するリファレンス・データセットで例を強化する概要
24.チェックポイント
チェックポイントの使い方を理解するDストリームをチェックポイントするチェックポイントからのリカバリー制限事項チェックポイントのコストチェックポイントのチューニング
25.Sparkストリーミングを監視する
ストリーミングUIストリーミングUIを使って仕事のパフォーマンスを理解する入力レート表スケジューリング遅延チャート処理時間チャート合計遅延チャートバッチ詳細モニタリングREST APIMonitoring REST API を使うMonitoring REST APIによって公開される情報メトリック・サブシステム内部イベントバスイベントバスと対話する概要
26.パフォーマンス・チューニング
Sparkストリーミングのパフォーマンスバランスバッチ間隔と処理遅延の関係仕事がうまくいかない最後の瞬間より深くスケジューリングの遅れと処理の遅れ処理時間におけるチェックポイントの影響仕事のパフォーマンスに影響を与える外部要因パフォーマンスを向上させるには？バッチ間隔を調整する固定レート・スロットリングでデータ入力を制限する背圧ダイナミック・スロットリング背圧PIDのチューニングカスタム料金見積もり別のダイナミック・ハンドリング戦略に関するメモキャッシュ投機的実行
C.第III部の参考文献
IV.高度なSparkストリーミング・テクニック
27.ストリーミング近似とサンプリングアルゴリズム
正確さ、リアルタイム、ビッグデータ正確さリアルタイム処理ビッグデータ正確さ、リアルタイム、ビッグデータのトライアングルビッグデータとリアルタイム近似アルゴリズムハッシュとスケッチ：入門要素をカウントする：ハイパーログログロールプレイング演習もし私たちがシステム管理者だったらSparkでHyperLogLogを実践する要素の頻度をカウントする：最小スケッチをカウントするブルームフィルターの紹介Sparkを使ったブルームフィルタカウント・ミン・スケッチでフリークエンシーを計算する順位と分位数TダイジェストSparkのTダイジェスト要素数を減らす：サンプリング無作為抽出層別サンプリング
28.リアルタイム・マシン学習
ナイーブ・ベイズによるストリーミング分類streamDMの紹介ナイーブ・ベイズの実践映画レビュー分類器を訓練する決定木の導入ホーフディングの木スパークにおけるヘフディング木の実践オンラインK平均によるストリーミング・クラスタリングK平均クラスタリングオンライン・データとK-Means崩壊するクラスターの問題Spark StreamingでK-Meansをストリーミングする
D.第4部の参考文献
V.Apacheスパークを超えて
29.その他の分散リアルタイム・ストリーム処理システム
アパッチ・ストーム加工モデル嵐のトポロジーストームクラスターSparkとの比較Apache Flinkストリーミング・ファーストのフレームワークSparkとの比較KafkaストリームKafkaストリームプログラミングモデルSparkとの比較クラウドAWS上のAmazon Kinesisマイクロソフト Azure Stream AnalyticsApache Beam/Google Cloudデータフロー
30.先を見据えて
プラグインを維持するスタックオーバーフローで助けを求めるメーリングリストでのディスカッションを開始する会議に出席するミートアップに参加する書籍を読むApache Sparkプロジェクトに貢献する
E.第5部参考文献
インデックス

Content preview from Apache Spark によるストリーム処理

第6章 Sparkのレジリエンス・モデル

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

ほとんどの場合、ストリーミング・ジョブは長時間実行されるジョブである。定義上、時間の経過とともに観測され、処理されるデータのストリームは、連続的に実行されるジョブにつながる。データを処理するにつれて、データが処理システムを離れた後に再現するのが困難な中間結果を蓄積する可能性がある。そのため、障害発生時のコストは相当なものになり、場合によっては完全な復旧は困難である。

分散システム、特にコモディティ・ハードウェアに依存するシステムでは、故障は規模の関数である。システムが大きくなればなるほど、あるコンポーネントがいつでも故障する確率は高くなる。分散ストリーム・プロセッサは、この故障の可能性を演算モデルに組み込む必要がある。

この章では、Apache Sparkプラットフォームが提供するレジリエンス、つまり部分的な障害をどのように回復できるか、また障害発生時にシステムを通過するデータに対してどのような保証が与えられるかを見ていく。まず、Sparkのさまざまな内部コンポーネントと、それらのコアデータ構造との関係を概観することから始める。この知識があれば、さまざまなレベルでの障害の影響と、そのような障害から回復するためにSparkが提供する手段を理解することができる。

Sparkにおけるレジリエンス分散データセット

Sparkは、、Resilient Distributed Datasets（RDDs）上にデータ表現を構築する。2011年に発表された論文 "Resilient Distributed Datasets：RDDはSparkの基礎となるデータ構造であり、Sparkの強力な耐障害性保証はこの基礎レベルから始まる。

RDDはパーティション分割によって構成される。パーティション分割とは、個々のノードにストアされ、Sparkドライバによって追跡されるデータのセグメントであり、ユーザには位置透過的なデータ構造として提示される。

図6-1では、古典的なワードカウントアプリケーションをRDDを構成する様々な要素に分解している。

色のついたブロックはデータ要素であり、もともとは図の左端にある分散ファイルシステムに格納されている。データはパーティション分割として格納され、ファイル内部では色のついたブロックの列として図示されている。各パーティションはエクゼキュータに読み込まれ、横のブロックとして見える。実際のデータ処理はエクゼキュータ内で行われる。そこでデータは、RDDレベルで説明された変換に従って変換される：

.flatMap(l => l.split(" ")) は文章をスペースで区切られた単語に分割する。
.map(w => (w,1)) は各単語をという形式のタプルに変換し、このようにして単語をカウントする準備をする。(<word>, 1)
.reduceByKey(_ + _) は、をキーとしてカウントを計算し、付属の数値に合計演算を適用する。<word>
最終的な結果は、部分的な結果を同じ ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341650602

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Apache Spark によるストリーム処理

by Gerard Maas, Francois Garillot

第6章 Sparkのレジリエンス・モデル

Sparkにおけるレジリエンス分散データセット

図6-1. 分散システムで表現されるRDD演算子

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.