book

Apache Spark によるストリーム処理

Name: Apache Spark によるストリーム処理
ISBN: 9798341650602

by Gerard Maas, Francois Garillot

May 2025

Intermediate to advanced

452 pages

6h 3m

Japanese

O'Reilly Media, Inc.

Read now

Unlock full access

序文
序文
誰がこの本を読むべきか？SparkのインストールScalaを学ぶ前途書誌本書で使用されている慣例コード例を使うオライリー・オンライン・ラーニング問い合わせ先謝辞ジェラードよりフランソワより
I.Apache Sparkによるストリーム処理の基礎
1.ストリーム処理の紹介
ストリーム処理とは何か？バッチ処理とストリーム処理の比較ストリーム処理における時間の概念不確実性という要因ストリーム処理の例データ処理のスケールアップマップリデュース学んだ教訓スケーラビリティと耐障害性分散ストリーム処理分散システムにおけるステートフルなストリーム処理Apache Sparkの紹介最初の波機能的API第二の波SQL統一されたエンジンスパーク・コンポーネントスパーク・ストリーミング構造化ストリーミング次はどこだ？
2.ストリーム処理モデル
ソースとシンク不変性ストリームは互いに定義される変換と集約Windowsアグリゲーションタンブリング・ウインドウズスライディングウィンドウステートレス処理とステートフル処理ステートフル・ストリーム例Scalaにおける局所的ステートフル計算ストリーム変換としてのフィボナッチ数列のステートレス定義ステートレスまたはステートフル・ストリーミング時間の効果タイムスタンプ付きイベントを計算する時間という概念の提供者としてのタイムスタンプイベント時間と処理時間の比較透かしを使ったコンピューティング概要
3.ストリーミング・アーキテクチャ
データプラットフォームの構成要素アーキテクチャ・モデルストリーミング・アプリケーションにおけるバッチ処理コンポーネントの使用参照ストリーミングアーキテクチャラムダ・アーキテクチャカッパ・アーキテクチャーストリーミングとバッチ・アルゴリズムの比較ストリーミング・アルゴリズムは時に全く異なる性質を持つストリーミング・アルゴリズムは、バッチ・アルゴリズムとの比較において優れた結果を保証することはできない。概要
4.ストリーム処理エンジンとしてのApache Spark
2つのAPIの物語Sparkのメモリ使用量故障の回復怠惰な評価キャッシュのヒント遅延を理解するスループット指向の処理SparkのポリグロットAPIデータ分析の高速実装Sparkについてもっと知るには概要
5.Sparkの分散処理モデル
クラスタマネージャでApache Sparkを実行するクラスターマネージャーの例Spark独自のクラスタ・マネージャー分散システムのレジリエンスとフォールトトレランスを理解する障害復旧クラスターマネージャーのフォールトトレランスのサポートデータ配信セマンティクスマイクロバッチとワンエレメント・ア・タイムマイクロバッチ：一括同期処理の応用一度に1つのレコードを処理するマイクロバッチと1回ごとのバッチ：トレードオフマイクロバッチと1回1レコードの距離を縮める動的バッチ間隔構造化ストリーミング処理モデルバッチ間隔の消滅
6.Sparkのレジリエンス・モデル
Sparkにおけるレジリエンス分散データセットスパーク・コンポーネントSparkのフォールトトレランス保証タスクの障害回復ステージ故障のリカバリードライバーの障害復旧概要
A.第一部参考文献

II.構造化ストリーミング
7.構造化ストリーミングの導入
構造化ストリーミングの第一歩バッチ分析ストリーミング分析ストリームに接続するストリームにデータを準備するストリーミング・データセットに対する演算子クエリを作成するストリーム処理を開始するデータを探る概要
8.構造化ストリーミング・プログラミング・モデル
Sparkの初期化情報源ストリーミングデータの取得利用可能な情報源ストリーミング・データを変換するストリーミングAPI DataFrame APIの制限事項シンク結果データを出力する形式出力モードクエリー名オプションオプショントリガー開始()概要
9.構造化ストリーミングの実例
ストリーミング・ソースを消費するアプリケーション・ロジックストリーミング・シンクに書き込む概要
10.構造化ストリーミング・ソース
情報源を理解する信頼できる情報源は再生可能でなければならないソースはスキーマを提供しなければならない。利用可能な情報源ファイルソースファイルフォーマット指定子共通オプション一般的なテキスト解析オプション（CSV、JSON）JSONファイルソース形式CSVファイルソース形式パーケットファイルのソース形式テキストファイルのソース形式カフカ・ソースKafkaソースをセットアップするトピック購読メソッドを選択するKafkaソースオプションを設定するKafkaコンシューマオプションソケット・ソースコンフィギュレーション演算子レート・ソースオプション
11.構造化ストリーミング・シンク
シンクを理解する利用可能なシンク信頼できるシンク実験用シンクシンクAPIシンクの詳細を探るファイルシンクファイルシンクでトリガーを使うサポートされているすべてのファイル形式に共通する構成オプション一般的な時刻と日付の形式（CSV、JSON）ファイルシンクのCSV形式JSONファイルシンク形式パーケットファイルのシンク形式テキストファイルのシンク形式カフカ・シンクKafka Publishモデルを理解するKafkaシンクを使うメモリーシンク出力モードコンソールシンクオプション出力モードフォアシンクForeachWriterインタフェースTCPライターシンク：実用的なForeachWriterの例この例の教訓ForeachWriterシリアライゼーションのトラブルシューティング
12.イベントタイムベースのストリーム処理
構造化ストリーミングのイベント時間を理解するイベント・タイムを使う処理時間ウォーターマーク時間ベースのウィンドウ集約時間ベースのWindowsを定義するインターバルの計算方法を理解する複合集約キーを使うタンブリングとスライディング・ウィンドウレコードの重複排除概要
13.高度なステートフル・オペレーション
例カーフリート管理ステート演算子でグループを理解する内部状態の流れMapGroupsWithStateを使うFlatMapGroupsWithStateを使う出力モード時間をかけて状態を管理する概要
14.構造化ストリーミング・アプリケーションを監視する
Spark メトリクスサブシステム構造化ストリーミングのメトリックStreamingQueryインスタンスStreamingQueryProgressでメトリックを取得するStreamingQueryListener インタフェースStreamingQueryListenerを実装する
15.実験分野連続処理とマシン学習
連続処理連続処理を理解する連続処理を使う制限事項マシンラーニング学ぶことと利用すること機械学習モデルをストリームに適用する例アンビエント・センサを使った部屋の稼働率の推定オンライン・トレーニング
B.第二部の参考文献
III.スパーク・ストリーミング
16.Spark Streamingの紹介
Dストリームの抽象化プログラミング・モデルとしてのDStreams実行モデルとしてのDStreamsSparkストリーミング・アプリケーションの構造Spark Streaming Contextの作成Dストリームを定義する出力演算子を定義するSparkストリーミングコンテキストを起動するストリーミング・プロセスを停止する概要
17.Sparkストリーミング・プログラミング・モデル
Dストリームの基礎となる抽象化としてのRDDDストリーム変換を理解する要素中心のDストリーム変換RDD中心のDストリーム変換カウント構造を変える変換概要
18.Sparkストリーミング実行モデル
バルク同期アーキテクチャレシーバー・モデルレシーバーAPIレシーバーの仕組みレシーバーのデータフロー内部データのレジリエンスレシーバーの並列性リソースのバランスを取る：レシーバーと処理コアの比較ライト・アヘッド・ログでデータ損失ゼロを達成するレシーバーレスまたはダイレクトモデル概要
19.Spark ストリーミング・ソース
情報源の種類基本的な情報源受信機ベースのソースディレクトリよく使われる情報源ファイルソース仕組みキュー・ソース仕組み単体テストにキューソースを使うキュー・ソースに代わるよりシンプルな方法．ConstantInputDStreamソケット・ソース仕組みカフカ・ソースKafkaソースを使用する仕組みその他の情報源はどこで発見できるか？
20.Sparkストリーミング・シンク
出力演算子内蔵出力演算子プリントセーブアスキシズforeachRDDforeachRDDをプログラマブルシンクとして使う第三者出力演算子
21.時間ベースのストリーム処理
Windowsアグリゲーションタンブリング・ウインドウズWindowsの長さとバッチ間隔の関係スライディングウィンドウスライディング・ウィンドウとバッチ・インターバルの比較スライディング・ウィンドウとタンブリング・ウィンドウの比較Windowsと長いバッチ間隔を比較する窓の削減ウィンドウを縮小するreduceByKeyAndWindowカウント・バイ・ウィンドウcountByValueAndWindow反転可能な窓の集合体スライスストリーム概要
22.任意のステートフル・ストリーミング計算
ストリーム規模でのステートフルネスupdateStateByKeyupdateStateByKeyの制限事項パフォーマンスメモリ使用量mapwithStateによるステートフル計算の導入mapWithStateを使うmapWithStateを使ったイベント・タイム・ストリーム計算
23.Spark SQLを使う
Spark SQLSpark StreamingからSpark SQL関数にアクセスする例ストリーミング・データをParquetに書き込む静止データを扱うジョインを使って入力ストリームを豊かにする最適化に参加するストリーミングアプリケーションで参照データセットを更新するリファレンス・データセットで例を強化する概要
24.チェックポイント
チェックポイントの使い方を理解するDストリームをチェックポイントするチェックポイントからのリカバリー制限事項チェックポイントのコストチェックポイントのチューニング
25.Sparkストリーミングを監視する
ストリーミングUIストリーミングUIを使って仕事のパフォーマンスを理解する入力レート表スケジューリング遅延チャート処理時間チャート合計遅延チャートバッチ詳細モニタリングREST APIMonitoring REST API を使うMonitoring REST APIによって公開される情報メトリック・サブシステム内部イベントバスイベントバスと対話する概要
26.パフォーマンス・チューニング
Sparkストリーミングのパフォーマンスバランスバッチ間隔と処理遅延の関係仕事がうまくいかない最後の瞬間より深くスケジューリングの遅れと処理の遅れ処理時間におけるチェックポイントの影響仕事のパフォーマンスに影響を与える外部要因パフォーマンスを向上させるには？バッチ間隔を調整する固定レート・スロットリングでデータ入力を制限する背圧ダイナミック・スロットリング背圧PIDのチューニングカスタム料金見積もり別のダイナミック・ハンドリング戦略に関するメモキャッシュ投機的実行
C.第III部の参考文献
IV.高度なSparkストリーミング・テクニック
27.ストリーミング近似とサンプリングアルゴリズム
正確さ、リアルタイム、ビッグデータ正確さリアルタイム処理ビッグデータ正確さ、リアルタイム、ビッグデータのトライアングルビッグデータとリアルタイム近似アルゴリズムハッシュとスケッチ：入門要素をカウントする：ハイパーログログロールプレイング演習もし私たちがシステム管理者だったらSparkでHyperLogLogを実践する要素の頻度をカウントする：最小スケッチをカウントするブルームフィルターの紹介Sparkを使ったブルームフィルタカウント・ミン・スケッチでフリークエンシーを計算する順位と分位数TダイジェストSparkのTダイジェスト要素数を減らす：サンプリング無作為抽出層別サンプリング
28.リアルタイム・マシン学習
ナイーブ・ベイズによるストリーミング分類streamDMの紹介ナイーブ・ベイズの実践映画レビュー分類器を訓練する決定木の導入ホーフディングの木スパークにおけるヘフディング木の実践オンラインK平均によるストリーミング・クラスタリングK平均クラスタリングオンライン・データとK-Means崩壊するクラスターの問題Spark StreamingでK-Meansをストリーミングする
D.第4部の参考文献
V.Apacheスパークを超えて
29.その他の分散リアルタイム・ストリーム処理システム
アパッチ・ストーム加工モデル嵐のトポロジーストームクラスターSparkとの比較Apache Flinkストリーミング・ファーストのフレームワークSparkとの比較KafkaストリームKafkaストリームプログラミングモデルSparkとの比較クラウドAWS上のAmazon Kinesisマイクロソフト Azure Stream AnalyticsApache Beam/Google Cloudデータフロー
30.先を見据えて
プラグインを維持するスタックオーバーフローで助けを求めるメーリングリストでのディスカッションを開始する会議に出席するミートアップに参加する書籍を読むApache Sparkプロジェクトに貢献する
E.第5部参考文献
インデックス

Content preview from Apache Spark によるストリーム処理

第27章. ストリーミング近似とサンプリング・アルゴリズム

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

ストリーム処理（）は、観測されたデータのサマリーを時系列で作成する際に、特別な難題を突きつける。ストリームの値を観測するチャンスは一度しかないため、境界のあるデータセット上では単純と思われるクエリでも、データストリーム上で同じ質問に答えようとすると困難になる。

問題の核心は、これらのクエリが、例えばデータセット全体を観察する必要があるような、大域的な要約や至上命題のような結果をどのように求めるかにある：

ストリーム内のすべての異なる要素のカウント（要約）。
ストリームの最も高いk個の要素（大域的至上点）
ストリームの最も頻度の高いk個の要素（大域的な上位要素）。

当然ながら、データがストリームから送られてくる場合、難しいのはデータセット全体を一度に見ることである。この種のクエリは、ストリーム全体をストアし、それをデータのバッチとして扱うことで素朴に答えることができる。しかし、この保存方法は常に可能とは限らないばかりか、強引なアプローチでもある。後述するように、ストリームの主な数値や特性を反映した簡潔なデータ表現を構築することができる。この簡潔さには代償があり、それは返される答えの正確さで測られる。これらのデータ構造とそれを演算するアルゴリズムは、特定のエラー境界を持つ近似的な結果を返す。：

正確なアルゴリズムはより正確だが、非常にリソースを消費する
近似アルゴリズムは精度が落ちるが、余分なリソースコストをかけるくらいなら、多少精度が落ちても構わない。

このセクションでは、限られたリソースを使用して、ストリームで観測された要素に対するグローバルな疑問を時間経過とともに整理するのに役立つ、近似アルゴリズムとサンプリングテクニックの応用について研究する。はじめに、大量のデータを前にして、リアルタイムのレスポンスとそのレスポンスの正確さとの間の緊張関係を探る。次に、3つのカバーされた近似方法を理解するのに必要な、ハッシュとソートの概念を紹介する：

ハイパーログログ（HLL）: 明確な要素をカウントする場合
カウントミンスケッチ（CMS）: 要素の頻度カウント用
Tダイジェスト: 観測要素の頻度ヒストグラムを近似する。

この章の最後に、様々なサンプリングメソッドの概要と、それらがSparkでどのようにサポートされているかを紹介する。

正確さ、リアルタイム、ビッグデータ

分散型コンピューティングは、連続的に流れるデータを演算する場合、三角形の概念に制約されるという点で、しばしば特殊化されたものとみなされる：

プロデューサの正確さ
リアルタイムで計算が行われる
ビッグデータの計算

これらの概念について詳しく見ていこう：

正確さ

第一に、厳密な計算とは、データから得られる質問に答える正確な数値結果を出す必要性の反映であると考えることができる。例えば、Webサイトから送られてくるデータを監視している場合、Webサイトが生成する対話、イベント、ログを分析することで、現在のユーザの数を理解したいと思うかもしれない。

リアルタイム処理

2つ目の側面は、分析の鮮度または遅延である。この文脈では、遅延とは、データが最初に利用可能になった瞬間から、そこから何らかの洞察を得られるようになるまでの時間に関係する。 Webサイトの訪問者の例に戻ると、1日の終わりに、 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341650602

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business