book

Apache Spark によるストリーム処理

Name: Apache Spark によるストリーム処理
ISBN: 9798341650602

by Gerard Maas, Francois Garillot

May 2025

Intermediate to advanced

452 pages

6h 3m

Japanese

O'Reilly Media, Inc.

Read now

Unlock full access

序文
序文
誰がこの本を読むべきか？SparkのインストールScalaを学ぶ前途書誌本書で使用されている慣例コード例を使うオライリー・オンライン・ラーニング問い合わせ先謝辞ジェラードよりフランソワより
I.Apache Sparkによるストリーム処理の基礎
1.ストリーム処理の紹介
ストリーム処理とは何か？バッチ処理とストリーム処理の比較ストリーム処理における時間の概念不確実性という要因ストリーム処理の例データ処理のスケールアップマップリデュース学んだ教訓スケーラビリティと耐障害性分散ストリーム処理分散システムにおけるステートフルなストリーム処理Apache Sparkの紹介最初の波機能的API第二の波SQL統一されたエンジンスパーク・コンポーネントスパーク・ストリーミング構造化ストリーミング次はどこだ？
2.ストリーム処理モデル
ソースとシンク不変性ストリームは互いに定義される変換と集約Windowsアグリゲーションタンブリング・ウインドウズスライディングウィンドウステートレス処理とステートフル処理ステートフル・ストリーム例Scalaにおける局所的ステートフル計算ストリーム変換としてのフィボナッチ数列のステートレス定義ステートレスまたはステートフル・ストリーミング時間の効果タイムスタンプ付きイベントを計算する時間という概念の提供者としてのタイムスタンプイベント時間と処理時間の比較透かしを使ったコンピューティング概要
3.ストリーミング・アーキテクチャ
データプラットフォームの構成要素アーキテクチャ・モデルストリーミング・アプリケーションにおけるバッチ処理コンポーネントの使用参照ストリーミングアーキテクチャラムダ・アーキテクチャカッパ・アーキテクチャーストリーミングとバッチ・アルゴリズムの比較ストリーミング・アルゴリズムは時に全く異なる性質を持つストリーミング・アルゴリズムは、バッチ・アルゴリズムとの比較において優れた結果を保証することはできない。概要
4.ストリーム処理エンジンとしてのApache Spark
2つのAPIの物語Sparkのメモリ使用量故障の回復怠惰な評価キャッシュのヒント遅延を理解するスループット指向の処理SparkのポリグロットAPIデータ分析の高速実装Sparkについてもっと知るには概要
5.Sparkの分散処理モデル
クラスタマネージャでApache Sparkを実行するクラスターマネージャーの例Spark独自のクラスタ・マネージャー分散システムのレジリエンスとフォールトトレランスを理解する障害復旧クラスターマネージャーのフォールトトレランスのサポートデータ配信セマンティクスマイクロバッチとワンエレメント・ア・タイムマイクロバッチ：一括同期処理の応用一度に1つのレコードを処理するマイクロバッチと1回ごとのバッチ：トレードオフマイクロバッチと1回1レコードの距離を縮める動的バッチ間隔構造化ストリーミング処理モデルバッチ間隔の消滅
6.Sparkのレジリエンス・モデル
Sparkにおけるレジリエンス分散データセットスパーク・コンポーネントSparkのフォールトトレランス保証タスクの障害回復ステージ故障のリカバリードライバーの障害復旧概要
A.第一部参考文献

II.構造化ストリーミング
7.構造化ストリーミングの導入
構造化ストリーミングの第一歩バッチ分析ストリーミング分析ストリームに接続するストリームにデータを準備するストリーミング・データセットに対する演算子クエリを作成するストリーム処理を開始するデータを探る概要
8.構造化ストリーミング・プログラミング・モデル
Sparkの初期化情報源ストリーミングデータの取得利用可能な情報源ストリーミング・データを変換するストリーミングAPI DataFrame APIの制限事項シンク結果データを出力する形式出力モードクエリー名オプションオプショントリガー開始()概要
9.構造化ストリーミングの実例
ストリーミング・ソースを消費するアプリケーション・ロジックストリーミング・シンクに書き込む概要
10.構造化ストリーミング・ソース
情報源を理解する信頼できる情報源は再生可能でなければならないソースはスキーマを提供しなければならない。利用可能な情報源ファイルソースファイルフォーマット指定子共通オプション一般的なテキスト解析オプション（CSV、JSON）JSONファイルソース形式CSVファイルソース形式パーケットファイルのソース形式テキストファイルのソース形式カフカ・ソースKafkaソースをセットアップするトピック購読メソッドを選択するKafkaソースオプションを設定するKafkaコンシューマオプションソケット・ソースコンフィギュレーション演算子レート・ソースオプション
11.構造化ストリーミング・シンク
シンクを理解する利用可能なシンク信頼できるシンク実験用シンクシンクAPIシンクの詳細を探るファイルシンクファイルシンクでトリガーを使うサポートされているすべてのファイル形式に共通する構成オプション一般的な時刻と日付の形式（CSV、JSON）ファイルシンクのCSV形式JSONファイルシンク形式パーケットファイルのシンク形式テキストファイルのシンク形式カフカ・シンクKafka Publishモデルを理解するKafkaシンクを使うメモリーシンク出力モードコンソールシンクオプション出力モードフォアシンクForeachWriterインタフェースTCPライターシンク：実用的なForeachWriterの例この例の教訓ForeachWriterシリアライゼーションのトラブルシューティング
12.イベントタイムベースのストリーム処理
構造化ストリーミングのイベント時間を理解するイベント・タイムを使う処理時間ウォーターマーク時間ベースのウィンドウ集約時間ベースのWindowsを定義するインターバルの計算方法を理解する複合集約キーを使うタンブリングとスライディング・ウィンドウレコードの重複排除概要
13.高度なステートフル・オペレーション
例カーフリート管理ステート演算子でグループを理解する内部状態の流れMapGroupsWithStateを使うFlatMapGroupsWithStateを使う出力モード時間をかけて状態を管理する概要
14.構造化ストリーミング・アプリケーションを監視する
Spark メトリクスサブシステム構造化ストリーミングのメトリックStreamingQueryインスタンスStreamingQueryProgressでメトリックを取得するStreamingQueryListener インタフェースStreamingQueryListenerを実装する
15.実験分野連続処理とマシン学習
連続処理連続処理を理解する連続処理を使う制限事項マシンラーニング学ぶことと利用すること機械学習モデルをストリームに適用する例アンビエント・センサを使った部屋の稼働率の推定オンライン・トレーニング
B.第二部の参考文献
III.スパーク・ストリーミング
16.Spark Streamingの紹介
Dストリームの抽象化プログラミング・モデルとしてのDStreams実行モデルとしてのDStreamsSparkストリーミング・アプリケーションの構造Spark Streaming Contextの作成Dストリームを定義する出力演算子を定義するSparkストリーミングコンテキストを起動するストリーミング・プロセスを停止する概要
17.Sparkストリーミング・プログラミング・モデル
Dストリームの基礎となる抽象化としてのRDDDストリーム変換を理解する要素中心のDストリーム変換RDD中心のDストリーム変換カウント構造を変える変換概要
18.Sparkストリーミング実行モデル
バルク同期アーキテクチャレシーバー・モデルレシーバーAPIレシーバーの仕組みレシーバーのデータフロー内部データのレジリエンスレシーバーの並列性リソースのバランスを取る：レシーバーと処理コアの比較ライト・アヘッド・ログでデータ損失ゼロを達成するレシーバーレスまたはダイレクトモデル概要
19.Spark ストリーミング・ソース
情報源の種類基本的な情報源受信機ベースのソースディレクトリよく使われる情報源ファイルソース仕組みキュー・ソース仕組み単体テストにキューソースを使うキュー・ソースに代わるよりシンプルな方法．ConstantInputDStreamソケット・ソース仕組みカフカ・ソースKafkaソースを使用する仕組みその他の情報源はどこで発見できるか？
20.Sparkストリーミング・シンク
出力演算子内蔵出力演算子プリントセーブアスキシズforeachRDDforeachRDDをプログラマブルシンクとして使う第三者出力演算子
21.時間ベースのストリーム処理
Windowsアグリゲーションタンブリング・ウインドウズWindowsの長さとバッチ間隔の関係スライディングウィンドウスライディング・ウィンドウとバッチ・インターバルの比較スライディング・ウィンドウとタンブリング・ウィンドウの比較Windowsと長いバッチ間隔を比較する窓の削減ウィンドウを縮小するreduceByKeyAndWindowカウント・バイ・ウィンドウcountByValueAndWindow反転可能な窓の集合体スライスストリーム概要
22.任意のステートフル・ストリーミング計算
ストリーム規模でのステートフルネスupdateStateByKeyupdateStateByKeyの制限事項パフォーマンスメモリ使用量mapwithStateによるステートフル計算の導入mapWithStateを使うmapWithStateを使ったイベント・タイム・ストリーム計算
23.Spark SQLを使う
Spark SQLSpark StreamingからSpark SQL関数にアクセスする例ストリーミング・データをParquetに書き込む静止データを扱うジョインを使って入力ストリームを豊かにする最適化に参加するストリーミングアプリケーションで参照データセットを更新するリファレンス・データセットで例を強化する概要
24.チェックポイント
チェックポイントの使い方を理解するDストリームをチェックポイントするチェックポイントからのリカバリー制限事項チェックポイントのコストチェックポイントのチューニング
25.Sparkストリーミングを監視する
ストリーミングUIストリーミングUIを使って仕事のパフォーマンスを理解する入力レート表スケジューリング遅延チャート処理時間チャート合計遅延チャートバッチ詳細モニタリングREST APIMonitoring REST API を使うMonitoring REST APIによって公開される情報メトリック・サブシステム内部イベントバスイベントバスと対話する概要
26.パフォーマンス・チューニング
Sparkストリーミングのパフォーマンスバランスバッチ間隔と処理遅延の関係仕事がうまくいかない最後の瞬間より深くスケジューリングの遅れと処理の遅れ処理時間におけるチェックポイントの影響仕事のパフォーマンスに影響を与える外部要因パフォーマンスを向上させるには？バッチ間隔を調整する固定レート・スロットリングでデータ入力を制限する背圧ダイナミック・スロットリング背圧PIDのチューニングカスタム料金見積もり別のダイナミック・ハンドリング戦略に関するメモキャッシュ投機的実行
C.第III部の参考文献
IV.高度なSparkストリーミング・テクニック
27.ストリーミング近似とサンプリングアルゴリズム
正確さ、リアルタイム、ビッグデータ正確さリアルタイム処理ビッグデータ正確さ、リアルタイム、ビッグデータのトライアングルビッグデータとリアルタイム近似アルゴリズムハッシュとスケッチ：入門要素をカウントする：ハイパーログログロールプレイング演習もし私たちがシステム管理者だったらSparkでHyperLogLogを実践する要素の頻度をカウントする：最小スケッチをカウントするブルームフィルターの紹介Sparkを使ったブルームフィルタカウント・ミン・スケッチでフリークエンシーを計算する順位と分位数TダイジェストSparkのTダイジェスト要素数を減らす：サンプリング無作為抽出層別サンプリング
28.リアルタイム・マシン学習
ナイーブ・ベイズによるストリーミング分類streamDMの紹介ナイーブ・ベイズの実践映画レビュー分類器を訓練する決定木の導入ホーフディングの木スパークにおけるヘフディング木の実践オンラインK平均によるストリーミング・クラスタリングK平均クラスタリングオンライン・データとK-Means崩壊するクラスターの問題Spark StreamingでK-Meansをストリーミングする
D.第4部の参考文献
V.Apacheスパークを超えて
29.その他の分散リアルタイム・ストリーム処理システム
アパッチ・ストーム加工モデル嵐のトポロジーストームクラスターSparkとの比較Apache Flinkストリーミング・ファーストのフレームワークSparkとの比較KafkaストリームKafkaストリームプログラミングモデルSparkとの比較クラウドAWS上のAmazon Kinesisマイクロソフト Azure Stream AnalyticsApache Beam/Google Cloudデータフロー
30.先を見据えて
プラグインを維持するスタックオーバーフローで助けを求めるメーリングリストでのディスカッションを開始する会議に出席するミートアップに参加する書籍を読むApache Sparkプロジェクトに貢献する
E.第5部参考文献
インデックス

Content preview from Apache Spark によるストリーム処理

第5章. Sparkの分散処理モデル

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

分散処理システムであるSparkは、任意のワークロードを実行するために、コンピューティングリソースの可用性とアドレス指定可能性に依存している。

Sparkをスタンドアロンの分散システムとしてデプロイし、時間的な問題を解決することは可能だが、データ成熟度が進化している組織では、第3章で説明したように、完全なデータアーキテクチャをデプロイすることが求められることが多い。

この章では、Sparkとその計算環境との相互作用と、Sparkが選択した環境の特徴や制約にどのように適応する必要があるかについて議論したい。

まず、クラスタ・マネージャの現在の選択肢を調査する：クラスタ・マネージャのスコープはデータ分析の実行にとどまらないため、どのクラスタ・マネージャについても深い知識を得るためのリソースは豊富にある。ここでは、Sparkが提供するクラスタ・マネージャについて、参考資料として補足説明を行う。

クラスタ・マネージャの役割とSparkとクラスタ・マネージャの相互作用について理解した後、分散環境におけるフォールト・トレランスの側面と、その中でSparkの実行モデルがどのように機能するかについて見ていく。

この背景を理解することで、Sparkが提供するデータの信頼性保証と、それがストリーミング実行モデルにどのように適用されるかを理解する準備ができる。

クラスタマネージャでApache Sparkを実行する

私たち、まずクラスタを形成するマシンの集合にストリーム処理を分散させるという規律について見ていく。このマシンの集合は一般的な目的を持ち、ストリーミング・アプリケーションのランタイム・バイナリと起動スクリプトを受け取る必要がある。これは、プロビジョニングとして知られているものだ。実際、最新のクラスタは自動的に管理され、多数のマシンを含んでいる。、マルチテナントの状況にある。つまり、多くの利害関係者が、ビジネスの1日のさまざまな時間に同じクラスタにアクセスして使用することを望んでいる。そのため、クラスタはクラスタ・マネージャによって管理される。

クラスタ・マネージャは、多くのユーザーから利用要求を受け取り、それらをいくつかのリソースにマッチングさせ、ユーザーに代わってリソースを一定期間予約し、ユーザー・アプリケーションを多くのリソースに配置して使用させるソフトウェアの一部である。クラスタ・マネージャの役割の課題には、利用可能なマシンのプールの中でユーザー要求を最適に配置したり、複数のユーザーが同じ物理インフラを共有する場合にユーザー・アプリケーションを安全に分離したりするような、自明ではないタスクが含まれる。クラスタ・マネージャの利点には、タスクの断片化、最適な配置、可用性、先取り、優先順位付けなどがある。したがって、クラスタ管理はApache Sparkの範疇を超えた、それ自体の学問分野である。代わりに、Apache Sparkは既存のクラスタ・マネージャを活用して、クラスタ上でワークロードを分散する。

クラスターマネージャーの例

よく使われるクラスタ・マネージャの例としては、以下のようなものがある：

Apache YARNは、Apache Hadoopプロジェクトから生まれた比較的成熟したクラスタ・マネージャである。
Apache Mesosは、Linuxのコンテナ技術をベースにしたクラスタ・マネージャーであり、Apache ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341650602

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design