Skip to Content
Apache Spark によるストリーム処理
book

Apache Spark によるストリーム処理

by Gerard Maas, Francois Garillot
May 2025
Intermediate to advanced
452 pages
6h 3m
Japanese
O'Reilly Media, Inc.
Content preview from Apache Spark によるストリーム処理

第14章. 構造化ストリーミング・アプリケーションを監視する

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com

アプリケーションのモニタリング は、堅牢なデプロイに不可欠な要素である。モニタリングは、応答性、リソースの使用状況、タスク固有の指標など、アプリケーションのパフォーマンスのさまざまな側面を定量化するメトリックを収集・処理することで、アプリケーションのパフォーマンス特性に関する洞察を経時的に提供する。

ストリーミング・アプリケーションには、応答時間とスループットに関する厳しい要件がある。 Sparkのような分散アプリケーションの場合、アプリケーションのライフタイム中に考慮する必要がある変数の数は、マシンのクラスタ上で実行する複雑さによって倍増する。 クラスタのコンテキストでは、実行中のアプリケーションの統合ビューだけでなく、各ホストの観点から、異なるホスト間のCPU、メモリ、セカンダリ・ストレージなどのリソースの使用状況をタブで管理する必要がある。

例えば、あるアプリケーションが10台の異なるエクゼキューターで動作しているとする。 メモリ使用量の合計インジケーターは15%の増加を示しており、このアプリケーションにとっては予想される許容範囲内かもしれないが、その増加は単一ノードから生じていることに気づく。 このような不均衡は、そのノードがメモリ不足に陥ったときに障害を引き起こす可能性があるため、調査が必要である。また、ボトルネックの原因となっている作業の不均衡な分配が潜在的に存在することも示唆している。 適切なモニタリングがなければ、そもそもこのような振る舞いを観察することはできないだろう。

構造化ストリーミングの演算子は、3つの異なるチャンネルを通じて公開することができる:

  • Sparkメトリックサブシステム

  • writeStream.start オペレーションによって返されたStreamingQuery インスタンス。

  • StreamingQueryListener インタフェース

以下のセクションで詳述するように、これらのインタフェースは、異なるモニタリングのニーズに対応するために、異なる詳細度と露出度を提供している。

Spark メトリクスサブシステム

Spark メトリクス・サブシステムは、構成可能なメトリクスの収集とレポート API を提供し、プラグイン可能なシンク・インタフェースを備えている。 Spark には、HTTP、JMX、カンマ区切り値(CSV)ファイルなど、いくつかのシンクが付属している。 それに加えて、ライセンスの制限により追加のコンパイル・フラグが必要な Ganglia シンクもある。

HTTPシンクはデフォルトで有効になっている。 これは、Spark UIと同じポートのドライバホスト上のエンドポイントを登録するサーブレットによって実装されている。メトリックは、/metrics/json エンドポイントでアクセスできる。他のシンクは、設定によって有効にすることができる。所定のシンクの選択は、統合したいモニタリングインフラによって決定される。 例えば、JMXシンクは、Kubernetesクラスタスケジューラで人気のメトリックコレクターであるPrometheusと統合するための一般的なオプションである。

構造化ストリーミングのメトリック

Structured Streamingジョブからメトリックを取得するには、まず、そのようなメトリックの内部レポートを有効にする必要がある。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

Apache Flinkによるストリーム処理

Apache Flinkによるストリーム処理

Fabian Hueske, Vasiliki Kalavri

Publisher Resources

ISBN: 9798341650602