Skip to Content
Apache Spark によるストリーム処理
book

Apache Spark によるストリーム処理

by Gerard Maas, Francois Garillot
May 2025
Intermediate to advanced
452 pages
6h 3m
Japanese
O'Reilly Media, Inc.
Content preview from Apache Spark によるストリーム処理

第11章. 構造化ストリーミング・シンク

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com

前章では、構造化ストリーミングが処理するためのデータを取得するための抽象化であるソースについて学んだ。 データが処理された後、我々はそのデータを使って何かをしたいと思うだろう。 後でクエリするためにデータベースに書き込んだり、さらに(バッチ)処理するためにファイルに書き込んだり、データを動かし続けるために別のストリーミングバックエンドに書き込んだりしたいかもしれない。

Structured Streamingでは、シンクは外部システムへのデータ作成方法を表す抽象化である。 Structured Streamingにはいくつかのビルトインソースが付属しており、ネイティブにはサポートされていない他のシステムへのカスタムシンクを作成できるAPIを定義している。

この章では、シンクがどのように機能するかを見て、Structured Streamingが提供するシンクの詳細を確認し、デフォルトの実装ではサポートされていないシステムにデータを書き込むためのカスタムシンクの作成方法を探る。

シンクを理解する

シンクは、 、構造化ストリーミングの内部データ表現と外部システム間の出力アダプターとして機能する。 ストリーム処理の結果得られるデータの書き込みパスを提供する。 さらに、信頼性の高いデータ配信のループを閉じる必要もある。

エンドツーエンドの信頼できるデータ配信に参加するために、シンク( )はべき等書き込みオペレーションを提供しなければならない。べき等とは、オペレーションを2回以上実行した結果が、オペレーションを1回実行した結果と等しいことを意味する。 障害から復旧する際、Sparkは障害発生時に部分的に処理されたデータを再処理することがある。 ソースの側では、これは再生機能を使用することで行われる。ソースを理解する」を思い出してほしいが信頼できるソースは、所定のオフセットに基づいて、コミットされていないデータを再生する手段を提供しなければならない。 同様に、シンクは、 、重複レコードを外部ソースに書き込む前に削除する手段を提供しなければならない。

、再生可能なソースとべき等なシンクの組み合わせが、構造化ストリーミングに、実質的に正確に一度だけデータを配信するセマンティクスを与えている。べき等な要件を実装できないシンクは、エンドツーエンドの配信保証が、 、せいぜい「少なくとも一度」のセマンティクスになる。ストリーミングプロセスの失敗から回復できないシンクは、データを失う可能性があるため、「信頼できない」とみなされる。

次のセクションでは、構造化ストリーミングで利用可能なシンクについて詳しく説明する。

サードパーティのベンダが、自社製品向けにカスタム構造化ストリーミング・シンクを提供している場合がある。 これらの外部シンクをプロジェクトに組み込む場合は、そのベンダのドキュメントを参照し、サポートしているデータ配信保証を確認すること。

利用可能なシンク

Structured Streaming には、サポートされているソースにマッチするいくつかのシンクと、一時記憶装置やコンソールにデータを出力するシンクが付属している。 大雑把に言えば、提供されているシンクを信頼性の高いものと学習/実験サポートに分けることができる。 さらに、任意の外部システムと連携できるプログラマブル・インタフェースも提供されている。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

Apache Flinkによるストリーム処理

Apache Flinkによるストリーム処理

Fabian Hueske, Vasiliki Kalavri

Publisher Resources

ISBN: 9798341650602