第30章. 先を見据えて
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
Apache Sparkは動きの速いプロジェクトだ。
Spark Streaming は、Resilient Distributed Datasets (RDDs)と、プログラマが慣れ親しんでいるJava、Scala、Pythonのオブジェクトの上に構築された、比較的低レベルの古いAPIである。 Spark Streamingは、多くのプロダクションレベルのアプリケーションでテストされ、デプロイされている。 安定したAPIであり、メンテナンスに労力を費やしていると考えることができる。
構造化ストリーミングは、SparkのデータセットAPIとデータフレームAPIをベースに構築されており、CatalystエンジンやTungstenプロジェクトのコード生成とメモリ管理など、Apache SparkがSpark SQLを通じて導入した素晴らしい最適化作業をフルに活用している。 この意味で、構造化ストリーミングはApache Sparkにおけるストリーミングの未来であり、当面の主な開発努力の場である。 このように、構造化ストリーミングは、連続処理などのエキサイティングな新開発を提供している。
Structured Streaming は、ストリーム処理のための新しいフレームワークであり、そのため成熟していないことに言及する必要がある。特に、本書の機械学習の章では、このことを概説した。 機械学習に重点を置いたプロジェクトに着手する場合は、このことを念頭に置いておくことが重要である。 機械学習に対する現在の関心を考えると、Sparkの将来のバージョンでは、この分野が改善され、ストリーミング・モードでサポートされるアルゴリズムが増えることを期待したい。 両APIの提供するものを正確に評価するためのすべての要素を提供できたと思う。
それは、このスペースでどのように学び、改善し続けるかということだ。
プラグインを維持する
Apache Sparkの最も強力な側面の1つは、常にそのコミュニティである。
Apache Sparkはオープンソースプロジェクトとして、図30-1に示すように、個人や企業からの貢献を包括的で一貫性のあるコードベースに活用することに非常に成功している。
図30-1. Spark 貢献のタイムライン
Apache SparkのGitHubページは、その着実な開発ペースの証拠であり、200人以上の開発者が各リリースに貢献し、貢献者の合計は数千人に上る。
コミュニティと連絡を取るためのチャネルはいくつか確立されている。
スタックオーバーフローで助けを求める
Q&Aコミュニティとして有名なStack Overflowは、Spark関連の質問について議論するのに非常に活発な場所だ。 新しい質問をする前に、まずこのWebサイトで既存の回答を検索することをお勧めする。なぜなら、あなたの前の人がすでに同じか似たようなクエリを持っている可能性があるからだ。
メーリングリストでのディスカッションを開始する
Apache Sparkコミュニティは常に2つのメーリングリストに大きく依存しており、そこではApache ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access