book

高性能Spark

Name: 高性能Spark
ISBN: 9798341634916

by Holden Karau, Rachel Warren

March 2025

Intermediate to advanced

358 pages

6h 18m

Japanese

O'Reilly Media, Inc.

Read now

Unlock full access

序文
初版ノート関連書籍・資料本書で使用されている慣例コード例を使うオライリー・サファリ著者への連絡方法問い合わせ先謝辞
1.高性能スパーク入門
Sparkとは何か、なぜパフォーマンスが重要なのか？本書で得られるものSparkバージョンなぜScalaなのか？Sparkのエキスパートになるには、とにかくScalaを少し学ぶ必要があるScalaのAPIはJavaのAPIよりも使いやすい。ScalaはPythonよりも高性能であるなぜScalaではないのか？Scalaを学ぶ結論
2.Sparkの仕組み
ビッグデータのエコシステムにおけるSparkの位置づけスパーク・コンポーネント並列計算のSparkモデル：RDD怠惰な評価インメモリ永続性とメモリ管理不変性とRDDインタフェースRDDの種類RDD上の関数：変換とアクションの比較広い依存と狭い依存Sparkジョブスケジューリングアプリケーション間のリソース配分スパーク・アプリケーションスパーク・ジョブの解剖学DAG求人情報ステージタスク結論
3.データフレーム、データセット、Spark SQL
SparkSession（またはHiveContextまたはSQLContext）を使い始めるSpark SQLの依存関係Sparkの依存関係を管理するハイブJARを避けるスキーマの基本データフレームAPI変貌複数データフレームの変換古いSQLクエリとHiveデータとの対話データフレームとデータセットでのデータ表現タングステンデータの読み込みと保存関数DataFrameWriterとDataFrameReader形式セーブモードパーティション（ディスカバリーとライティング）データセットRDD、DataFrame、ローカル・コレクションとの相互運用性コンパイル時の強い型付けより簡単な関数（RDD「のような」）変換関係性の変革マルチデータセット・リレーショナル変換データセットに対するグループ化演算子ユーザ定義関数と集約関数（UDF、UDAF）による拡張クエリ・オプティマイザ論理的プランと物理的プランコード生成大規模クエリプランと反復アルゴリズムSpark SQLクエリのデバッグJDBC/ODBCサーバ結論
4.結合（SQLとコア）
コア・スパークが加入ジョイン・タイプを選択する実行プランを選択するSpark SQL ジョインデータフレームの結合データセット・ジョイン結論
5.効果的なトランスフォーメーション
ナローとワイドの違いパフォーマンスへの影響フォールト・トレランスへの影響coalesceの特殊化変革が返すRDDのタイプは？オブジェクトの作成を最小限に抑える既存のオブジェクトを再利用するより小さなデータ構造を使うmapPartitionsによるイテレータ間の変換イテレータ間の変換とは何か？スペースと時間の利点一例セット演算子セットアップのオーバーヘッドを減らす共有変数ブロードキャスト変数アキュムレータRDDを再利用する再利用のケースリコンピュートが十分に安価かどうかを判断する再利用の種類：キャッシュ、パーシスト、チェックポイント、シャッフルファイルアルキシオ（旧姓タキオン）LRUキャッシュノイジークラスターに関する考察アキュムレータとの相互作用結論
6.キー／バリュー・データを扱う
ゴルディロックスの例ゴルディロックス・バージョン0：反復的解決策PairRDDFunctionsとOrderedRDDFunctionsの使い方キーと値のペアに対するアクションgroupByKey関数の何が危険なのか？ゴルディロックス・バージョン1：groupByKeyソリューションアグリゲーション・オペレーションの選択パフォーマンスを考慮した集計演算の辞書複数のRDD演算子コ・グルーピングパーティショナーとキー／バリュー・データSparkパーティショナーオブジェクトを使うハッシュ・パーティショニングレンジ・パーティショニングカスタムパーティショニング変換をまたいでパーティショニング情報を保持する共同ロケーションと共同パーティションRDDの活用マッピングとパーティショニング関数の辞書 PairRDDFunctionsOrderedRDDOperationsの辞書SortByKeyで2つのキーでソートするセカンダリーソートとrepartitionAndSortWithinPartitionsrepartitionAndSortWithinPartitionsをキーによるグループ化とソート値の関数に活用する。2つの順序でソートしない方法ゴルディロックス・バージョン2：セカンダリー・ソートゴルディロックスへの異なるアプローチゴルディロックス・バージョン3：セルの値でソートするはぐれ検出とアンバランスデータゴルディロックスに戻る（再び）ゴルディロックス・バージョン4：各パーティションでDistinctに削減する結論
7.Scalaを超える。
JVMの中でScalaを超えるScalaを超え、JVMを超えるPySparkの仕組みSparkRの仕組みSpark.jl（ジュリア・スパーク）エクレアJSの仕組み共通言語ランタイム（CLR）上のSpark - C#とその仲間たちSparkから他の言語を呼び出すパイプ＆フレンズを使うJNIJavaネイティブ・アクセス（JNA）すべての根底にはFORTRANがあるGPUにたどり着く未来結論
8.テストとバリデーション
単体テスト一般化単体テストRDDをモックするテストデータの取得大規模データセットを生成するサンプリングScalaCheckでプロパティをチェックするRDDの差を計算する統合テスト統合テスト環境を選択するパフォーマンスを検証するパフォーマンス検証のためのカウンタパフォーマンス検証プロジェクト仕事の検証結論
9.Spark MLlibとML
Spark MLlibとSpark MLを選ぶMLlibで作業するMLlibを始める（組織とインポート）MLlibフィーチャーエンコーディングとデータ準備特徴のスケーリングと選択MLlibモデルのトレーニング予測奉仕と執念モデル評価Spark MLを使うSpark ML の組織とインポートパイプラインの段階パラメーターを説明するデータエンコーディングデータクリーニングSpark MLモデルすべてをパイプラインにまとめるパイプラインを育成する各ステージにアクセスするデータ永続性とSpark ML独自のアルゴリズムでSpark MLパイプラインを拡張するSpark MLでモデルとパイプラインの永続化とサービングを行うサーブの一般化結論

10.Spark コンポーネントとパッケージ
Sparkによるストリーム処理ソースとシンクバッチ間隔データのチェックポイント間隔Dストリームに関する考察構造化ストリーミングに関する考察高可用性モード（またはドライバの障害やチェックポイントへの対応）グラフエックスコミュニティ・パッケージとライブラリを利用するSparkパッケージの作成結論
A.チューニング、デバッグ、その他開発者が存在しないことにしたがること
Sparkのチューニングとクラスタサイジングスパークセッティングの調整方法クラスタに関する関連情報を決定する方法Sparkコアの基本セット：Sparkアプリケーションに割り当てるリソース数は？エクゼキュータとドライバのメモリ・オーバーヘッドを計算するスパークドライバーの大きさ少数の大執行者か、多数の小執行者か？クラスタリソースの割り当てと動的割り当て一人の執行者の中でスペースを分けるパーティションの数とサイズシリアライゼーション・オプションクライオその他のデバッグテクニック
インデックス

Content preview from 高性能Spark

第5章. 効果的なトランスフォーメーション

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

安定したストレージからRDD形式にデータを読み取り、RDDに対して多くの計算とデータ構造を実行し、結果のRDDを安定したストレージに書き込んだり、ドライバーに収集したりする。このように、Sparkのパワーのほとんどは、RDD上で定義されRDDを返す演算子である変換から生まれる。

現在のところ、Sparkには約半ダースのタイプのRDDに特化した機能があり、それぞれが独自の特性と数多くの異なる変換関数を持っている。このセクションでは、あなたのRDD変換、あるいは一連の変換がどのように評価されるかを考えるためのツールを提供したい。特に、これらの変換がどのような種類のRDDを返すのか、変換の間にRDDを永続化したりチェックポイントしたりすることが、計算をより効率的にするのかどうか、そして、与えられた一連の変換を、可能な限り最もパフォーマンスの高い方法で実行するにはどうすればよいのか、などである。

注

このセクションの変換は、Spark Core（およびMLlib）で使用されるRDDオブジェクトに関連するものである。RDDはSpark StreamingのDStreams内部でも使用されるが、機能や性能特性は異なる。同様に、この章で説明する関数のほとんどは、DataFrames ではまだサポートされていない。Spark SQLは異なるオプティマイザを持つため、この章の概念的には、Spark SQLの世界へ引き継がれるものばかりではない。

チップ

Sparkが前進するにつれて、Datasets上でより多くのRDD変換、Spark SQLで使用できるようになる。

ナローとワイドの違い

第2章では、変換のタイプ間の重要な区別として、依存関係が広いものと狭いものを紹介した。この区別は、変換の評価方法、ひいては変換の性能に強く影響するため、重要である。この小節では、幅の広い変換と幅の狭い変換をより正確に定義し、変換が幅の広いものか幅の狭いものかを判断する方法を示し、なぜこの区別が評価と性能に重要なのかを説明する。

チップ

Sparkは遅延評価される。つまり、変換はその変換に依存するアクションが呼び出されるまで実行されない。遅延評価」で詳しく説明したように、これはフォールトトレランス、パフォーマンス、デバッグにとって重要な結果をもたらす。このヒントの情報がわかりにくい場合は、この章で必要なSpark実行エンジンの基本的な理解を得られる第2章を参照してほしい。

第2章で説明したことをまとめると、広い変換はシャッフルを必要とし、狭い変換はシャッフルを必要としない変換である。ワイドとナローの依存関係」では、ナロー変換では、子パーティション（結果のRDDのパーティション）は親パーティションの既知のサブセットに依存すると説明した。この定義は正しいが、ナロー変換の正式な定義と比べると正確さに欠ける。

Sparkの評価セマンティクスを最初に提示した2012年の論文では、"親RDDの各パーティションが、子RDDの最大1つのパーティションによって使用される "ものを、狭い依存関係を持つ変換と定義している。作成者は、広い依存関係を持つ変換を、"複数の子パーティションが（親の各パーティションに）依存する可能性がある "変換として定義している。この定義は、私たちが第2章で説明した、子RDDの依存関係に関して狭い依存関係と広い依存関係を定義したことのアナローグを述べている。対照的に、作成者の定義は、子RDDの依存関係ではなく、親RDDの依存関係という観点から、狭い依存関係と広い依存関係を定義した。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341634916

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

高性能Spark

by Holden Karau, Rachel Warren

第5章. 効果的なトランスフォーメーション

注

チップ

ナローとワイドの違い

チップ

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.