book

高性能Spark

Name: 高性能Spark
ISBN: 9798341634916

by Holden Karau, Rachel Warren

March 2025

Intermediate to advanced

358 pages

6h 18m

Japanese

O'Reilly Media, Inc.

Read now

Unlock full access

序文
初版ノート関連書籍・資料本書で使用されている慣例コード例を使うオライリー・サファリ著者への連絡方法問い合わせ先謝辞
1.高性能スパーク入門
Sparkとは何か、なぜパフォーマンスが重要なのか？本書で得られるものSparkバージョンなぜScalaなのか？Sparkのエキスパートになるには、とにかくScalaを少し学ぶ必要があるScalaのAPIはJavaのAPIよりも使いやすい。ScalaはPythonよりも高性能であるなぜScalaではないのか？Scalaを学ぶ結論
2.Sparkの仕組み
ビッグデータのエコシステムにおけるSparkの位置づけスパーク・コンポーネント並列計算のSparkモデル：RDD怠惰な評価インメモリ永続性とメモリ管理不変性とRDDインタフェースRDDの種類RDD上の関数：変換とアクションの比較広い依存と狭い依存Sparkジョブスケジューリングアプリケーション間のリソース配分スパーク・アプリケーションスパーク・ジョブの解剖学DAG求人情報ステージタスク結論
3.データフレーム、データセット、Spark SQL
SparkSession（またはHiveContextまたはSQLContext）を使い始めるSpark SQLの依存関係Sparkの依存関係を管理するハイブJARを避けるスキーマの基本データフレームAPI変貌複数データフレームの変換古いSQLクエリとHiveデータとの対話データフレームとデータセットでのデータ表現タングステンデータの読み込みと保存関数DataFrameWriterとDataFrameReader形式セーブモードパーティション（ディスカバリーとライティング）データセットRDD、DataFrame、ローカル・コレクションとの相互運用性コンパイル時の強い型付けより簡単な関数（RDD「のような」）変換関係性の変革マルチデータセット・リレーショナル変換データセットに対するグループ化演算子ユーザ定義関数と集約関数（UDF、UDAF）による拡張クエリ・オプティマイザ論理的プランと物理的プランコード生成大規模クエリプランと反復アルゴリズムSpark SQLクエリのデバッグJDBC/ODBCサーバ結論
4.結合（SQLとコア）
コア・スパークが加入ジョイン・タイプを選択する実行プランを選択するSpark SQL ジョインデータフレームの結合データセット・ジョイン結論
5.効果的なトランスフォーメーション
ナローとワイドの違いパフォーマンスへの影響フォールト・トレランスへの影響coalesceの特殊化変革が返すRDDのタイプは？オブジェクトの作成を最小限に抑える既存のオブジェクトを再利用するより小さなデータ構造を使うmapPartitionsによるイテレータ間の変換イテレータ間の変換とは何か？スペースと時間の利点一例セット演算子セットアップのオーバーヘッドを減らす共有変数ブロードキャスト変数アキュムレータRDDを再利用する再利用のケースリコンピュートが十分に安価かどうかを判断する再利用の種類：キャッシュ、パーシスト、チェックポイント、シャッフルファイルアルキシオ（旧姓タキオン）LRUキャッシュノイジークラスターに関する考察アキュムレータとの相互作用結論
6.キー／バリュー・データを扱う
ゴルディロックスの例ゴルディロックス・バージョン0：反復的解決策PairRDDFunctionsとOrderedRDDFunctionsの使い方キーと値のペアに対するアクションgroupByKey関数の何が危険なのか？ゴルディロックス・バージョン1：groupByKeyソリューションアグリゲーション・オペレーションの選択パフォーマンスを考慮した集計演算の辞書複数のRDD演算子コ・グルーピングパーティショナーとキー／バリュー・データSparkパーティショナーオブジェクトを使うハッシュ・パーティショニングレンジ・パーティショニングカスタムパーティショニング変換をまたいでパーティショニング情報を保持する共同ロケーションと共同パーティションRDDの活用マッピングとパーティショニング関数の辞書 PairRDDFunctionsOrderedRDDOperationsの辞書SortByKeyで2つのキーでソートするセカンダリーソートとrepartitionAndSortWithinPartitionsrepartitionAndSortWithinPartitionsをキーによるグループ化とソート値の関数に活用する。2つの順序でソートしない方法ゴルディロックス・バージョン2：セカンダリー・ソートゴルディロックスへの異なるアプローチゴルディロックス・バージョン3：セルの値でソートするはぐれ検出とアンバランスデータゴルディロックスに戻る（再び）ゴルディロックス・バージョン4：各パーティションでDistinctに削減する結論
7.Scalaを超える。
JVMの中でScalaを超えるScalaを超え、JVMを超えるPySparkの仕組みSparkRの仕組みSpark.jl（ジュリア・スパーク）エクレアJSの仕組み共通言語ランタイム（CLR）上のSpark - C#とその仲間たちSparkから他の言語を呼び出すパイプ＆フレンズを使うJNIJavaネイティブ・アクセス（JNA）すべての根底にはFORTRANがあるGPUにたどり着く未来結論
8.テストとバリデーション
単体テスト一般化単体テストRDDをモックするテストデータの取得大規模データセットを生成するサンプリングScalaCheckでプロパティをチェックするRDDの差を計算する統合テスト統合テスト環境を選択するパフォーマンスを検証するパフォーマンス検証のためのカウンタパフォーマンス検証プロジェクト仕事の検証結論
9.Spark MLlibとML
Spark MLlibとSpark MLを選ぶMLlibで作業するMLlibを始める（組織とインポート）MLlibフィーチャーエンコーディングとデータ準備特徴のスケーリングと選択MLlibモデルのトレーニング予測奉仕と執念モデル評価Spark MLを使うSpark ML の組織とインポートパイプラインの段階パラメーターを説明するデータエンコーディングデータクリーニングSpark MLモデルすべてをパイプラインにまとめるパイプラインを育成する各ステージにアクセスするデータ永続性とSpark ML独自のアルゴリズムでSpark MLパイプラインを拡張するSpark MLでモデルとパイプラインの永続化とサービングを行うサーブの一般化結論

10.Spark コンポーネントとパッケージ
Sparkによるストリーム処理ソースとシンクバッチ間隔データのチェックポイント間隔Dストリームに関する考察構造化ストリーミングに関する考察高可用性モード（またはドライバの障害やチェックポイントへの対応）グラフエックスコミュニティ・パッケージとライブラリを利用するSparkパッケージの作成結論
A.チューニング、デバッグ、その他開発者が存在しないことにしたがること
Sparkのチューニングとクラスタサイジングスパークセッティングの調整方法クラスタに関する関連情報を決定する方法Sparkコアの基本セット：Sparkアプリケーションに割り当てるリソース数は？エクゼキュータとドライバのメモリ・オーバーヘッドを計算するスパークドライバーの大きさ少数の大執行者か、多数の小執行者か？クラスタリソースの割り当てと動的割り当て一人の執行者の中でスペースを分けるパーティションの数とサイズシリアライゼーション・オプションクライオその他のデバッグテクニック
インデックス

Content preview from 高性能Spark

インデックス

シンボル

!(否定)演算子、単純なDataFrame変換とSQL式
!==（非等価演算子）、単純なDataFrame変換とSQL式
カラムの検索、単純な DataFrame 変換、SQL 式に使用する $ 演算子。
===（等価演算子）、単純なDataFrame変換、SQL式

A

アキュムレータ,アキュムレータ
- キャッシュとの相互作用,アキュムレータとの相互作用
- ストリーミング高可用性モード,高可用性モード（またはドライバの障害やチェックポイントの処理）
- ジョブ検証のための使用,ジョブ検証
アキュムレータV2インタフェース、アキュムレータ
アクション,遅延評価
- アーキテクチャの意味,Sparkジョブのスケジューリング,Sparkジョブの解剖学
- キーと値のペアに関するアクション, キーと値のペアに関するアクション
- ストリーミングテストの基本クラス, StreamActionBase,ストリーミング
- 対RDDの変換,RDD上の関数：変換とアクションの比較
加算関数、アキュムレータ
agg API、集計とgroupBy、データセットに対するグループ化操作
aggregateByKey関数,既知のパーティショナーを代入して結合を高速化する。
- におけるメモリ割り当ての回避,パフォーマンスを考慮した集約操作の辞書
- マップサイドの組み合わせ,集約操作でのメモリ不足エラーの防止
- 最適化,既存のオブジェクトの再利用
- パフォーマンスの考慮,パフォーマンスを考慮した集約操作の辞書
aggregateColumnFrequencies関数、各パーティションの値をソートしカウントする。
集合体
- 集約とgroupBy,集約とgroupBy
- key/value データに対する集計演算の選択,集計演算の選択-RDDの乗算演算子
  - 性能に問題のある演算子の辞書,性能を考慮した集約演算の辞書
  - メモリ不足エラーの防止,集約操作によるメモリ不足エラーの防止
- ウィンドウ上の集計を計算する,Windowing
- ユーザ定義集約関数でSpark SQLを拡張する、ユーザ定義関数と集約関数（UDF、UDAF）で拡張する。
- ゴルディロックス最終例の各パーティションで、((セル値, 列インデックス), カウント)に集計する。
- Datasets,Grouped Operations on Datasetsでグループ化されたデータに対して行う。
- 最適化, 集計オブジェクトとして配列を使う,より小さなデータ構造を使う
- キーによってレコード数を減らす、GroupByKeyが失敗する理由
- 既存オブジェクトの再利用,既存オブジェクトの再利用
- ワイド変換の高速化,キー／バリュー・データでの作業
- ナイーブベイズのための構造化ストリーミング集約,構造化ストリーミングによるマシン学習
- 悪い暗黙変換（例）,より小さいデータ構造を使う
エイリアス演算子、単純なDataFrame変換とSQL式
Anaconda、CDHクラスタへのパッケージ追加、PySpark依存性管理
アパッチ・バヒール・プロジェクト、ソースとシンク
Apache Parquet(Parquetファイル参照)
Apache Toree、エクレアJSの仕組み
アペンド（セーブモード）、セーブモード
アプリケーション（Spark）,Sparkアプリケーション
- アプリケーションツリー,Sparkジョブの解剖学
ArrayBufferの代わりにマップまたはflatMapを使用した例
配列
- Spark SQL、関数、単純なDataFrame変換とSQL式
- メモリ効率のために、より小さなデータ構造を使う
演算子として、単純なDataFrame変換とSQL式 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341634916

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

高性能Spark

by Holden Karau, Rachel Warren

インデックス

シンボル

A

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.