book

スパーク定義ガイド

Name: スパーク定義ガイド
ISBN: 9798341627567

by Bill Chambers, Matei Zaharia

March 2025

Intermediate to advanced

606 pages

Japanese

O'Reilly Media, Inc.

Read now

Unlock full access

序文
著者についてこの本は誰のためにあるのか？本書で使用されている慣例コード例を使うオライリー・サファリ問い合わせ先謝辞
I.ビッグデータとスパークの概要
1.Apache Sparkとは何か？
Apacheスパークの哲学コンテキストビッグデータ問題スパークの歴史スパークの現在と未来ランニング・スパークローカルにSparkをダウンロードするSparkのインタラクティブ・コンソールを立ち上げるクラウドでSparkを実行する本書で使用したデータ
2.スパーク入門
Sparkの基本アーキテクチャスパーク・アプリケーションSparkの言語APISparkのAPIスターティング・スパークスパークセッションデータフレームパーティション変貌怠惰な評価行動スパークUIエンド・ツー・エンドの例データフレームとSQL結論
3.Sparkのツールセット・ツアー
プロダクション・アプリケーションの実行データセット：型安全な構造化API構造化ストリーミングマシンラーニングと高度分析下位APIスパークRSparkのエコシステムとパッケージ結論
II.構造化API-データフレーム、SQL、データセット
4.構造化APIの概要
データフレームとデータセットスキーマ構造化Sparkタイプの概要データフレームとデータセットコラム列スパークの種類構造化API実行の概要ロジカル・プランニング物理的計画実行結論
5.基本的な構造化演算子
スキーマコラムと式コラム式レコードと行行を作成するデータフレームの変換データフレームの作成selectとselectExprSpark型（リテラル）に変換するカラムを追加する列の名前を変更する予約文字とキーワード大文字と小文字の区別コラムを削除する列のタイプを変更する（キャスト）行をフィルタリングするユニーク行を取得するランダム・サンプルランダム・スプリッツ行の連結と追加（ユニオン）行をソートするリミット分割と合体ドライバーに行を集める結論
6.さまざまな種類のデータを扱う
APIをどこで探すかSpark型に変換するブールを扱う数字を扱う文字列を扱う正規表現日付とタイムスタンプを扱うデータでヌルを扱うコアレッセifnull、nullIf、nvl、およびnvl2ドロップフィル置き換えるご注文複雑な型を扱う構造配列スプリット配列の長さarray_contains爆発するマッピングJSONを扱うユーザ定義関数結論
7.集計
集約関数カウントカウント・ディスティンクトapprox_count_distinct最初と最後最小と最大合計区別の和アヴグ分散と標準偏差歪度と尖度共分散と相関複雑な型に集約するグループ分け式を使ったグループ化マッピングでグループ化するWindows関数グループ化セットロールアップキューブメタデータをグループ化するピボットユーザ定義の集約関数結論

8.参加者
式に参加する参加タイプインナー・ジョイントアウター・ジョイン左アウター・ジョイン右アウター・ジョイン左セミ・ジョイン左アンチジョインナチュラル・ジョインズクロス（デカルト）結合ジョインを使用する際の課題複合型の結合重複するカラム名の処理Sparkはどのように結合を実行するのか？コミュニケーション戦略結論
9.データソース
データソースAPIの構造API構造を読み取るデータ読みの基本API構造を書くデータの書き方の基本CSVファイルCSVオプションCSVファイルの読み取りCSVファイルを書くJSONファイルJSONオプションJSONファイルの読み取りJSONファイルを書くパーケットファイルパーケットファイルの読み取りパーケットファイルを書くORCファイルオークファイルの読み取りオークファイルを書くSQLデータベースSQLデータベースからの読み取りクエリ・プッシュダウンSQLデータベースへの書き込みテキストファイルテキストファイルの読み取りテキストファイルを書く高度なI/O概念分割可能なファイルタイプと圧縮並行してデータを読み取る並列にデータを書き込む複雑な型を書くファイルサイズの管理結論
10.スパークSQL
SQLとは何か？ビッグデータとSQL：Apache HiveビッグデータとSQL：Spark SQLスパークとハイブの関係Spark SQLクエリの実行方法Spark SQL CLISparkのプログラムSQLインタフェースSparkSQL Thrift JDBC/ODBCサーバカタログテーブルSparkが管理するテーブルテーブルの作成外部テーブルの作成テーブルに挿入するテーブルのメタデータを記述するテーブルのメタデータを更新するテーブルをドロップするキャッシュテーブルビュービューの作成再生回数の減少データベースデータベースの作成データベースをセットするデータベースを削除するセレクト文case...when...then文アドバンス・トピックス複雑なタイプ関数サブクエリその他の特徴コンフィギュレーションSQLで設定値を設定する結論
11.データセット
データセットをいつ使うかデータセットを作成するJavaで：エンコーディングScalaで：ケースクラス行動変貌フィルタリングマッピング参加グループ化と集約結論
III.低レベルAPI
12.レジリエンス分散データセット(RDDs)
低レベルAPIとは何か？ローレベルAPIはいつ使うのか？ローレベルAPIを使うには？RDDについてRDDの種類RDDはいつ使うのか？ケースクラスのデータセットとRDDRDDを作成するデータフレーム、データセット、RDD間の相互運用地元コレクションよりデータソースよりRDDを操作する変貌明確である。フィルタリングマッピングソートランダム・スプリッツ行動減らすカウント第一最大と最小取るファイルを保存するsaveAsTextFileシーケンスファイルHadoopファイルキャッシュチェックポイントRDDをシステムコマンドにパイプするマップ・パーティション各パーティショングロム結論
13.高度なRDD
キー・バリューの基本（キー・バリューRDD）キーバイ価値観のマッピングキーと値を抽出するルックアップサンプル・バイ・キーアグリゲーションカウント・バイ・キーアグリゲーションの実装を理解するその他の集計メソッドコ・グループ参加インナー・ジョインジップスパーティションをコントロールするまとまる分割パーティション内で再パーティション化するカスタムパーティショニングカスタムシリアライゼーション結論
14.分散共有変数
ブロードキャスト変数アキュムレータ基本例カスタムアキュムレータ結論
IV.生産アプリケーション
15.Sparkはどのようにクラスタ上で実行されるか？
Sparkアプリケーションのアーキテクチャ実行モードSparkアプリケーションのライフサイクル（Spark以外）クライアントからのリクエスト打ち上げ実行完成Sparkアプリケーションのライフサイクル（Inside Spark）スパークセッション論理的指示スパークの仕事ステージタスク実行内容パイプラインシャッフルの持続性結論
16.Sparkアプリケーションの開発
Sparkアプリケーションを書くScalaベースのシンプルなアプリPythonアプリケーションを書くJavaアプリケーションを書くSparkアプリケーションをテストする戦略的原則戦術的要点単体テストフレームワークに接続するデータソースに接続する開発プロセスアプリケーションを起動するアプリケーションの起動例アプリケーションを設定するスパークコンフアプリケーション特性ランタイム・プロパティ実行プロパティメモリ管理を設定するシャッフルの振る舞いを設定する環境変数アプリケーション内でのジョブスケジューリング結論
17.Sparkのデプロイ
Sparkアプリケーションを実行するクラスタをどこにデプロイするか？オンプレミス・クラスターのデプロイクラウドのSparkクラスター・マネージャースタンドアローンモードYARN上のSparkYARNアプリケーションでSparkを設定するMesos上のSparkセキュアなデプロイ構成クラスタ・ネットワークの構成アプリケーションのスケジューリングその他の考慮事項結論
18.モニタリングとデバッグ
モニタリングの現状何を監視すべきかドライバとエクゼキュータ・プロセスクエリ、ジョブ、ステージ、タスクスパークログスパークのUISpark REST APISpark UI履歴サーバデバッグとSparkの応急処置Sparkの仕事が始まらない実行前のエラー実行中のエラー遅れているタスク、あるいははぐれているタスクスローアグリゲーションスロー・ジョーンズ読み取りと書き込みが遅いドライバがOutOfMemoryErrorまたはドライバが応答しないエクゼキュータが応答しない。結果に予期せぬ空白が生じるディスクに空き容量がないエラーシリアライゼーションエラー結論
19.パフォーマンス・チューニング
間接的なパフォーマンス向上デザインの選択RDDにおけるオブジェクトのシリアライゼーションクラスタ構成スケジューリング休息中のデータシャッフル・コンフィギュレーションメモリ・プレッシャーとガベージ・コレクションダイレクト・パフォーマンス強化パラレリズムフィルタリングの改善再分割と合体ユーザ定義関数(UDF)データの一時保存（キャッシュ）参加アグリゲーションブロードキャスト変数結論
V.ストリーミング
20.ストリーム処理の基礎
ストリーム処理とは何か？ストリーム処理の使用例ストリーム処理の利点ストリーム処理の課題ストリーム処理の設計点レコード・アット・ア・タイムAPIと宣言型APIの比較イベント時間と処理時間の比較連続実行とマイクロバッチ実行の比較SparkのストリーミングAPIDStream API構造化ストリーミング結論
21.構造化ストリーミングの基本
構造化ストリーミングの基本コア概念変貌と行動入力ソースシンク出力モードトリガーイベント・タイム処理構造化ストリーミングの実例ストリームでの変換セレクションとフィルタリングアグリゲーション参加入出力データの読み取りと書き込みの場所（ソースとシンク）Kafkaソースからの読み取りKafkaシンクに書き込むデータの出力方法（出力モード）データが出力されるとき（トリガー）ストリーミングデータセットAPI結論
22.イベント・タイム処理とステートフル処理
開催時間ステートフル処理任意のステートフル処理イベントタイムの基本イベント時のWindowsタンブリング・ウインドウズ透かしで遅れたデータを扱うストリーム内の重複を削除する任意のステートフル処理タイムアウト出力モードmapGroupsWithStateflatMapGroupsWithState（フラットマップ・グループ・ウィズ・ステート結論
23.プロダクションにおける構造化ストリーミング
フォールトトレランスとチェックポイント機能アプリケーションを更新するストリーミング・アプリケーションのコードを更新するSparkのバージョンを更新するアプリケーションのサイジングとリスケーリングメトリックとモニタリングクエリステータス最近の進展スパークUIアラートストリーミング・リスナーを使った高度なモニタリング結論
VI.高度なアナリティクスとマシンラーニング
24.高度なアナリティクスとマシンラーニングの概要
アドバンスド・アナリティクス入門教師あり学習推薦教師なし学習グラフ分析高度な分析プロセスSparkの高度分析ツールキットMLlibとは何か？MLlibの高レベル概念MLlibの活動トランスフォーマーを使ったフィーチャー・エンジニアリング見積もりワークフローをパイプライン化するトレーニングと評価モデルの持続と適用デプロイ・パターン結論
25.前処理とフィーチャーエンジニアリング
ユースケースに応じてモデルを形式化するトランスフォーマー前処理のための推定量変圧器の特性ハイレベル・トランスRFフォーミュラSQLトランスフォーマーベクターアセンブラー連続機能を使うバケットスケーリングと正規化スタンダードスケーラーカテゴリカル・フィーチャーを扱う文字列インデクサインデックス化された値をテキストに戻すベクターのインデックスワンホットエンコーディングテキスト・データ・トランスフォーマーテキストをトークン化する一般的な単語を削除する単語の組み合わせの作成言葉を数値表現に変換するワード2ベックフィーチャー操作主成分分析交流多項式展開フィーチャー・セレクションカイスクセレクタアドバンス・トピックス永続的なトランスフォーマーカスタム・トランスフォーマーを書く結論
26.分類
使用例分類の種類バイナリ分類多クラス分類マルチラベル分類MLlibの分類モデルモデルのスケーラビリティロジスティック回帰モデルのハイパーパラメータートレーニングパラメータ予測パラメータ例モデル概要決定木モデルのハイパーパラメータートレーニングパラメータ予測パラメータランダムフォレストと勾配ブーストツリーモデルのハイパーパラメータートレーニングパラメータ予測パラメータナイーブ・ベイズモデルのハイパーパラメータートレーニングパラメータ予測パラメータ分類とモデルチューニングの自動化のための評価ツール詳細な評価メトリック一対休息分類器多層パーセプトロン結論
27.回帰
使用例MLlibの回帰モデルモデルのスケーラビリティ線形回帰モデルのハイパーパラメータートレーニングパラメータ例トレーニング概要一般化線形回帰モデルのハイパーパラメータートレーニングパラメータ予測パラメータ例トレーニング概要決定木モデルのハイパーパラメータートレーニングパラメータ例ランダムフォレストと勾配ブーストツリーモデルのハイパーパラメータートレーニングパラメータ例上級メソッド生存回帰（加速故障時間）等張回帰評価者とモデルチューニングの自動化メトリック結論
28.推薦の言葉
使用例交互最小二乗法による協調フィルタリングモデルのハイパーパラメータートレーニングパラメータ予測パラメータ例推薦のための評価者メトリック回帰メトリックランキング・メトリクス頻出パターンマイニング結論
29.教師なし学習
使用例モデルのスケーラビリティk平均法モデルのハイパーパラメータートレーニングパラメータ例k-meansメトリックのまとめk-meansを二分するモデルのハイパーパラメータートレーニングパラメータ例k-meansの要約を二分するガウス混合モデルモデルのハイパーパラメータートレーニングパラメータ例ガウス混合モデルの概要潜在ディリクレ割り当てモデルのハイパーパラメータートレーニングパラメータ予測パラメータ例結論
30.グラフ分析
グラフを作るグラフをクエリするサブグラフモチーフ発見グラフ・アルゴリズムページランク学位内および学位外のメトリックブレッドファースト検索コネクテッド・コンポーネント強く結びついたコンポーネント高度なタスク結論
31.ディープ・ラーニング
ディープラーニングとは何か？SparkでDeep Learningを使う方法ディープラーニング・ライブラリMLlibニューラルネットワークサポートテンソルフレームビッグ・ディーエルTensorFlowOnSparkディープラーニング4J深層学習パイプラインDeep Learningパイプラインを使った簡単な例セットアップ画像とデータフレームトランスファー・ラーニング人気モデルの応用結論
VII.エコシステム
32.言語仕様：Python（PySpark）とR（SparkRとsparklyr）。
PySparkPySparkの基本的な違いパンダの統合R・オン・スパークスパークRキラキラ結論
33.エコシステムとコミュニティ
スパーク・パッケージ人気パッケージの抜粋リストSparkパッケージを使う外部パッケージコミュニティスパーク・サミットローカル・ミートアップ結論
インデックス

Content preview from スパーク定義ガイド

第12章. レジリエンス分散データセット(RDDs)

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

前編ではSparkの構造化APIを取り上げた。ほとんど全てのシナリオにおいて、これらのAPIを重用すべきだ。とはいえ、高レベルの操作では、解決しようとしているビジネスやエンジニアリングの問題に対応できない場合もある。そのような場合は、Sparkの低レベルAPI、特にレジリエンス分散データセット（RDD）、SparkContext、アキュムレータやブロードキャスト変数のような分散共有変数を使用する必要があるかもしれない。このパートに続く章では、これらのAPIとその使い方を説明する。

警告

Sparkの初心者であれば、ここから始める必要はない。構造化APIから始めれば、より早く生産的になれるだろう！

低レベルAPIとは何か？

分散データ（RDD）を操作するためのものと、分散共有変数（ブロードキャスト変数とアキュムレータ）を分散して操作するためのものだ。

ローレベルAPIはいつ使うのか？

一般的に、下位レベルのAPIを使うべき状況は以下の3つである：

例えば、クラスタ全体の物理的なデータ配置を厳密に制御する必要がある場合などだ。
RDDを使って書かれたレガシーコードベースを保守する必要がある。
カスタムの共有変数操作を行う必要がある。共有変数については第14章で詳しく説明する。

しかし、すべてのSparkワークロードは、これらの基本的なプリミティブにコンパイルされるため、これらのツールを理解することは有用である。DataFrame変換を呼び出しているとき、それは実際にはRDD変換のセットに過ぎない。このように理解することで、より複雑なワークロードのデバッグを行う際に、作業が容易になる。

Sparkを最大限に活用したいと考えている上級開発者であっても、構造化APIに集中することをお勧めする。しかし、タスクを完了させるために、より低レベルのツールに「ドロップダウン」したい場合もあるだろう。レガシーコードを使用したり、カスタムパーティショナーを実装したり、データパイプラインの実行過程で変数の更新や追跡を行ったりするために、これらのAPIにドロップダウンする必要があるかもしれない。これらのツールは、よりきめ細かい制御を可能にしてくれる。

ローレベルAPIを使うには？

SparkContext は低レベルAPI機能のエントリ点である。SparkSessionこれはSparkクラスタ全体で計算を実行するために使用するツールである。SparkContextはSparkクラスタ全体で計算を実行するために使用するツールである。これについては第15章で詳しく説明するが、今は以下の呼び出しでSparkContextにアクセスできることを知っていればよい：

spark.sparkContext

RDDについて

RDD Spark 1.Xシリーズでは主要なAPIであり、2.Xでもまだ利用可能だが、それほど一般的には使われていない。しかし、本書の序盤で指摘したように、DataFramesであれデータセットであれ、実行するほぼすべてのSparkコードはRDDにコンパイルされる。この本の次のパートで説明するSpark UIも、ジョブの実行をRDDで説明している。従って、RDDとは何か、そしてRDDをどのように使うかについて、少なくとも基本的な理解をしておいた方が良いだろう。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341627567

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills