book

スパーク定義ガイド

Name: スパーク定義ガイド
ISBN: 9798341627567

by Bill Chambers, Matei Zaharia

March 2025

Intermediate to advanced

606 pages

Japanese

O'Reilly Media, Inc.

Read now

Unlock full access

序文
著者についてこの本は誰のためにあるのか？本書で使用されている慣例コード例を使うオライリー・サファリ問い合わせ先謝辞
I.ビッグデータとスパークの概要
1.Apache Sparkとは何か？
Apacheスパークの哲学コンテキストビッグデータ問題スパークの歴史スパークの現在と未来ランニング・スパークローカルにSparkをダウンロードするSparkのインタラクティブ・コンソールを立ち上げるクラウドでSparkを実行する本書で使用したデータ
2.スパーク入門
Sparkの基本アーキテクチャスパーク・アプリケーションSparkの言語APISparkのAPIスターティング・スパークスパークセッションデータフレームパーティション変貌怠惰な評価行動スパークUIエンド・ツー・エンドの例データフレームとSQL結論
3.Sparkのツールセット・ツアー
プロダクション・アプリケーションの実行データセット：型安全な構造化API構造化ストリーミングマシンラーニングと高度分析下位APIスパークRSparkのエコシステムとパッケージ結論
II.構造化API-データフレーム、SQL、データセット
4.構造化APIの概要
データフレームとデータセットスキーマ構造化Sparkタイプの概要データフレームとデータセットコラム列スパークの種類構造化API実行の概要ロジカル・プランニング物理的計画実行結論
5.基本的な構造化演算子
スキーマコラムと式コラム式レコードと行行を作成するデータフレームの変換データフレームの作成selectとselectExprSpark型（リテラル）に変換するカラムを追加する列の名前を変更する予約文字とキーワード大文字と小文字の区別コラムを削除する列のタイプを変更する（キャスト）行をフィルタリングするユニーク行を取得するランダム・サンプルランダム・スプリッツ行の連結と追加（ユニオン）行をソートするリミット分割と合体ドライバーに行を集める結論
6.さまざまな種類のデータを扱う
APIをどこで探すかSpark型に変換するブールを扱う数字を扱う文字列を扱う正規表現日付とタイムスタンプを扱うデータでヌルを扱うコアレッセifnull、nullIf、nvl、およびnvl2ドロップフィル置き換えるご注文複雑な型を扱う構造配列スプリット配列の長さarray_contains爆発するマッピングJSONを扱うユーザ定義関数結論
7.集計
集約関数カウントカウント・ディスティンクトapprox_count_distinct最初と最後最小と最大合計区別の和アヴグ分散と標準偏差歪度と尖度共分散と相関複雑な型に集約するグループ分け式を使ったグループ化マッピングでグループ化するWindows関数グループ化セットロールアップキューブメタデータをグループ化するピボットユーザ定義の集約関数結論

8.参加者
式に参加する参加タイプインナー・ジョイントアウター・ジョイン左アウター・ジョイン右アウター・ジョイン左セミ・ジョイン左アンチジョインナチュラル・ジョインズクロス（デカルト）結合ジョインを使用する際の課題複合型の結合重複するカラム名の処理Sparkはどのように結合を実行するのか？コミュニケーション戦略結論
9.データソース
データソースAPIの構造API構造を読み取るデータ読みの基本API構造を書くデータの書き方の基本CSVファイルCSVオプションCSVファイルの読み取りCSVファイルを書くJSONファイルJSONオプションJSONファイルの読み取りJSONファイルを書くパーケットファイルパーケットファイルの読み取りパーケットファイルを書くORCファイルオークファイルの読み取りオークファイルを書くSQLデータベースSQLデータベースからの読み取りクエリ・プッシュダウンSQLデータベースへの書き込みテキストファイルテキストファイルの読み取りテキストファイルを書く高度なI/O概念分割可能なファイルタイプと圧縮並行してデータを読み取る並列にデータを書き込む複雑な型を書くファイルサイズの管理結論
10.スパークSQL
SQLとは何か？ビッグデータとSQL：Apache HiveビッグデータとSQL：Spark SQLスパークとハイブの関係Spark SQLクエリの実行方法Spark SQL CLISparkのプログラムSQLインタフェースSparkSQL Thrift JDBC/ODBCサーバカタログテーブルSparkが管理するテーブルテーブルの作成外部テーブルの作成テーブルに挿入するテーブルのメタデータを記述するテーブルのメタデータを更新するテーブルをドロップするキャッシュテーブルビュービューの作成再生回数の減少データベースデータベースの作成データベースをセットするデータベースを削除するセレクト文case...when...then文アドバンス・トピックス複雑なタイプ関数サブクエリその他の特徴コンフィギュレーションSQLで設定値を設定する結論
11.データセット
データセットをいつ使うかデータセットを作成するJavaで：エンコーディングScalaで：ケースクラス行動変貌フィルタリングマッピング参加グループ化と集約結論
III.低レベルAPI
12.レジリエンス分散データセット(RDDs)
低レベルAPIとは何か？ローレベルAPIはいつ使うのか？ローレベルAPIを使うには？RDDについてRDDの種類RDDはいつ使うのか？ケースクラスのデータセットとRDDRDDを作成するデータフレーム、データセット、RDD間の相互運用地元コレクションよりデータソースよりRDDを操作する変貌明確である。フィルタリングマッピングソートランダム・スプリッツ行動減らすカウント第一最大と最小取るファイルを保存するsaveAsTextFileシーケンスファイルHadoopファイルキャッシュチェックポイントRDDをシステムコマンドにパイプするマップ・パーティション各パーティショングロム結論
13.高度なRDD
キー・バリューの基本（キー・バリューRDD）キーバイ価値観のマッピングキーと値を抽出するルックアップサンプル・バイ・キーアグリゲーションカウント・バイ・キーアグリゲーションの実装を理解するその他の集計メソッドコ・グループ参加インナー・ジョインジップスパーティションをコントロールするまとまる分割パーティション内で再パーティション化するカスタムパーティショニングカスタムシリアライゼーション結論
14.分散共有変数
ブロードキャスト変数アキュムレータ基本例カスタムアキュムレータ結論
IV.生産アプリケーション
15.Sparkはどのようにクラスタ上で実行されるか？
Sparkアプリケーションのアーキテクチャ実行モードSparkアプリケーションのライフサイクル（Spark以外）クライアントからのリクエスト打ち上げ実行完成Sparkアプリケーションのライフサイクル（Inside Spark）スパークセッション論理的指示スパークの仕事ステージタスク実行内容パイプラインシャッフルの持続性結論
16.Sparkアプリケーションの開発
Sparkアプリケーションを書くScalaベースのシンプルなアプリPythonアプリケーションを書くJavaアプリケーションを書くSparkアプリケーションをテストする戦略的原則戦術的要点単体テストフレームワークに接続するデータソースに接続する開発プロセスアプリケーションを起動するアプリケーションの起動例アプリケーションを設定するスパークコンフアプリケーション特性ランタイム・プロパティ実行プロパティメモリ管理を設定するシャッフルの振る舞いを設定する環境変数アプリケーション内でのジョブスケジューリング結論
17.Sparkのデプロイ
Sparkアプリケーションを実行するクラスタをどこにデプロイするか？オンプレミス・クラスターのデプロイクラウドのSparkクラスター・マネージャースタンドアローンモードYARN上のSparkYARNアプリケーションでSparkを設定するMesos上のSparkセキュアなデプロイ構成クラスタ・ネットワークの構成アプリケーションのスケジューリングその他の考慮事項結論
18.モニタリングとデバッグ
モニタリングの現状何を監視すべきかドライバとエクゼキュータ・プロセスクエリ、ジョブ、ステージ、タスクスパークログスパークのUISpark REST APISpark UI履歴サーバデバッグとSparkの応急処置Sparkの仕事が始まらない実行前のエラー実行中のエラー遅れているタスク、あるいははぐれているタスクスローアグリゲーションスロー・ジョーンズ読み取りと書き込みが遅いドライバがOutOfMemoryErrorまたはドライバが応答しないエクゼキュータが応答しない。結果に予期せぬ空白が生じるディスクに空き容量がないエラーシリアライゼーションエラー結論
19.パフォーマンス・チューニング
間接的なパフォーマンス向上デザインの選択RDDにおけるオブジェクトのシリアライゼーションクラスタ構成スケジューリング休息中のデータシャッフル・コンフィギュレーションメモリ・プレッシャーとガベージ・コレクションダイレクト・パフォーマンス強化パラレリズムフィルタリングの改善再分割と合体ユーザ定義関数(UDF)データの一時保存（キャッシュ）参加アグリゲーションブロードキャスト変数結論
V.ストリーミング
20.ストリーム処理の基礎
ストリーム処理とは何か？ストリーム処理の使用例ストリーム処理の利点ストリーム処理の課題ストリーム処理の設計点レコード・アット・ア・タイムAPIと宣言型APIの比較イベント時間と処理時間の比較連続実行とマイクロバッチ実行の比較SparkのストリーミングAPIDStream API構造化ストリーミング結論
21.構造化ストリーミングの基本
構造化ストリーミングの基本コア概念変貌と行動入力ソースシンク出力モードトリガーイベント・タイム処理構造化ストリーミングの実例ストリームでの変換セレクションとフィルタリングアグリゲーション参加入出力データの読み取りと書き込みの場所（ソースとシンク）Kafkaソースからの読み取りKafkaシンクに書き込むデータの出力方法（出力モード）データが出力されるとき（トリガー）ストリーミングデータセットAPI結論
22.イベント・タイム処理とステートフル処理
開催時間ステートフル処理任意のステートフル処理イベントタイムの基本イベント時のWindowsタンブリング・ウインドウズ透かしで遅れたデータを扱うストリーム内の重複を削除する任意のステートフル処理タイムアウト出力モードmapGroupsWithStateflatMapGroupsWithState（フラットマップ・グループ・ウィズ・ステート結論
23.プロダクションにおける構造化ストリーミング
フォールトトレランスとチェックポイント機能アプリケーションを更新するストリーミング・アプリケーションのコードを更新するSparkのバージョンを更新するアプリケーションのサイジングとリスケーリングメトリックとモニタリングクエリステータス最近の進展スパークUIアラートストリーミング・リスナーを使った高度なモニタリング結論
VI.高度なアナリティクスとマシンラーニング
24.高度なアナリティクスとマシンラーニングの概要
アドバンスド・アナリティクス入門教師あり学習推薦教師なし学習グラフ分析高度な分析プロセスSparkの高度分析ツールキットMLlibとは何か？MLlibの高レベル概念MLlibの活動トランスフォーマーを使ったフィーチャー・エンジニアリング見積もりワークフローをパイプライン化するトレーニングと評価モデルの持続と適用デプロイ・パターン結論
25.前処理とフィーチャーエンジニアリング
ユースケースに応じてモデルを形式化するトランスフォーマー前処理のための推定量変圧器の特性ハイレベル・トランスRFフォーミュラSQLトランスフォーマーベクターアセンブラー連続機能を使うバケットスケーリングと正規化スタンダードスケーラーカテゴリカル・フィーチャーを扱う文字列インデクサインデックス化された値をテキストに戻すベクターのインデックスワンホットエンコーディングテキスト・データ・トランスフォーマーテキストをトークン化する一般的な単語を削除する単語の組み合わせの作成言葉を数値表現に変換するワード2ベックフィーチャー操作主成分分析交流多項式展開フィーチャー・セレクションカイスクセレクタアドバンス・トピックス永続的なトランスフォーマーカスタム・トランスフォーマーを書く結論
26.分類
使用例分類の種類バイナリ分類多クラス分類マルチラベル分類MLlibの分類モデルモデルのスケーラビリティロジスティック回帰モデルのハイパーパラメータートレーニングパラメータ予測パラメータ例モデル概要決定木モデルのハイパーパラメータートレーニングパラメータ予測パラメータランダムフォレストと勾配ブーストツリーモデルのハイパーパラメータートレーニングパラメータ予測パラメータナイーブ・ベイズモデルのハイパーパラメータートレーニングパラメータ予測パラメータ分類とモデルチューニングの自動化のための評価ツール詳細な評価メトリック一対休息分類器多層パーセプトロン結論
27.回帰
使用例MLlibの回帰モデルモデルのスケーラビリティ線形回帰モデルのハイパーパラメータートレーニングパラメータ例トレーニング概要一般化線形回帰モデルのハイパーパラメータートレーニングパラメータ予測パラメータ例トレーニング概要決定木モデルのハイパーパラメータートレーニングパラメータ例ランダムフォレストと勾配ブーストツリーモデルのハイパーパラメータートレーニングパラメータ例上級メソッド生存回帰（加速故障時間）等張回帰評価者とモデルチューニングの自動化メトリック結論
28.推薦の言葉
使用例交互最小二乗法による協調フィルタリングモデルのハイパーパラメータートレーニングパラメータ予測パラメータ例推薦のための評価者メトリック回帰メトリックランキング・メトリクス頻出パターンマイニング結論
29.教師なし学習
使用例モデルのスケーラビリティk平均法モデルのハイパーパラメータートレーニングパラメータ例k-meansメトリックのまとめk-meansを二分するモデルのハイパーパラメータートレーニングパラメータ例k-meansの要約を二分するガウス混合モデルモデルのハイパーパラメータートレーニングパラメータ例ガウス混合モデルの概要潜在ディリクレ割り当てモデルのハイパーパラメータートレーニングパラメータ予測パラメータ例結論
30.グラフ分析
グラフを作るグラフをクエリするサブグラフモチーフ発見グラフ・アルゴリズムページランク学位内および学位外のメトリックブレッドファースト検索コネクテッド・コンポーネント強く結びついたコンポーネント高度なタスク結論
31.ディープ・ラーニング
ディープラーニングとは何か？SparkでDeep Learningを使う方法ディープラーニング・ライブラリMLlibニューラルネットワークサポートテンソルフレームビッグ・ディーエルTensorFlowOnSparkディープラーニング4J深層学習パイプラインDeep Learningパイプラインを使った簡単な例セットアップ画像とデータフレームトランスファー・ラーニング人気モデルの応用結論
VII.エコシステム
32.言語仕様：Python（PySpark）とR（SparkRとsparklyr）。
PySparkPySparkの基本的な違いパンダの統合R・オン・スパークスパークRキラキラ結論
33.エコシステムとコミュニティ
スパーク・パッケージ人気パッケージの抜粋リストSparkパッケージを使う外部パッケージコミュニティスパーク・サミットローカル・ミートアップ結論
インデックス

Content preview from スパーク定義ガイド

第1章 Apache Sparkとは何か？ Apache Sparkとは何か？

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

Apache Sparkは、コンピュータクラスタ上で並列データ処理を行うための統一されたコンピューティングエンジンとライブラリのセットである。本稿執筆時点で、Sparkはこのタスクのために最も活発に開発されているオープンソースエンジンであり、ビッグデータに関心のある開発者やデータサイエンティストにとって標準的なツールとなっている。Sparkは広く使われている複数のプログラミング言語（Python、Java、Scala、R）をサポートし、SQLからストリーミング、マシン学習まで多様なタスクに対応するライブラリを含み、ノートPCから数千台のサーバからなるクラスタまでどこでも動作する。このため、ビッグデータ処理や信じられないほど大規模なスケールにスケールアップすることも、簡単に始めることができる。

図1-1は、Sparkがエンドユーザに提供するすべてのコンポーネントとライブラリを示している（）。

カテゴリーが本書の各パートにほぼ対応していることに気づくだろう。本書の目的はSparkのあらゆる側面について学ぶことであり、Sparkは多くの異なるコンポーネントで構成されている。

本書を読み取り中であることを考えると、Apache Sparkとそれができることについてはすでに少し知っているかもしれない。それでもこの章では、Sparkの背後にある基本的な哲学、Sparkが開発された背景（なぜ誰もが突然並列データ処理に興奮しているのか）、そしてその歴史について簡単に説明したい。また、Sparkを実行するための最初のいくつかのステップについても概説する。

Apacheスパークの哲学

Apache Spark（ビッグデータ用統合コンピューティング・エンジンおよびライブラリ群）の説明を、主要なコンポーネントに分解してみよう：

統一された

Sparkの重要な目標（）は、ビッグデータ・アプリケーションを書くための統一プラットフォームを提供することだ。統一的とはどういう意味か？Sparkは、単純なデータロードやSQLクエリからマシン学習やストリーミング計算まで、幅広いデータ分析タスクを同じコンピューティングエンジンと一貫したAPIセットでサポートするように設計されている。この目標の背景にある主な洞察は、現実世界のデータ分析タスクは、Jupyterノートブックなどのツールでのインタラクティブな分析であれ、本番アプリケーションのための従来のソフトウェア開発であれ、多くの異なる処理タイプやライブラリを組み合わせる傾向があるということだ。

Sparkの統一された性質は、これらの作業をより簡単かつ効率的にする。第一に、Sparkは一貫性のあるコンポーザブルなAPIを提供しており、それを使ってアプリケーションを小さな断片から、あるいは既存のライブラリから構築することができる。また、その上に独自の分析ライブラリを書くのも簡単だ。しかし、コンポーザブルAPIだけでは十分ではない：SparkのAPIは、ユーザプログラム内で一緒に構成される様々なライブラリや関数を横断的に最適化することで、高いパフォーマンスを実現するようにも設計されている。例えば、SQLクエリを使ってデータをロードし、SparkのMLライブラリを使ってその上でマシン学習モデルを評価する場合、エンジンはこれらのステップを1回のデータスキャンにまとめることができる。一般化されたAPIと高性能な実行の組み合わせは、それらをどのように組み合わせても、Sparkを対話型アプリケーションやプロダクション・アプリケーションのための強力なプラットフォームにしている。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341627567

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

スパーク定義ガイド

by Bill Chambers, Matei Zaharia

第1章 Apache Sparkとは何か？ Apache Sparkとは何か？

図1-1. Sparkのツールキット

Apacheスパークの哲学

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.