book

スパーク定義ガイド

Name: スパーク定義ガイド
ISBN: 9798341627567

by Bill Chambers, Matei Zaharia

March 2025

Intermediate to advanced

606 pages

Japanese

O'Reilly Media, Inc.

Read now

Unlock full access

序文
著者についてこの本は誰のためにあるのか？本書で使用されている慣例コード例を使うオライリー・サファリ問い合わせ先謝辞
I.ビッグデータとスパークの概要
1.Apache Sparkとは何か？
Apacheスパークの哲学コンテキストビッグデータ問題スパークの歴史スパークの現在と未来ランニング・スパークローカルにSparkをダウンロードするSparkのインタラクティブ・コンソールを立ち上げるクラウドでSparkを実行する本書で使用したデータ
2.スパーク入門
Sparkの基本アーキテクチャスパーク・アプリケーションSparkの言語APISparkのAPIスターティング・スパークスパークセッションデータフレームパーティション変貌怠惰な評価行動スパークUIエンド・ツー・エンドの例データフレームとSQL結論
3.Sparkのツールセット・ツアー
プロダクション・アプリケーションの実行データセット：型安全な構造化API構造化ストリーミングマシンラーニングと高度分析下位APIスパークRSparkのエコシステムとパッケージ結論
II.構造化API-データフレーム、SQL、データセット
4.構造化APIの概要
データフレームとデータセットスキーマ構造化Sparkタイプの概要データフレームとデータセットコラム列スパークの種類構造化API実行の概要ロジカル・プランニング物理的計画実行結論
5.基本的な構造化演算子
スキーマコラムと式コラム式レコードと行行を作成するデータフレームの変換データフレームの作成selectとselectExprSpark型（リテラル）に変換するカラムを追加する列の名前を変更する予約文字とキーワード大文字と小文字の区別コラムを削除する列のタイプを変更する（キャスト）行をフィルタリングするユニーク行を取得するランダム・サンプルランダム・スプリッツ行の連結と追加（ユニオン）行をソートするリミット分割と合体ドライバーに行を集める結論
6.さまざまな種類のデータを扱う
APIをどこで探すかSpark型に変換するブールを扱う数字を扱う文字列を扱う正規表現日付とタイムスタンプを扱うデータでヌルを扱うコアレッセifnull、nullIf、nvl、およびnvl2ドロップフィル置き換えるご注文複雑な型を扱う構造配列スプリット配列の長さarray_contains爆発するマッピングJSONを扱うユーザ定義関数結論
7.集計
集約関数カウントカウント・ディスティンクトapprox_count_distinct最初と最後最小と最大合計区別の和アヴグ分散と標準偏差歪度と尖度共分散と相関複雑な型に集約するグループ分け式を使ったグループ化マッピングでグループ化するWindows関数グループ化セットロールアップキューブメタデータをグループ化するピボットユーザ定義の集約関数結論

8.参加者
式に参加する参加タイプインナー・ジョイントアウター・ジョイン左アウター・ジョイン右アウター・ジョイン左セミ・ジョイン左アンチジョインナチュラル・ジョインズクロス（デカルト）結合ジョインを使用する際の課題複合型の結合重複するカラム名の処理Sparkはどのように結合を実行するのか？コミュニケーション戦略結論
9.データソース
データソースAPIの構造API構造を読み取るデータ読みの基本API構造を書くデータの書き方の基本CSVファイルCSVオプションCSVファイルの読み取りCSVファイルを書くJSONファイルJSONオプションJSONファイルの読み取りJSONファイルを書くパーケットファイルパーケットファイルの読み取りパーケットファイルを書くORCファイルオークファイルの読み取りオークファイルを書くSQLデータベースSQLデータベースからの読み取りクエリ・プッシュダウンSQLデータベースへの書き込みテキストファイルテキストファイルの読み取りテキストファイルを書く高度なI/O概念分割可能なファイルタイプと圧縮並行してデータを読み取る並列にデータを書き込む複雑な型を書くファイルサイズの管理結論
10.スパークSQL
SQLとは何か？ビッグデータとSQL：Apache HiveビッグデータとSQL：Spark SQLスパークとハイブの関係Spark SQLクエリの実行方法Spark SQL CLISparkのプログラムSQLインタフェースSparkSQL Thrift JDBC/ODBCサーバカタログテーブルSparkが管理するテーブルテーブルの作成外部テーブルの作成テーブルに挿入するテーブルのメタデータを記述するテーブルのメタデータを更新するテーブルをドロップするキャッシュテーブルビュービューの作成再生回数の減少データベースデータベースの作成データベースをセットするデータベースを削除するセレクト文case...when...then文アドバンス・トピックス複雑なタイプ関数サブクエリその他の特徴コンフィギュレーションSQLで設定値を設定する結論
11.データセット
データセットをいつ使うかデータセットを作成するJavaで：エンコーディングScalaで：ケースクラス行動変貌フィルタリングマッピング参加グループ化と集約結論
III.低レベルAPI
12.レジリエンス分散データセット(RDDs)
低レベルAPIとは何か？ローレベルAPIはいつ使うのか？ローレベルAPIを使うには？RDDについてRDDの種類RDDはいつ使うのか？ケースクラスのデータセットとRDDRDDを作成するデータフレーム、データセット、RDD間の相互運用地元コレクションよりデータソースよりRDDを操作する変貌明確である。フィルタリングマッピングソートランダム・スプリッツ行動減らすカウント第一最大と最小取るファイルを保存するsaveAsTextFileシーケンスファイルHadoopファイルキャッシュチェックポイントRDDをシステムコマンドにパイプするマップ・パーティション各パーティショングロム結論
13.高度なRDD
キー・バリューの基本（キー・バリューRDD）キーバイ価値観のマッピングキーと値を抽出するルックアップサンプル・バイ・キーアグリゲーションカウント・バイ・キーアグリゲーションの実装を理解するその他の集計メソッドコ・グループ参加インナー・ジョインジップスパーティションをコントロールするまとまる分割パーティション内で再パーティション化するカスタムパーティショニングカスタムシリアライゼーション結論
14.分散共有変数
ブロードキャスト変数アキュムレータ基本例カスタムアキュムレータ結論
IV.生産アプリケーション
15.Sparkはどのようにクラスタ上で実行されるか？
Sparkアプリケーションのアーキテクチャ実行モードSparkアプリケーションのライフサイクル（Spark以外）クライアントからのリクエスト打ち上げ実行完成Sparkアプリケーションのライフサイクル（Inside Spark）スパークセッション論理的指示スパークの仕事ステージタスク実行内容パイプラインシャッフルの持続性結論
16.Sparkアプリケーションの開発
Sparkアプリケーションを書くScalaベースのシンプルなアプリPythonアプリケーションを書くJavaアプリケーションを書くSparkアプリケーションをテストする戦略的原則戦術的要点単体テストフレームワークに接続するデータソースに接続する開発プロセスアプリケーションを起動するアプリケーションの起動例アプリケーションを設定するスパークコンフアプリケーション特性ランタイム・プロパティ実行プロパティメモリ管理を設定するシャッフルの振る舞いを設定する環境変数アプリケーション内でのジョブスケジューリング結論
17.Sparkのデプロイ
Sparkアプリケーションを実行するクラスタをどこにデプロイするか？オンプレミス・クラスターのデプロイクラウドのSparkクラスター・マネージャースタンドアローンモードYARN上のSparkYARNアプリケーションでSparkを設定するMesos上のSparkセキュアなデプロイ構成クラスタ・ネットワークの構成アプリケーションのスケジューリングその他の考慮事項結論
18.モニタリングとデバッグ
モニタリングの現状何を監視すべきかドライバとエクゼキュータ・プロセスクエリ、ジョブ、ステージ、タスクスパークログスパークのUISpark REST APISpark UI履歴サーバデバッグとSparkの応急処置Sparkの仕事が始まらない実行前のエラー実行中のエラー遅れているタスク、あるいははぐれているタスクスローアグリゲーションスロー・ジョーンズ読み取りと書き込みが遅いドライバがOutOfMemoryErrorまたはドライバが応答しないエクゼキュータが応答しない。結果に予期せぬ空白が生じるディスクに空き容量がないエラーシリアライゼーションエラー結論
19.パフォーマンス・チューニング
間接的なパフォーマンス向上デザインの選択RDDにおけるオブジェクトのシリアライゼーションクラスタ構成スケジューリング休息中のデータシャッフル・コンフィギュレーションメモリ・プレッシャーとガベージ・コレクションダイレクト・パフォーマンス強化パラレリズムフィルタリングの改善再分割と合体ユーザ定義関数(UDF)データの一時保存（キャッシュ）参加アグリゲーションブロードキャスト変数結論
V.ストリーミング
20.ストリーム処理の基礎
ストリーム処理とは何か？ストリーム処理の使用例ストリーム処理の利点ストリーム処理の課題ストリーム処理の設計点レコード・アット・ア・タイムAPIと宣言型APIの比較イベント時間と処理時間の比較連続実行とマイクロバッチ実行の比較SparkのストリーミングAPIDStream API構造化ストリーミング結論
21.構造化ストリーミングの基本
構造化ストリーミングの基本コア概念変貌と行動入力ソースシンク出力モードトリガーイベント・タイム処理構造化ストリーミングの実例ストリームでの変換セレクションとフィルタリングアグリゲーション参加入出力データの読み取りと書き込みの場所（ソースとシンク）Kafkaソースからの読み取りKafkaシンクに書き込むデータの出力方法（出力モード）データが出力されるとき（トリガー）ストリーミングデータセットAPI結論
22.イベント・タイム処理とステートフル処理
開催時間ステートフル処理任意のステートフル処理イベントタイムの基本イベント時のWindowsタンブリング・ウインドウズ透かしで遅れたデータを扱うストリーム内の重複を削除する任意のステートフル処理タイムアウト出力モードmapGroupsWithStateflatMapGroupsWithState（フラットマップ・グループ・ウィズ・ステート結論
23.プロダクションにおける構造化ストリーミング
フォールトトレランスとチェックポイント機能アプリケーションを更新するストリーミング・アプリケーションのコードを更新するSparkのバージョンを更新するアプリケーションのサイジングとリスケーリングメトリックとモニタリングクエリステータス最近の進展スパークUIアラートストリーミング・リスナーを使った高度なモニタリング結論
VI.高度なアナリティクスとマシンラーニング
24.高度なアナリティクスとマシンラーニングの概要
アドバンスド・アナリティクス入門教師あり学習推薦教師なし学習グラフ分析高度な分析プロセスSparkの高度分析ツールキットMLlibとは何か？MLlibの高レベル概念MLlibの活動トランスフォーマーを使ったフィーチャー・エンジニアリング見積もりワークフローをパイプライン化するトレーニングと評価モデルの持続と適用デプロイ・パターン結論
25.前処理とフィーチャーエンジニアリング
ユースケースに応じてモデルを形式化するトランスフォーマー前処理のための推定量変圧器の特性ハイレベル・トランスRFフォーミュラSQLトランスフォーマーベクターアセンブラー連続機能を使うバケットスケーリングと正規化スタンダードスケーラーカテゴリカル・フィーチャーを扱う文字列インデクサインデックス化された値をテキストに戻すベクターのインデックスワンホットエンコーディングテキスト・データ・トランスフォーマーテキストをトークン化する一般的な単語を削除する単語の組み合わせの作成言葉を数値表現に変換するワード2ベックフィーチャー操作主成分分析交流多項式展開フィーチャー・セレクションカイスクセレクタアドバンス・トピックス永続的なトランスフォーマーカスタム・トランスフォーマーを書く結論
26.分類
使用例分類の種類バイナリ分類多クラス分類マルチラベル分類MLlibの分類モデルモデルのスケーラビリティロジスティック回帰モデルのハイパーパラメータートレーニングパラメータ予測パラメータ例モデル概要決定木モデルのハイパーパラメータートレーニングパラメータ予測パラメータランダムフォレストと勾配ブーストツリーモデルのハイパーパラメータートレーニングパラメータ予測パラメータナイーブ・ベイズモデルのハイパーパラメータートレーニングパラメータ予測パラメータ分類とモデルチューニングの自動化のための評価ツール詳細な評価メトリック一対休息分類器多層パーセプトロン結論
27.回帰
使用例MLlibの回帰モデルモデルのスケーラビリティ線形回帰モデルのハイパーパラメータートレーニングパラメータ例トレーニング概要一般化線形回帰モデルのハイパーパラメータートレーニングパラメータ予測パラメータ例トレーニング概要決定木モデルのハイパーパラメータートレーニングパラメータ例ランダムフォレストと勾配ブーストツリーモデルのハイパーパラメータートレーニングパラメータ例上級メソッド生存回帰（加速故障時間）等張回帰評価者とモデルチューニングの自動化メトリック結論
28.推薦の言葉
使用例交互最小二乗法による協調フィルタリングモデルのハイパーパラメータートレーニングパラメータ予測パラメータ例推薦のための評価者メトリック回帰メトリックランキング・メトリクス頻出パターンマイニング結論
29.教師なし学習
使用例モデルのスケーラビリティk平均法モデルのハイパーパラメータートレーニングパラメータ例k-meansメトリックのまとめk-meansを二分するモデルのハイパーパラメータートレーニングパラメータ例k-meansの要約を二分するガウス混合モデルモデルのハイパーパラメータートレーニングパラメータ例ガウス混合モデルの概要潜在ディリクレ割り当てモデルのハイパーパラメータートレーニングパラメータ予測パラメータ例結論
30.グラフ分析
グラフを作るグラフをクエリするサブグラフモチーフ発見グラフ・アルゴリズムページランク学位内および学位外のメトリックブレッドファースト検索コネクテッド・コンポーネント強く結びついたコンポーネント高度なタスク結論
31.ディープ・ラーニング
ディープラーニングとは何か？SparkでDeep Learningを使う方法ディープラーニング・ライブラリMLlibニューラルネットワークサポートテンソルフレームビッグ・ディーエルTensorFlowOnSparkディープラーニング4J深層学習パイプラインDeep Learningパイプラインを使った簡単な例セットアップ画像とデータフレームトランスファー・ラーニング人気モデルの応用結論
VII.エコシステム
32.言語仕様：Python（PySpark）とR（SparkRとsparklyr）。
PySparkPySparkの基本的な違いパンダの統合R・オン・スパークスパークRキラキラ結論
33.エコシステムとコミュニティ
スパーク・パッケージ人気パッケージの抜粋リストSparkパッケージを使う外部パッケージコミュニティスパーク・サミットローカル・ミートアップ結論
インデックス

Content preview from スパーク定義ガイド

第27章. 回帰

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

回帰は、分類の論理的拡張である。単に値のセットから1つの値を予測するのではなく、回帰は特徴（数値として表現される）のセットから実数（または連続変数）を予測する行為である。

回帰は分類よりも難しいかもしれない、なぜなら数学的な観点からは、可能な出力値が無限にあるからである。さらに我々は、正確さとは対照的に、予測値と真値の間のエラーのメトリックを最適化することを目的とする。それを除けば、回帰と分類はかなり似ている。このため、回帰にも分類と同じ概念が適用される。

使用例

以下は、リグレッションのユースケースの小さなセットであり、あなた自身のドメインにおける潜在的なリグレッションの問題について考えさせることができる：

映画の視聴率を予測する: 予告編を観た人やソーシャルメディアでシェアした人など、映画と映画ファンに関する情報があれば、公開時にその映画を観る可能性のある人の数を予測したくなるかもしれない。
会社の収益を予測する: 現在の成長軌道、市場、季節性を考慮した上で、その企業が将来どれくらいの収益を上げるかを予測したいと思うかもしれない。
作物の収量を予測する: ある作物が栽培されている特定の地域に関する情報と、年間を通しての現在の天候が与えられた場合、特定の区画の作物の合計収穫量を予測したいと思うかもしれない。

MLlibの回帰モデル

MLlibにはいくつかの基本的な回帰モデルがある。これらのモデルのいくつかは第26章から引き継いだものである。その他は、回帰問題のドメインにのみ関連するものである。このリストはSpark 2.2現在のものであるが、今後増える予定である：

線形回帰
一般化線形回帰
等張回帰
決定木
ランダムフォレスト
グラディエント・ブースト・ツリー
生存回帰

この章では、それぞれのモデルの基本を説明する：

モデルの簡単な説明とアルゴリズムの背後にある直感
モデルのハイパーパラメータ（モデルを初期化するさまざまな方法）
トレーニングパラメータ（モデルの学習方法に影響を与えるパラメータ）
予測パラメータ（予測がどのように行われるかに影響するパラメータ）

第24章で見たように、ParamGrid を使ってハイパーパラメータとトレーニングパラメータを検索することができる。

モデルのスケーラビリティ

MLlib の回帰モデルはすべて大規模データセットに対応する。表27-1はモデルのスケーラビリティに関する簡単なスコアカードで、（スケーラビリティを重要視するのであれば）特定のタスクに最適なモデルを選択するのに役立つ。これらは、あなたの構成、マシンサイズ、その他の要因に依存する。

表27-1. 回帰スケーラビリティのリファレンス
モデル	数字の特徴	トレーニングの例
線形回帰	1～1,000万ドル	制限なし
一般化線形回帰	4,096	制限なし
等張回帰	該当なし	百万ドル
決定木	1,000s	制限なし
ランダムフォレスト	10,000s	制限なし
グラディエント・ブースト・ツリー	1,000s	制限なし
生存回帰	1～1,000万ドル	制限なし

注

他の上級分析の章と同様、この章ではすべてのモデルの数学的基礎を教えることはできない。回帰の復習については、ISLと ESLの

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341627567

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills