book

スパーク定義ガイド

Name: スパーク定義ガイド
ISBN: 9798341627567

by Bill Chambers, Matei Zaharia

March 2025

Intermediate to advanced

606 pages

Japanese

O'Reilly Media, Inc.

Read now

Unlock full access

序文
著者についてこの本は誰のためにあるのか？本書で使用されている慣例コード例を使うオライリー・サファリ問い合わせ先謝辞
I.ビッグデータとスパークの概要
1.Apache Sparkとは何か？
Apacheスパークの哲学コンテキストビッグデータ問題スパークの歴史スパークの現在と未来ランニング・スパークローカルにSparkをダウンロードするSparkのインタラクティブ・コンソールを立ち上げるクラウドでSparkを実行する本書で使用したデータ
2.スパーク入門
Sparkの基本アーキテクチャスパーク・アプリケーションSparkの言語APISparkのAPIスターティング・スパークスパークセッションデータフレームパーティション変貌怠惰な評価行動スパークUIエンド・ツー・エンドの例データフレームとSQL結論
3.Sparkのツールセット・ツアー
プロダクション・アプリケーションの実行データセット：型安全な構造化API構造化ストリーミングマシンラーニングと高度分析下位APIスパークRSparkのエコシステムとパッケージ結論
II.構造化API-データフレーム、SQL、データセット
4.構造化APIの概要
データフレームとデータセットスキーマ構造化Sparkタイプの概要データフレームとデータセットコラム列スパークの種類構造化API実行の概要ロジカル・プランニング物理的計画実行結論
5.基本的な構造化演算子
スキーマコラムと式コラム式レコードと行行を作成するデータフレームの変換データフレームの作成selectとselectExprSpark型（リテラル）に変換するカラムを追加する列の名前を変更する予約文字とキーワード大文字と小文字の区別コラムを削除する列のタイプを変更する（キャスト）行をフィルタリングするユニーク行を取得するランダム・サンプルランダム・スプリッツ行の連結と追加（ユニオン）行をソートするリミット分割と合体ドライバーに行を集める結論
6.さまざまな種類のデータを扱う
APIをどこで探すかSpark型に変換するブールを扱う数字を扱う文字列を扱う正規表現日付とタイムスタンプを扱うデータでヌルを扱うコアレッセifnull、nullIf、nvl、およびnvl2ドロップフィル置き換えるご注文複雑な型を扱う構造配列スプリット配列の長さarray_contains爆発するマッピングJSONを扱うユーザ定義関数結論
7.集計
集約関数カウントカウント・ディスティンクトapprox_count_distinct最初と最後最小と最大合計区別の和アヴグ分散と標準偏差歪度と尖度共分散と相関複雑な型に集約するグループ分け式を使ったグループ化マッピングでグループ化するWindows関数グループ化セットロールアップキューブメタデータをグループ化するピボットユーザ定義の集約関数結論

8.参加者
式に参加する参加タイプインナー・ジョイントアウター・ジョイン左アウター・ジョイン右アウター・ジョイン左セミ・ジョイン左アンチジョインナチュラル・ジョインズクロス（デカルト）結合ジョインを使用する際の課題複合型の結合重複するカラム名の処理Sparkはどのように結合を実行するのか？コミュニケーション戦略結論
9.データソース
データソースAPIの構造API構造を読み取るデータ読みの基本API構造を書くデータの書き方の基本CSVファイルCSVオプションCSVファイルの読み取りCSVファイルを書くJSONファイルJSONオプションJSONファイルの読み取りJSONファイルを書くパーケットファイルパーケットファイルの読み取りパーケットファイルを書くORCファイルオークファイルの読み取りオークファイルを書くSQLデータベースSQLデータベースからの読み取りクエリ・プッシュダウンSQLデータベースへの書き込みテキストファイルテキストファイルの読み取りテキストファイルを書く高度なI/O概念分割可能なファイルタイプと圧縮並行してデータを読み取る並列にデータを書き込む複雑な型を書くファイルサイズの管理結論
10.スパークSQL
SQLとは何か？ビッグデータとSQL：Apache HiveビッグデータとSQL：Spark SQLスパークとハイブの関係Spark SQLクエリの実行方法Spark SQL CLISparkのプログラムSQLインタフェースSparkSQL Thrift JDBC/ODBCサーバカタログテーブルSparkが管理するテーブルテーブルの作成外部テーブルの作成テーブルに挿入するテーブルのメタデータを記述するテーブルのメタデータを更新するテーブルをドロップするキャッシュテーブルビュービューの作成再生回数の減少データベースデータベースの作成データベースをセットするデータベースを削除するセレクト文case...when...then文アドバンス・トピックス複雑なタイプ関数サブクエリその他の特徴コンフィギュレーションSQLで設定値を設定する結論
11.データセット
データセットをいつ使うかデータセットを作成するJavaで：エンコーディングScalaで：ケースクラス行動変貌フィルタリングマッピング参加グループ化と集約結論
III.低レベルAPI
12.レジリエンス分散データセット(RDDs)
低レベルAPIとは何か？ローレベルAPIはいつ使うのか？ローレベルAPIを使うには？RDDについてRDDの種類RDDはいつ使うのか？ケースクラスのデータセットとRDDRDDを作成するデータフレーム、データセット、RDD間の相互運用地元コレクションよりデータソースよりRDDを操作する変貌明確である。フィルタリングマッピングソートランダム・スプリッツ行動減らすカウント第一最大と最小取るファイルを保存するsaveAsTextFileシーケンスファイルHadoopファイルキャッシュチェックポイントRDDをシステムコマンドにパイプするマップ・パーティション各パーティショングロム結論
13.高度なRDD
キー・バリューの基本（キー・バリューRDD）キーバイ価値観のマッピングキーと値を抽出するルックアップサンプル・バイ・キーアグリゲーションカウント・バイ・キーアグリゲーションの実装を理解するその他の集計メソッドコ・グループ参加インナー・ジョインジップスパーティションをコントロールするまとまる分割パーティション内で再パーティション化するカスタムパーティショニングカスタムシリアライゼーション結論
14.分散共有変数
ブロードキャスト変数アキュムレータ基本例カスタムアキュムレータ結論
IV.生産アプリケーション
15.Sparkはどのようにクラスタ上で実行されるか？
Sparkアプリケーションのアーキテクチャ実行モードSparkアプリケーションのライフサイクル（Spark以外）クライアントからのリクエスト打ち上げ実行完成Sparkアプリケーションのライフサイクル（Inside Spark）スパークセッション論理的指示スパークの仕事ステージタスク実行内容パイプラインシャッフルの持続性結論
16.Sparkアプリケーションの開発
Sparkアプリケーションを書くScalaベースのシンプルなアプリPythonアプリケーションを書くJavaアプリケーションを書くSparkアプリケーションをテストする戦略的原則戦術的要点単体テストフレームワークに接続するデータソースに接続する開発プロセスアプリケーションを起動するアプリケーションの起動例アプリケーションを設定するスパークコンフアプリケーション特性ランタイム・プロパティ実行プロパティメモリ管理を設定するシャッフルの振る舞いを設定する環境変数アプリケーション内でのジョブスケジューリング結論
17.Sparkのデプロイ
Sparkアプリケーションを実行するクラスタをどこにデプロイするか？オンプレミス・クラスターのデプロイクラウドのSparkクラスター・マネージャースタンドアローンモードYARN上のSparkYARNアプリケーションでSparkを設定するMesos上のSparkセキュアなデプロイ構成クラスタ・ネットワークの構成アプリケーションのスケジューリングその他の考慮事項結論
18.モニタリングとデバッグ
モニタリングの現状何を監視すべきかドライバとエクゼキュータ・プロセスクエリ、ジョブ、ステージ、タスクスパークログスパークのUISpark REST APISpark UI履歴サーバデバッグとSparkの応急処置Sparkの仕事が始まらない実行前のエラー実行中のエラー遅れているタスク、あるいははぐれているタスクスローアグリゲーションスロー・ジョーンズ読み取りと書き込みが遅いドライバがOutOfMemoryErrorまたはドライバが応答しないエクゼキュータが応答しない。結果に予期せぬ空白が生じるディスクに空き容量がないエラーシリアライゼーションエラー結論
19.パフォーマンス・チューニング
間接的なパフォーマンス向上デザインの選択RDDにおけるオブジェクトのシリアライゼーションクラスタ構成スケジューリング休息中のデータシャッフル・コンフィギュレーションメモリ・プレッシャーとガベージ・コレクションダイレクト・パフォーマンス強化パラレリズムフィルタリングの改善再分割と合体ユーザ定義関数(UDF)データの一時保存（キャッシュ）参加アグリゲーションブロードキャスト変数結論
V.ストリーミング
20.ストリーム処理の基礎
ストリーム処理とは何か？ストリーム処理の使用例ストリーム処理の利点ストリーム処理の課題ストリーム処理の設計点レコード・アット・ア・タイムAPIと宣言型APIの比較イベント時間と処理時間の比較連続実行とマイクロバッチ実行の比較SparkのストリーミングAPIDStream API構造化ストリーミング結論
21.構造化ストリーミングの基本
構造化ストリーミングの基本コア概念変貌と行動入力ソースシンク出力モードトリガーイベント・タイム処理構造化ストリーミングの実例ストリームでの変換セレクションとフィルタリングアグリゲーション参加入出力データの読み取りと書き込みの場所（ソースとシンク）Kafkaソースからの読み取りKafkaシンクに書き込むデータの出力方法（出力モード）データが出力されるとき（トリガー）ストリーミングデータセットAPI結論
22.イベント・タイム処理とステートフル処理
開催時間ステートフル処理任意のステートフル処理イベントタイムの基本イベント時のWindowsタンブリング・ウインドウズ透かしで遅れたデータを扱うストリーム内の重複を削除する任意のステートフル処理タイムアウト出力モードmapGroupsWithStateflatMapGroupsWithState（フラットマップ・グループ・ウィズ・ステート結論
23.プロダクションにおける構造化ストリーミング
フォールトトレランスとチェックポイント機能アプリケーションを更新するストリーミング・アプリケーションのコードを更新するSparkのバージョンを更新するアプリケーションのサイジングとリスケーリングメトリックとモニタリングクエリステータス最近の進展スパークUIアラートストリーミング・リスナーを使った高度なモニタリング結論
VI.高度なアナリティクスとマシンラーニング
24.高度なアナリティクスとマシンラーニングの概要
アドバンスド・アナリティクス入門教師あり学習推薦教師なし学習グラフ分析高度な分析プロセスSparkの高度分析ツールキットMLlibとは何か？MLlibの高レベル概念MLlibの活動トランスフォーマーを使ったフィーチャー・エンジニアリング見積もりワークフローをパイプライン化するトレーニングと評価モデルの持続と適用デプロイ・パターン結論
25.前処理とフィーチャーエンジニアリング
ユースケースに応じてモデルを形式化するトランスフォーマー前処理のための推定量変圧器の特性ハイレベル・トランスRFフォーミュラSQLトランスフォーマーベクターアセンブラー連続機能を使うバケットスケーリングと正規化スタンダードスケーラーカテゴリカル・フィーチャーを扱う文字列インデクサインデックス化された値をテキストに戻すベクターのインデックスワンホットエンコーディングテキスト・データ・トランスフォーマーテキストをトークン化する一般的な単語を削除する単語の組み合わせの作成言葉を数値表現に変換するワード2ベックフィーチャー操作主成分分析交流多項式展開フィーチャー・セレクションカイスクセレクタアドバンス・トピックス永続的なトランスフォーマーカスタム・トランスフォーマーを書く結論
26.分類
使用例分類の種類バイナリ分類多クラス分類マルチラベル分類MLlibの分類モデルモデルのスケーラビリティロジスティック回帰モデルのハイパーパラメータートレーニングパラメータ予測パラメータ例モデル概要決定木モデルのハイパーパラメータートレーニングパラメータ予測パラメータランダムフォレストと勾配ブーストツリーモデルのハイパーパラメータートレーニングパラメータ予測パラメータナイーブ・ベイズモデルのハイパーパラメータートレーニングパラメータ予測パラメータ分類とモデルチューニングの自動化のための評価ツール詳細な評価メトリック一対休息分類器多層パーセプトロン結論
27.回帰
使用例MLlibの回帰モデルモデルのスケーラビリティ線形回帰モデルのハイパーパラメータートレーニングパラメータ例トレーニング概要一般化線形回帰モデルのハイパーパラメータートレーニングパラメータ予測パラメータ例トレーニング概要決定木モデルのハイパーパラメータートレーニングパラメータ例ランダムフォレストと勾配ブーストツリーモデルのハイパーパラメータートレーニングパラメータ例上級メソッド生存回帰（加速故障時間）等張回帰評価者とモデルチューニングの自動化メトリック結論
28.推薦の言葉
使用例交互最小二乗法による協調フィルタリングモデルのハイパーパラメータートレーニングパラメータ予測パラメータ例推薦のための評価者メトリック回帰メトリックランキング・メトリクス頻出パターンマイニング結論
29.教師なし学習
使用例モデルのスケーラビリティk平均法モデルのハイパーパラメータートレーニングパラメータ例k-meansメトリックのまとめk-meansを二分するモデルのハイパーパラメータートレーニングパラメータ例k-meansの要約を二分するガウス混合モデルモデルのハイパーパラメータートレーニングパラメータ例ガウス混合モデルの概要潜在ディリクレ割り当てモデルのハイパーパラメータートレーニングパラメータ予測パラメータ例結論
30.グラフ分析
グラフを作るグラフをクエリするサブグラフモチーフ発見グラフ・アルゴリズムページランク学位内および学位外のメトリックブレッドファースト検索コネクテッド・コンポーネント強く結びついたコンポーネント高度なタスク結論
31.ディープ・ラーニング
ディープラーニングとは何か？SparkでDeep Learningを使う方法ディープラーニング・ライブラリMLlibニューラルネットワークサポートテンソルフレームビッグ・ディーエルTensorFlowOnSparkディープラーニング4J深層学習パイプラインDeep Learningパイプラインを使った簡単な例セットアップ画像とデータフレームトランスファー・ラーニング人気モデルの応用結論
VII.エコシステム
32.言語仕様：Python（PySpark）とR（SparkRとsparklyr）。
PySparkPySparkの基本的な違いパンダの統合R・オン・スパークスパークRキラキラ結論
33.エコシステムとコミュニティ
スパーク・パッケージ人気パッケージの抜粋リストSparkパッケージを使う外部パッケージコミュニティスパーク・サミットローカル・ミートアップ結論
インデックス

Content preview from スパーク定義ガイド

第29章教師なし学習教師なし学習

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

この章（）では、教師なし学習のためのSparkの利用可能なツールの詳細を、特にクラスタリングに焦点を当てて説明する。教師なし学習は、一般的に言って、（最終的な結果の観点から）適用と成功の測定が難しいため、教師あり学習よりも使用頻度が低い。これらのの課題は、規模が大きくなると悪化する可能性がある。例えば、高次元空間でのクラスタリングは、単に高次元スペースの特性のために奇妙なクラスタを作成する可能性があり、次元の呪いと呼ばれるものである。次元の呪いとは、特徴空間の次元が広がるにつれて、ますます疎になるという事実を表している。つまり、統計的に意味のある結果を得るために、このスペースを埋めるために必要なデータは、次元が大きくなるにつれて急激に増加する。さらに、高次元のデータにはノイズが多く含まれる。その結果、モデルが特定の結果やグループ分けの原因となっている真の要因ではなく、ノイズにフォーカスしてしまう可能性がある。したがって、モデルのスケーラビリティの表には、計算限界と統計的推奨値のセットが含まれている。これらはヒューリスティックであり、要件ではなく、有用なガイドであるべきである。

教師なし学習の核心は、パターンを発見したり、与えられたデータセットの基本構造の簡潔な表現を導き出そうとすることである。

使用例

、潜在的な使用例をいくつか紹介しよう。その核心は、これらのパターンが、事前には明らかでなかったかもしれないデータのトピック、異常、またはグループ化を明らかにするかもしれないということである：

データの異常を発見する: あるデータセットに含まれる値の大多数が大きなグループに集まり、その外側にいくつかの小さなグループがある場合、それらのグループはさらなる調査が必要かもしれない。
トピックモデリング: 大量のテキストを発見することで、異なる文書間に存在するトピックを見つけることができる。

モデルのスケーラビリティ

他のモデルと同様、統計的な推奨事項とともに、基本的なモデルのスケーラビリティ要件についても触れておくことが重要である。

表29-1. クラスタリングモデルのスケーラビリティの参照
モデル	統計的推奨	計算の限界	トレーニングの例
k平均法	最大50～100	特徴 x クラスター < 1000万	制限なし
k-meansを二分する	最大50～100	特徴 x クラスター < 1000万	制限なし
GMM	最大50～100	特徴 x クラスター < 1000万	制限なし
LDA	インタプリタ数字	1,000以上のトピック	制限なし

まずは、数値データの例をロードしてみよう：

// in Scala
import org.apache.spark.ml.feature.VectorAssembler

val va = new VectorAssembler()
  .setInputCols(Array("Quantity", "UnitPrice"))
  .setOutputCol("features")

val sales = va.transform(spark.read.format("csv")
  .option("header", "true")
  .option("inferSchema", "true")
  .load("/data/retail-data/by-day/*.csv" ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341627567

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

スパーク定義ガイド

by Bill Chambers, Matei Zaharia

第29章教師なし学習教師なし学習

使用例

モデルのスケーラビリティ

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.