book

スパーク定義ガイド

Name: スパーク定義ガイド
ISBN: 9798341627567

by Bill Chambers, Matei Zaharia

March 2025

Intermediate to advanced

606 pages

Japanese

O'Reilly Media, Inc.

Read now

Unlock full access

序文
著者についてこの本は誰のためにあるのか？本書で使用されている慣例コード例を使うオライリー・サファリ問い合わせ先謝辞
I.ビッグデータとスパークの概要
1.Apache Sparkとは何か？
Apacheスパークの哲学コンテキストビッグデータ問題スパークの歴史スパークの現在と未来ランニング・スパークローカルにSparkをダウンロードするSparkのインタラクティブ・コンソールを立ち上げるクラウドでSparkを実行する本書で使用したデータ
2.スパーク入門
Sparkの基本アーキテクチャスパーク・アプリケーションSparkの言語APISparkのAPIスターティング・スパークスパークセッションデータフレームパーティション変貌怠惰な評価行動スパークUIエンド・ツー・エンドの例データフレームとSQL結論
3.Sparkのツールセット・ツアー
プロダクション・アプリケーションの実行データセット：型安全な構造化API構造化ストリーミングマシンラーニングと高度分析下位APIスパークRSparkのエコシステムとパッケージ結論
II.構造化API-データフレーム、SQL、データセット
4.構造化APIの概要
データフレームとデータセットスキーマ構造化Sparkタイプの概要データフレームとデータセットコラム列スパークの種類構造化API実行の概要ロジカル・プランニング物理的計画実行結論
5.基本的な構造化演算子
スキーマコラムと式コラム式レコードと行行を作成するデータフレームの変換データフレームの作成selectとselectExprSpark型（リテラル）に変換するカラムを追加する列の名前を変更する予約文字とキーワード大文字と小文字の区別コラムを削除する列のタイプを変更する（キャスト）行をフィルタリングするユニーク行を取得するランダム・サンプルランダム・スプリッツ行の連結と追加（ユニオン）行をソートするリミット分割と合体ドライバーに行を集める結論
6.さまざまな種類のデータを扱う
APIをどこで探すかSpark型に変換するブールを扱う数字を扱う文字列を扱う正規表現日付とタイムスタンプを扱うデータでヌルを扱うコアレッセifnull、nullIf、nvl、およびnvl2ドロップフィル置き換えるご注文複雑な型を扱う構造配列スプリット配列の長さarray_contains爆発するマッピングJSONを扱うユーザ定義関数結論
7.集計
集約関数カウントカウント・ディスティンクトapprox_count_distinct最初と最後最小と最大合計区別の和アヴグ分散と標準偏差歪度と尖度共分散と相関複雑な型に集約するグループ分け式を使ったグループ化マッピングでグループ化するWindows関数グループ化セットロールアップキューブメタデータをグループ化するピボットユーザ定義の集約関数結論

8.参加者
式に参加する参加タイプインナー・ジョイントアウター・ジョイン左アウター・ジョイン右アウター・ジョイン左セミ・ジョイン左アンチジョインナチュラル・ジョインズクロス（デカルト）結合ジョインを使用する際の課題複合型の結合重複するカラム名の処理Sparkはどのように結合を実行するのか？コミュニケーション戦略結論
9.データソース
データソースAPIの構造API構造を読み取るデータ読みの基本API構造を書くデータの書き方の基本CSVファイルCSVオプションCSVファイルの読み取りCSVファイルを書くJSONファイルJSONオプションJSONファイルの読み取りJSONファイルを書くパーケットファイルパーケットファイルの読み取りパーケットファイルを書くORCファイルオークファイルの読み取りオークファイルを書くSQLデータベースSQLデータベースからの読み取りクエリ・プッシュダウンSQLデータベースへの書き込みテキストファイルテキストファイルの読み取りテキストファイルを書く高度なI/O概念分割可能なファイルタイプと圧縮並行してデータを読み取る並列にデータを書き込む複雑な型を書くファイルサイズの管理結論
10.スパークSQL
SQLとは何か？ビッグデータとSQL：Apache HiveビッグデータとSQL：Spark SQLスパークとハイブの関係Spark SQLクエリの実行方法Spark SQL CLISparkのプログラムSQLインタフェースSparkSQL Thrift JDBC/ODBCサーバカタログテーブルSparkが管理するテーブルテーブルの作成外部テーブルの作成テーブルに挿入するテーブルのメタデータを記述するテーブルのメタデータを更新するテーブルをドロップするキャッシュテーブルビュービューの作成再生回数の減少データベースデータベースの作成データベースをセットするデータベースを削除するセレクト文case...when...then文アドバンス・トピックス複雑なタイプ関数サブクエリその他の特徴コンフィギュレーションSQLで設定値を設定する結論
11.データセット
データセットをいつ使うかデータセットを作成するJavaで：エンコーディングScalaで：ケースクラス行動変貌フィルタリングマッピング参加グループ化と集約結論
III.低レベルAPI
12.レジリエンス分散データセット(RDDs)
低レベルAPIとは何か？ローレベルAPIはいつ使うのか？ローレベルAPIを使うには？RDDについてRDDの種類RDDはいつ使うのか？ケースクラスのデータセットとRDDRDDを作成するデータフレーム、データセット、RDD間の相互運用地元コレクションよりデータソースよりRDDを操作する変貌明確である。フィルタリングマッピングソートランダム・スプリッツ行動減らすカウント第一最大と最小取るファイルを保存するsaveAsTextFileシーケンスファイルHadoopファイルキャッシュチェックポイントRDDをシステムコマンドにパイプするマップ・パーティション各パーティショングロム結論
13.高度なRDD
キー・バリューの基本（キー・バリューRDD）キーバイ価値観のマッピングキーと値を抽出するルックアップサンプル・バイ・キーアグリゲーションカウント・バイ・キーアグリゲーションの実装を理解するその他の集計メソッドコ・グループ参加インナー・ジョインジップスパーティションをコントロールするまとまる分割パーティション内で再パーティション化するカスタムパーティショニングカスタムシリアライゼーション結論
14.分散共有変数
ブロードキャスト変数アキュムレータ基本例カスタムアキュムレータ結論
IV.生産アプリケーション
15.Sparkはどのようにクラスタ上で実行されるか？
Sparkアプリケーションのアーキテクチャ実行モードSparkアプリケーションのライフサイクル（Spark以外）クライアントからのリクエスト打ち上げ実行完成Sparkアプリケーションのライフサイクル（Inside Spark）スパークセッション論理的指示スパークの仕事ステージタスク実行内容パイプラインシャッフルの持続性結論
16.Sparkアプリケーションの開発
Sparkアプリケーションを書くScalaベースのシンプルなアプリPythonアプリケーションを書くJavaアプリケーションを書くSparkアプリケーションをテストする戦略的原則戦術的要点単体テストフレームワークに接続するデータソースに接続する開発プロセスアプリケーションを起動するアプリケーションの起動例アプリケーションを設定するスパークコンフアプリケーション特性ランタイム・プロパティ実行プロパティメモリ管理を設定するシャッフルの振る舞いを設定する環境変数アプリケーション内でのジョブスケジューリング結論
17.Sparkのデプロイ
Sparkアプリケーションを実行するクラスタをどこにデプロイするか？オンプレミス・クラスターのデプロイクラウドのSparkクラスター・マネージャースタンドアローンモードYARN上のSparkYARNアプリケーションでSparkを設定するMesos上のSparkセキュアなデプロイ構成クラスタ・ネットワークの構成アプリケーションのスケジューリングその他の考慮事項結論
18.モニタリングとデバッグ
モニタリングの現状何を監視すべきかドライバとエクゼキュータ・プロセスクエリ、ジョブ、ステージ、タスクスパークログスパークのUISpark REST APISpark UI履歴サーバデバッグとSparkの応急処置Sparkの仕事が始まらない実行前のエラー実行中のエラー遅れているタスク、あるいははぐれているタスクスローアグリゲーションスロー・ジョーンズ読み取りと書き込みが遅いドライバがOutOfMemoryErrorまたはドライバが応答しないエクゼキュータが応答しない。結果に予期せぬ空白が生じるディスクに空き容量がないエラーシリアライゼーションエラー結論
19.パフォーマンス・チューニング
間接的なパフォーマンス向上デザインの選択RDDにおけるオブジェクトのシリアライゼーションクラスタ構成スケジューリング休息中のデータシャッフル・コンフィギュレーションメモリ・プレッシャーとガベージ・コレクションダイレクト・パフォーマンス強化パラレリズムフィルタリングの改善再分割と合体ユーザ定義関数(UDF)データの一時保存（キャッシュ）参加アグリゲーションブロードキャスト変数結論
V.ストリーミング
20.ストリーム処理の基礎
ストリーム処理とは何か？ストリーム処理の使用例ストリーム処理の利点ストリーム処理の課題ストリーム処理の設計点レコード・アット・ア・タイムAPIと宣言型APIの比較イベント時間と処理時間の比較連続実行とマイクロバッチ実行の比較SparkのストリーミングAPIDStream API構造化ストリーミング結論
21.構造化ストリーミングの基本
構造化ストリーミングの基本コア概念変貌と行動入力ソースシンク出力モードトリガーイベント・タイム処理構造化ストリーミングの実例ストリームでの変換セレクションとフィルタリングアグリゲーション参加入出力データの読み取りと書き込みの場所（ソースとシンク）Kafkaソースからの読み取りKafkaシンクに書き込むデータの出力方法（出力モード）データが出力されるとき（トリガー）ストリーミングデータセットAPI結論
22.イベント・タイム処理とステートフル処理
開催時間ステートフル処理任意のステートフル処理イベントタイムの基本イベント時のWindowsタンブリング・ウインドウズ透かしで遅れたデータを扱うストリーム内の重複を削除する任意のステートフル処理タイムアウト出力モードmapGroupsWithStateflatMapGroupsWithState（フラットマップ・グループ・ウィズ・ステート結論
23.プロダクションにおける構造化ストリーミング
フォールトトレランスとチェックポイント機能アプリケーションを更新するストリーミング・アプリケーションのコードを更新するSparkのバージョンを更新するアプリケーションのサイジングとリスケーリングメトリックとモニタリングクエリステータス最近の進展スパークUIアラートストリーミング・リスナーを使った高度なモニタリング結論
VI.高度なアナリティクスとマシンラーニング
24.高度なアナリティクスとマシンラーニングの概要
アドバンスド・アナリティクス入門教師あり学習推薦教師なし学習グラフ分析高度な分析プロセスSparkの高度分析ツールキットMLlibとは何か？MLlibの高レベル概念MLlibの活動トランスフォーマーを使ったフィーチャー・エンジニアリング見積もりワークフローをパイプライン化するトレーニングと評価モデルの持続と適用デプロイ・パターン結論
25.前処理とフィーチャーエンジニアリング
ユースケースに応じてモデルを形式化するトランスフォーマー前処理のための推定量変圧器の特性ハイレベル・トランスRFフォーミュラSQLトランスフォーマーベクターアセンブラー連続機能を使うバケットスケーリングと正規化スタンダードスケーラーカテゴリカル・フィーチャーを扱う文字列インデクサインデックス化された値をテキストに戻すベクターのインデックスワンホットエンコーディングテキスト・データ・トランスフォーマーテキストをトークン化する一般的な単語を削除する単語の組み合わせの作成言葉を数値表現に変換するワード2ベックフィーチャー操作主成分分析交流多項式展開フィーチャー・セレクションカイスクセレクタアドバンス・トピックス永続的なトランスフォーマーカスタム・トランスフォーマーを書く結論
26.分類
使用例分類の種類バイナリ分類多クラス分類マルチラベル分類MLlibの分類モデルモデルのスケーラビリティロジスティック回帰モデルのハイパーパラメータートレーニングパラメータ予測パラメータ例モデル概要決定木モデルのハイパーパラメータートレーニングパラメータ予測パラメータランダムフォレストと勾配ブーストツリーモデルのハイパーパラメータートレーニングパラメータ予測パラメータナイーブ・ベイズモデルのハイパーパラメータートレーニングパラメータ予測パラメータ分類とモデルチューニングの自動化のための評価ツール詳細な評価メトリック一対休息分類器多層パーセプトロン結論
27.回帰
使用例MLlibの回帰モデルモデルのスケーラビリティ線形回帰モデルのハイパーパラメータートレーニングパラメータ例トレーニング概要一般化線形回帰モデルのハイパーパラメータートレーニングパラメータ予測パラメータ例トレーニング概要決定木モデルのハイパーパラメータートレーニングパラメータ例ランダムフォレストと勾配ブーストツリーモデルのハイパーパラメータートレーニングパラメータ例上級メソッド生存回帰（加速故障時間）等張回帰評価者とモデルチューニングの自動化メトリック結論
28.推薦の言葉
使用例交互最小二乗法による協調フィルタリングモデルのハイパーパラメータートレーニングパラメータ予測パラメータ例推薦のための評価者メトリック回帰メトリックランキング・メトリクス頻出パターンマイニング結論
29.教師なし学習
使用例モデルのスケーラビリティk平均法モデルのハイパーパラメータートレーニングパラメータ例k-meansメトリックのまとめk-meansを二分するモデルのハイパーパラメータートレーニングパラメータ例k-meansの要約を二分するガウス混合モデルモデルのハイパーパラメータートレーニングパラメータ例ガウス混合モデルの概要潜在ディリクレ割り当てモデルのハイパーパラメータートレーニングパラメータ予測パラメータ例結論
30.グラフ分析
グラフを作るグラフをクエリするサブグラフモチーフ発見グラフ・アルゴリズムページランク学位内および学位外のメトリックブレッドファースト検索コネクテッド・コンポーネント強く結びついたコンポーネント高度なタスク結論
31.ディープ・ラーニング
ディープラーニングとは何か？SparkでDeep Learningを使う方法ディープラーニング・ライブラリMLlibニューラルネットワークサポートテンソルフレームビッグ・ディーエルTensorFlowOnSparkディープラーニング4J深層学習パイプラインDeep Learningパイプラインを使った簡単な例セットアップ画像とデータフレームトランスファー・ラーニング人気モデルの応用結論
VII.エコシステム
32.言語仕様：Python（PySpark）とR（SparkRとsparklyr）。
PySparkPySparkの基本的な違いパンダの統合R・オン・スパークスパークRキラキラ結論
33.エコシステムとコミュニティ
スパーク・パッケージ人気パッケージの抜粋リストSparkパッケージを使う外部パッケージコミュニティスパーク・サミットローカル・ミートアップ結論
インデックス

Content preview from スパーク定義ガイド

第20章. ストリーム処理の基礎

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

ストリーム処理は、多くのビッグデータ・アプリケーションにおいて重要な要件である。アプリケーションが何か価値のあるもの、例えば顧客の動きに関するレポートや新しいマシンラーニングモデルを計算するとすぐに、組織はこの結果を本番環境で継続的に計算したいと思うだろう。その結果、あらゆる規模の組織がストリーム処理を取り入れ始めており、多くの場合、新しいアプリケーションの最初のバージョンでさえも、ストリーム処理を取り入れている。

幸いなことに、Apache Sparkにはストリーミングを高レベルでサポートしてきた長い歴史がある。2012年、このプロジェクトは Spark StreamingとそのDStreams APIを組み込んだ。DStreams APIは、map やreduce のような高レベルの関数演算子を使ったストリーム処理を可能にする最初のAPIの1つである。現在、何百もの組織が大規模なリアルタイムアプリケーションの本番環境でDStreamsを使用しており、多くの場合、1時間あたりテラバイトのデータを処理している。しかし、RDD（Resilient Distributed Dataset）APIと同様に、DStreams APIはJava/Pythonオブジェクトに対する比較的低レベルの演算子に基づいており、より高度な最適化の機会が制限されている。そこで2016年、Sparkプロジェクトは、DataFrame上に直接構築された新しいストリーミングAPIであるStructured Streamingを追加した。このAPIは、豊富な最適化と、他のDataFrameやDatasetコードとの統合を大幅に簡素化することの両方をサポートする。Structured Streaming APIはApache Spark 2.2で安定版としてマークされ、Sparkコミュニティ全体で迅速に採用された。

本書では、Structured Streaming APIのみに焦点を当てる。このAPIは、本書の前半で説明したDataFrame APIやDataset APIとディレクトリ統合されており、新しいストリーミング・アプリケーションを書く際に選択されるフレームワークである。もしDStreamsに興味があるのであれば、Francois GarillotとGerard MaasのLearning Spark Streaming(O'Reilly, 2017)のようなSpark Streamingだけに特化した本を含め、他の多くの本がこのAPIをカバーしている。しかし、RDDとDataFramesの違いと同様に、Structured StreamingはDStreamsの大部分の機能のスーパーセットを提供し、コード生成とCatalystオプティマイザによって、しばしばパフォーマンスが向上する。

SparkのストリーミングAPIについて説明する前に、ストリーミングとバッチ処理をより正式に定義しておこう。この章では、本書のこの部分で必要となる、この分野の中核概念について説明する。このトピックに関する学位論文にはならないが、この分野のシステムを理解するのに十分な概念をカバーする。

ストリーム処理とは何か？

ストリーム処理とは、、結果を計算するために新しいデータを継続的に取り込むことである。ストリーム処理では、入力データは無制限であり、あらかじめ決められた始まりも終わりもない。単純に、ストリーム処理システムに到着する一連のイベント（例えば、クレジットカード取引、Webサイトのクリック、モノのインターネット（IoT）デバイスからのセンサー読み取り）を形成する。ユーザ・アプリケーションは、このイベントのストリームに対して様々なクエリを計算することができる（例えば、各種イベントの実行カウントを追跡したり、1時間ごとのウィンドウに集約したりする）。アプリケーションは、実行中に結果の複数のバージョンを出力するか、キーバリューストアなどの外部「シンク」システムで最新の状態に保つ。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341627567

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

スパーク定義ガイド

by Bill Chambers, Matei Zaharia

第20章. ストリーム処理の基礎

ストリーム処理とは何か？

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.