book

Sparkによるデータアルゴリズム

Name: Sparkによるデータアルゴリズム
Author: Mahmoud Parsian
ISBN: 9798341635302

by Mahmoud Parsian

March 2025

Intermediate to advanced

438 pages

6h 47m

Japanese

O'Reilly Media, Inc.

Read now

Unlock full access

序文
序文
この本を書いた理由この本は誰のためにあるのか？本書の構成本書で使用されている慣例コード例を使うオライリー・オンライン・ラーニング問い合わせ先謝辞
I.基礎
1.SparkとPySparkの紹介
なぜデータ分析にSparkなのか？Sparkのエコシステムスパーク・アーキテクチャPySparkのパワーPySparkアーキテクチャSparkデータの抽象化RDDの例Spark RDD演算子データフレームの例PySparkシェルを使うPySparkシェルを起動するコレクションからRDDを作成するキーの値の集約とマージRDDの要素をフィルタリングする似たキーをグループ化する類似キーの値を集約するデータフレームを使ったETLの例抽出トランスフォーメーションローディング概要
2.トランスフォーメーション
DNA塩基カウントの例DNA塩基カウント問題FASTA形式サンプルデータDNA塩基カウント溶液1ステップ1：入力からRDD[文字列]を作成するステップ2：マッパー関数の定義ステップ3：DNA文字の頻度を発見する解決策1の長所と短所DNA塩基カウント溶液2ステップ1：入力からRDD[文字列]を作成するステップ2：マッパー関数の定義ステップ3：DNA文字の頻度を発見する解決策2の長所と短所DNA塩基カウント溶液3mapPartitions() 変換ステップ1：入力からRDD[文字列]を作成するステップ2：パーティションを処理する関数を定義するステップ3：カスタム関数を各パーティションに適用する解決策3の長所と短所概要
3.マッパーの変換
データの抽象化とマッパートランスフォーメーションとは何か？怠惰な変形map() 変換データフレームマッパーflatMap()変換map() と flatMap() の比較DataFrameにflatMap()を適用するmapValues() 変換flatMapValues() 変換mapPartitions() 変換空のパーティションを扱う利点と欠点DataFrames と mapPartitions() 変換概要
4.スパークの削減
ペアRDDの作成削減変換Sparkの削減額簡単なウォームアップの例reduceByKey() で解くgroupByKey()で解くaggregateByKey()で解くcombineByKey() で解くモノイドとは何か？モノイドと非モノイドの例映画問題分析する入力データセットaggregateByKey() 変換aggregateByKey()を使用した最初の解決策aggregateByKey()を使用した 2 番目の解決法groupByKey()を使ったPySparkの完全なソリューションreduceByKey()を使ったPySparkの完全なソリューションcombineByKey() を使った PySpark の完全なソリューションシャッフル・ステップgroupByKey()のシャッフル・ステップreduceByKey() のシャッフル・ステップ概要
II.データを扱う
5.データのパーティション分割
パーティション入門Sparkのパーティションパーティションを管理するデフォルトのパーティショニング明示的パーティショニングSQLクエリの物理パーティショニングSparkにおけるデータの物理パーティション分割テキスト形式でのパーティションパーケット形式でのパーティションパーティション分割されたデータのクエリ方法アマゾン・アテナの例概要
6.グラフアルゴリズム
グラフ入門GraphFrames APIグラフフレームの使い方GraphFrames 関数と属性グラフフレームのアルゴリズム三角形を発見するモチーフ発見実世界での応用遺伝子解析ソーシャル・レコメンデーションフェイスブックサークルコネクテッド・コンポーネントフライトデータを分析する概要

7.外部データソースと対話する
リレーショナルデータベースデータベースからの読み取りDataFrameをデータベースに書き込むテキストファイルの読み取りCSVファイルの読み書きCSVファイルの読み取りCSVファイルを書くJSONファイルの読み書きJSONファイルの読み取りJSONファイルを書くAmazon S3からの読み取りとAmazon S3への書き込みAmazon S3からの読み取りAmazon S3に書き込むHadoopファイルの読み書きHadoopテキストファイルの読み取りHadoopテキストファイルを書くHDFSシーケンスファイルの読み取りと書き込みパーケットファイルの読み書きパーケットファイルを書くパーケットファイルの読み取りAvroファイルの読み書きAvroファイルの読み取りAvroファイルを書くMS SQL Server からの読み取りと MS SQL Server への書き込みMS SQL Serverへの書き込みMS SQLサーバからの読み取り画像ファイルの読み取り画像からDataFrameを作成する概要
8.ランキング・アルゴリズム
ランク製品ランク積の計算ランク積の定式化ランク製品例PySparkソリューションページランクPageRankの反復計算RDDを使ったPySparkのカスタムPageRankPySparkで隣接行列を使ってカスタムPageRankを行うグラフフレームを使ったページランク概要
データ設計パターンデータ・デザイン・パターン
9.古典的なデータデザインパターン
インプット・マップ・アウトプットRDDソリューションデータフレーム・ソリューションフラットマッパーの関数入力-フィルター-出力RDDソリューションデータフレーム・ソリューションデータフレームフィルターインプット-マップ-リデュース-アウトプットRDDソリューションデータフレーム・ソリューションインプット-マルチプル-マッピング-リデュース-アウトプットRDDソリューションデータフレーム・ソリューションインプット-マップ-コンバイナー-リデュース-アウトプット入力-マップ分割-削減-出力反転インデックス問題提起インプット出力PySparkソリューション概要
10.実践的データデザインパターン
インマッパーの組み合わせ基本的なMapReduceアルゴリズムレコードごとのマッパー内結合パーティションごとのマッパー内結合トップ10トップN正式決定PySparkソリューション下位10人の発見MinMax解決策1：クラシックなMapReduce解決策2：ソート解決策3：SparkのmapPartitions()複合パターンとモノイドモノイドモノイドと非モノイドの例非モノイドMapReduceの例モノイドMapReduceの例モノイダル平均のPySpark実装ファンクタとモノイドモノイドの使用に関する結論ビンニングソート概要
11.デザインパターンに参加する
結合操作の紹介MapReduceに参加する地図段階減速機フェーズPySparkでの実装RDDを使用したマッピングサイドジョインDataFramesを使ったマッピングサイドジョインステップ1：空港用キャッシュの作成ステップ2：航空会社用キャッシュの作成ステップ3：ファクトテーブルの作成ステップ4：マップサイドジョインを適用するブルームフィルターを用いた効率的な結合ブルーム・フィルター入門簡単なブルームフィルターの例PythonのブルームフィルタPySparkでブルームフィルタを使う概要
12.PySparkにおけるフィーチャーエンジニアリング
フィーチャー・エンジニアリング入門新しい機能を追加するUDFを適用するパイプラインの作成データを2値化するインプットトークン化トークナイザーRegexTokenizerパイプラインによるトークン化標準化ノーマライゼーションパイプラインを使ってカラムを拡大縮小する複数の列でMinMaxScalerを使用するノーマライザーを使った正規化文字列インデクシングStringIndexerを単一列に適用するStringIndexerを複数の列に適用するベクター組み立てバケットバケタイザークォンタイル・ディスクレタイザー対数変換ワンホットエンコーディングTF-IDFフィーチャーハッシャーSQLTransformer概要
インデックス
著者について

Content preview from Sparkによるデータアルゴリズム

第11章. デザインパターンに参加する

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

この章では、データセットを結合するための実用的なデザインパターンを検討する。前の章と同様、実際の環境で役立つパターンに焦点を当てる。PySparkはRDD(pyspark.RDD.join())とDataFrame(pyspark.sql.DataFrame.join())の基本的な結合操作をサポートしており、ほとんどのユースケースではこれで十分である。しかし、このjoinがコスト高になる場合もあるので、役に立つと思われる特殊化joinアルゴリズムも紹介する。

この章では、2つのデータセットを結合する基本概念を紹介し、いくつかの便利で実用的な結合デザインパターンの例を示す。結合操作がMapReduceパラダイムでどのように実装されているか、そして結合を実行するためにSparkの演算子をどのように使うかを紹介する。RDDとDataFrameを使ったマップサイド結合の実行方法と、ブルームフィルターを使った効率的な結合の実行方法を紹介する。

結合操作の紹介

リレーショナルデータベースの世界では、2つのテーブル（別名 "リレーション"）を共通のキー、つまりテーブル内の各レコード（タプルまたは行）を一意に識別できる1つまたは複数の列の属性または属性セットで結合する操作は頻繁に行われる。

次の2つの表、T1 とT2 を考えてみよう：

T1 = {(k1, v1)}
T2 = {(k2, v2)}

どこだ？

k1はT1のキー、v1は関連する属性である。
k2はT2のキー、v2は関連する属性である。

単純な内部結合は、2つ以上のテーブルのキーが一致する行を結合して新しいテーブルを作成するもので、次のように定義できる：

T1.join(T2) = {(k, (v1, v2))}
T2.join(T1) = {(k, (v2, v1))}

どこだ？

k = k1 = k2である。
(k, v1)はT1にある。
(k, v2)はT2にある。

この仕組みを説明するために、2つのテーブルを作成し、サンプル・データを入力して、それらを結合してみよう。まず、T1 とT2 というテーブルを作成する：

>>> d1 = [('a', 10), ('a', 11), ('a', 12), ('b', 100), ('b', 200), ('c', 80)]
>>> T1 = spark.createDataFrame(d1, ['id', 'v1'])
>>> T1.show()
+---+---+
| id| v1|
+---+---+
|  a| 10|
|  a| 11|
|  a| 12|
|  b|100|
|  b|200|
|  c| 80|
+---+---+

>>> d2 = [('a', 40), ('a', 50), ('b', 300), ('b', 400), ('d', 90)]
>>> T2 = spark.createDataFrame(d2, ['id', 'v2'])
>>> T2.show()
+---+---+
| id| v2|
+---+---+
|  a| 40|
|  a| 50|
|  b|300|
|  b|400|
|  d| 90|
+---+---+ ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341635302

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Sparkによるデータアルゴリズム

by Mahmoud Parsian

第11章. デザインパターンに参加する

結合操作の紹介

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

More than 5,000 organizations count on O’Reilly

Julian F.

Addison B.

Amir M.

Mark W.

You might also like

メダリオンアーキテクチャの構築

AIエージェントを用いたアプリケーション構築

実践的レイクハウス・アーキテクチャー

データエンジニアリングの設計パターン

Publisher Resources

第11章. デザインパターンに参加する

結合操作の紹介

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

More than 5,000 organizations count on O’Reilly

Julian F.

Addison B.

Amir M.

Mark W.

You might also like

メダリオンアーキテクチャの構築

AIエージェントを用いたアプリケーション構築

実践的レイクハウス・アーキテクチャー

データエンジニアリングの設計パターン

Publisher Resources

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.