book

Sparkによるデータアルゴリズム

Name: Sparkによるデータアルゴリズム
Author: Mahmoud Parsian
ISBN: 9798341635302

by Mahmoud Parsian

March 2025

Intermediate to advanced

438 pages

6h 47m

Japanese

O'Reilly Media, Inc.

Read now

Unlock full access

序文
序文
この本を書いた理由この本は誰のためにあるのか？本書の構成本書で使用されている慣例コード例を使うオライリー・オンライン・ラーニング問い合わせ先謝辞
I.基礎
1.SparkとPySparkの紹介
なぜデータ分析にSparkなのか？Sparkのエコシステムスパーク・アーキテクチャPySparkのパワーPySparkアーキテクチャSparkデータの抽象化RDDの例Spark RDD演算子データフレームの例PySparkシェルを使うPySparkシェルを起動するコレクションからRDDを作成するキーの値の集約とマージRDDの要素をフィルタリングする似たキーをグループ化する類似キーの値を集約するデータフレームを使ったETLの例抽出トランスフォーメーションローディング概要
2.トランスフォーメーション
DNA塩基カウントの例DNA塩基カウント問題FASTA形式サンプルデータDNA塩基カウント溶液1ステップ1：入力からRDD[文字列]を作成するステップ2：マッパー関数の定義ステップ3：DNA文字の頻度を発見する解決策1の長所と短所DNA塩基カウント溶液2ステップ1：入力からRDD[文字列]を作成するステップ2：マッパー関数の定義ステップ3：DNA文字の頻度を発見する解決策2の長所と短所DNA塩基カウント溶液3mapPartitions() 変換ステップ1：入力からRDD[文字列]を作成するステップ2：パーティションを処理する関数を定義するステップ3：カスタム関数を各パーティションに適用する解決策3の長所と短所概要
3.マッパーの変換
データの抽象化とマッパートランスフォーメーションとは何か？怠惰な変形map() 変換データフレームマッパーflatMap()変換map() と flatMap() の比較DataFrameにflatMap()を適用するmapValues() 変換flatMapValues() 変換mapPartitions() 変換空のパーティションを扱う利点と欠点DataFrames と mapPartitions() 変換概要
4.スパークの削減
ペアRDDの作成削減変換Sparkの削減額簡単なウォームアップの例reduceByKey() で解くgroupByKey()で解くaggregateByKey()で解くcombineByKey() で解くモノイドとは何か？モノイドと非モノイドの例映画問題分析する入力データセットaggregateByKey() 変換aggregateByKey()を使用した最初の解決策aggregateByKey()を使用した 2 番目の解決法groupByKey()を使ったPySparkの完全なソリューションreduceByKey()を使ったPySparkの完全なソリューションcombineByKey() を使った PySpark の完全なソリューションシャッフル・ステップgroupByKey()のシャッフル・ステップreduceByKey() のシャッフル・ステップ概要
II.データを扱う
5.データのパーティション分割
パーティション入門Sparkのパーティションパーティションを管理するデフォルトのパーティショニング明示的パーティショニングSQLクエリの物理パーティショニングSparkにおけるデータの物理パーティション分割テキスト形式でのパーティションパーケット形式でのパーティションパーティション分割されたデータのクエリ方法アマゾン・アテナの例概要
6.グラフアルゴリズム
グラフ入門GraphFrames APIグラフフレームの使い方GraphFrames 関数と属性グラフフレームのアルゴリズム三角形を発見するモチーフ発見実世界での応用遺伝子解析ソーシャル・レコメンデーションフェイスブックサークルコネクテッド・コンポーネントフライトデータを分析する概要

7.外部データソースと対話する
リレーショナルデータベースデータベースからの読み取りDataFrameをデータベースに書き込むテキストファイルの読み取りCSVファイルの読み書きCSVファイルの読み取りCSVファイルを書くJSONファイルの読み書きJSONファイルの読み取りJSONファイルを書くAmazon S3からの読み取りとAmazon S3への書き込みAmazon S3からの読み取りAmazon S3に書き込むHadoopファイルの読み書きHadoopテキストファイルの読み取りHadoopテキストファイルを書くHDFSシーケンスファイルの読み取りと書き込みパーケットファイルの読み書きパーケットファイルを書くパーケットファイルの読み取りAvroファイルの読み書きAvroファイルの読み取りAvroファイルを書くMS SQL Server からの読み取りと MS SQL Server への書き込みMS SQL Serverへの書き込みMS SQLサーバからの読み取り画像ファイルの読み取り画像からDataFrameを作成する概要
8.ランキング・アルゴリズム
ランク製品ランク積の計算ランク積の定式化ランク製品例PySparkソリューションページランクPageRankの反復計算RDDを使ったPySparkのカスタムPageRankPySparkで隣接行列を使ってカスタムPageRankを行うグラフフレームを使ったページランク概要
データ設計パターンデータ・デザイン・パターン
9.古典的なデータデザインパターン
インプット・マップ・アウトプットRDDソリューションデータフレーム・ソリューションフラットマッパーの関数入力-フィルター-出力RDDソリューションデータフレーム・ソリューションデータフレームフィルターインプット-マップ-リデュース-アウトプットRDDソリューションデータフレーム・ソリューションインプット-マルチプル-マッピング-リデュース-アウトプットRDDソリューションデータフレーム・ソリューションインプット-マップ-コンバイナー-リデュース-アウトプット入力-マップ分割-削減-出力反転インデックス問題提起インプット出力PySparkソリューション概要
10.実践的データデザインパターン
インマッパーの組み合わせ基本的なMapReduceアルゴリズムレコードごとのマッパー内結合パーティションごとのマッパー内結合トップ10トップN正式決定PySparkソリューション下位10人の発見MinMax解決策1：クラシックなMapReduce解決策2：ソート解決策3：SparkのmapPartitions()複合パターンとモノイドモノイドモノイドと非モノイドの例非モノイドMapReduceの例モノイドMapReduceの例モノイダル平均のPySpark実装ファンクタとモノイドモノイドの使用に関する結論ビンニングソート概要
11.デザインパターンに参加する
結合操作の紹介MapReduceに参加する地図段階減速機フェーズPySparkでの実装RDDを使用したマッピングサイドジョインDataFramesを使ったマッピングサイドジョインステップ1：空港用キャッシュの作成ステップ2：航空会社用キャッシュの作成ステップ3：ファクトテーブルの作成ステップ4：マップサイドジョインを適用するブルームフィルターを用いた効率的な結合ブルーム・フィルター入門簡単なブルームフィルターの例PythonのブルームフィルタPySparkでブルームフィルタを使う概要
12.PySparkにおけるフィーチャーエンジニアリング
フィーチャー・エンジニアリング入門新しい機能を追加するUDFを適用するパイプラインの作成データを2値化するインプットトークン化トークナイザーRegexTokenizerパイプラインによるトークン化標準化ノーマライゼーションパイプラインを使ってカラムを拡大縮小する複数の列でMinMaxScalerを使用するノーマライザーを使った正規化文字列インデクシングStringIndexerを単一列に適用するStringIndexerを複数の列に適用するベクター組み立てバケットバケタイザークォンタイル・ディスクレタイザー対数変換ワンホットエンコーディングTF-IDFフィーチャーハッシャーSQLTransformer概要
インデックス
著者について

Content preview from Sparkによるデータアルゴリズム

第10章. 実践的なデータ・デザイン・パターン

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

本章の目的は、一般的なデータ問題の解決に役立つ実践的なデータデザインパターンを紹介することである。ビッグデータ・ソリューションで使用され、本番環境でデプロイされている実際のデザインパターンに焦点を当てる。

前章と同様に、それぞれの使い方を簡単な例で説明し、Sparkの変換を使って実装する方法を紹介する。また、削減変換をより理解するために、モノイドの概念についても詳しく説明する。

デザインパターンの本で最も優れているのは、コンピュータ・サイエンスの代表的な本である『デザイン・パターン』だ：Elements of Reusable Object-Oriented Software」（Erich Gamma、Richard Helm、Ralph Johnson、John Vlissides著、「Gang of Four」として知られる）である。本書では、"Gang of Four "にあるようなデータ・デザイン・パターンを紹介するのではなく、本番環境で使用されている実用的で非公式なデータ・デザイン・パターンに焦点を当てる。

この章で取り上げるデータデザインパターンは、Sparkクラスタにデプロイするスケーラブルなソリューションを書くのに役立つ。しかし、デザインパターンを採用し使用する場合、特効薬はないことに注意しよう。どのパターンも、本番環境に近い環境で、実際のデータを使ってパフォーマンスとスケーラビリティをテストする必要がある。

注

ソフトウェア工学におけるデザインパターンの一般化については、前述のデザインパターンを参照されたい：Elements of Reusable Object-Oriented Software」（Erich Gamma、Richard Helm、Ralph Johnson、John Vlissides著、Addison-Wesley）を参照されたい。 MapReduceのデザインパターンについては、Donald MinerとAdam Shook著のMapReduce Design Patternsと拙著Data Algorithms（いずれもO'Reilly社刊）を参照されたい。

この章で取り上げるデザインパターンには、以下のようなものがある：

インマッパーの組み合わせ
トップ10
MinMax
複合パターン／モノイド
ビンニング
ソート

まずは、インマッパー・コンバイナーを使った便利な要約デザインパターンから始めよう。

インマッパーの組み合わせ

MapReduceパラダイムでは、コンバイナー（セミリデューサーとも呼ばれる）は、各ワーカー上でローカルに実行されるプロセスであり、データをリデューサーにネットワーク越しに送る前に集約する。Hadoopのようなフレームワークでは、これは通常、局所的最適化のオプションとみなされる。インマッパーコンバイナーは、マッパーから(キーと値)のペアを受け取るときに、ローカルディスクにすべて書き込んでからキーごとに値を集約するのではなく、メモリ内で集約を実行することで、さらなる最適化を行う。(Sparkは全ての処理をメモリ内で行うので、デフォルトではこのように動作する。) in-mapper結合デザインパターンの目的は、マッパーがその出力を可能な限り効率的に結合して要約することである。そのため、ソートやシャッフル、あるいは演算子( ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341635302

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Sparkによるデータアルゴリズム

by Mahmoud Parsian

第10章. 実践的なデータ・デザイン・パターン

注

インマッパーの組み合わせ

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.