book

Sparkによるデータアルゴリズム

Name: Sparkによるデータアルゴリズム
Author: Mahmoud Parsian
ISBN: 9798341635302

by Mahmoud Parsian

March 2025

Intermediate to advanced

438 pages

6h 47m

Japanese

O'Reilly Media, Inc.

Read now

Unlock full access

序文
序文
この本を書いた理由この本は誰のためにあるのか？本書の構成本書で使用されている慣例コード例を使うオライリー・オンライン・ラーニング問い合わせ先謝辞
I.基礎
1.SparkとPySparkの紹介
なぜデータ分析にSparkなのか？Sparkのエコシステムスパーク・アーキテクチャPySparkのパワーPySparkアーキテクチャSparkデータの抽象化RDDの例Spark RDD演算子データフレームの例PySparkシェルを使うPySparkシェルを起動するコレクションからRDDを作成するキーの値の集約とマージRDDの要素をフィルタリングする似たキーをグループ化する類似キーの値を集約するデータフレームを使ったETLの例抽出トランスフォーメーションローディング概要
2.トランスフォーメーション
DNA塩基カウントの例DNA塩基カウント問題FASTA形式サンプルデータDNA塩基カウント溶液1ステップ1：入力からRDD[文字列]を作成するステップ2：マッパー関数の定義ステップ3：DNA文字の頻度を発見する解決策1の長所と短所DNA塩基カウント溶液2ステップ1：入力からRDD[文字列]を作成するステップ2：マッパー関数の定義ステップ3：DNA文字の頻度を発見する解決策2の長所と短所DNA塩基カウント溶液3mapPartitions() 変換ステップ1：入力からRDD[文字列]を作成するステップ2：パーティションを処理する関数を定義するステップ3：カスタム関数を各パーティションに適用する解決策3の長所と短所概要
3.マッパーの変換
データの抽象化とマッパートランスフォーメーションとは何か？怠惰な変形map() 変換データフレームマッパーflatMap()変換map() と flatMap() の比較DataFrameにflatMap()を適用するmapValues() 変換flatMapValues() 変換mapPartitions() 変換空のパーティションを扱う利点と欠点DataFrames と mapPartitions() 変換概要
4.スパークの削減
ペアRDDの作成削減変換Sparkの削減額簡単なウォームアップの例reduceByKey() で解くgroupByKey()で解くaggregateByKey()で解くcombineByKey() で解くモノイドとは何か？モノイドと非モノイドの例映画問題分析する入力データセットaggregateByKey() 変換aggregateByKey()を使用した最初の解決策aggregateByKey()を使用した 2 番目の解決法groupByKey()を使ったPySparkの完全なソリューションreduceByKey()を使ったPySparkの完全なソリューションcombineByKey() を使った PySpark の完全なソリューションシャッフル・ステップgroupByKey()のシャッフル・ステップreduceByKey() のシャッフル・ステップ概要
II.データを扱う
5.データのパーティション分割
パーティション入門Sparkのパーティションパーティションを管理するデフォルトのパーティショニング明示的パーティショニングSQLクエリの物理パーティショニングSparkにおけるデータの物理パーティション分割テキスト形式でのパーティションパーケット形式でのパーティションパーティション分割されたデータのクエリ方法アマゾン・アテナの例概要
6.グラフアルゴリズム
グラフ入門GraphFrames APIグラフフレームの使い方GraphFrames 関数と属性グラフフレームのアルゴリズム三角形を発見するモチーフ発見実世界での応用遺伝子解析ソーシャル・レコメンデーションフェイスブックサークルコネクテッド・コンポーネントフライトデータを分析する概要

7.外部データソースと対話する
リレーショナルデータベースデータベースからの読み取りDataFrameをデータベースに書き込むテキストファイルの読み取りCSVファイルの読み書きCSVファイルの読み取りCSVファイルを書くJSONファイルの読み書きJSONファイルの読み取りJSONファイルを書くAmazon S3からの読み取りとAmazon S3への書き込みAmazon S3からの読み取りAmazon S3に書き込むHadoopファイルの読み書きHadoopテキストファイルの読み取りHadoopテキストファイルを書くHDFSシーケンスファイルの読み取りと書き込みパーケットファイルの読み書きパーケットファイルを書くパーケットファイルの読み取りAvroファイルの読み書きAvroファイルの読み取りAvroファイルを書くMS SQL Server からの読み取りと MS SQL Server への書き込みMS SQL Serverへの書き込みMS SQLサーバからの読み取り画像ファイルの読み取り画像からDataFrameを作成する概要
8.ランキング・アルゴリズム
ランク製品ランク積の計算ランク積の定式化ランク製品例PySparkソリューションページランクPageRankの反復計算RDDを使ったPySparkのカスタムPageRankPySparkで隣接行列を使ってカスタムPageRankを行うグラフフレームを使ったページランク概要
データ設計パターンデータ・デザイン・パターン
9.古典的なデータデザインパターン
インプット・マップ・アウトプットRDDソリューションデータフレーム・ソリューションフラットマッパーの関数入力-フィルター-出力RDDソリューションデータフレーム・ソリューションデータフレームフィルターインプット-マップ-リデュース-アウトプットRDDソリューションデータフレーム・ソリューションインプット-マルチプル-マッピング-リデュース-アウトプットRDDソリューションデータフレーム・ソリューションインプット-マップ-コンバイナー-リデュース-アウトプット入力-マップ分割-削減-出力反転インデックス問題提起インプット出力PySparkソリューション概要
10.実践的データデザインパターン
インマッパーの組み合わせ基本的なMapReduceアルゴリズムレコードごとのマッパー内結合パーティションごとのマッパー内結合トップ10トップN正式決定PySparkソリューション下位10人の発見MinMax解決策1：クラシックなMapReduce解決策2：ソート解決策3：SparkのmapPartitions()複合パターンとモノイドモノイドモノイドと非モノイドの例非モノイドMapReduceの例モノイドMapReduceの例モノイダル平均のPySpark実装ファンクタとモノイドモノイドの使用に関する結論ビンニングソート概要
11.デザインパターンに参加する
結合操作の紹介MapReduceに参加する地図段階減速機フェーズPySparkでの実装RDDを使用したマッピングサイドジョインDataFramesを使ったマッピングサイドジョインステップ1：空港用キャッシュの作成ステップ2：航空会社用キャッシュの作成ステップ3：ファクトテーブルの作成ステップ4：マップサイドジョインを適用するブルームフィルターを用いた効率的な結合ブルーム・フィルター入門簡単なブルームフィルターの例PythonのブルームフィルタPySparkでブルームフィルタを使う概要
12.PySparkにおけるフィーチャーエンジニアリング
フィーチャー・エンジニアリング入門新しい機能を追加するUDFを適用するパイプラインの作成データを2値化するインプットトークン化トークナイザーRegexTokenizerパイプラインによるトークン化標準化ノーマライゼーションパイプラインを使ってカラムを拡大縮小する複数の列でMinMaxScalerを使用するノーマライザーを使った正規化文字列インデクシングStringIndexerを単一列に適用するStringIndexerを複数の列に適用するベクター組み立てバケットバケタイザークォンタイル・ディスクレタイザー対数変換ワンホットエンコーディングTF-IDFフィーチャーハッシャーSQLTransformer概要
インデックス
著者について

Content preview from Sparkによるデータアルゴリズム

序文

10年前にApache Sparkプロジェクトを立ち上げたとき、私の主な目標のひとつは、幅広いユーザが並列アルゴリズムを簡単に実装できるようにすることだった。大規模データに作用する新しいアルゴリズムは、コンピューティングのあらゆる分野に多大な影響を及ぼしており、私は、開発者が分散システムをゼロから構築することなく、そのようなアルゴリズムを実装し、その性能を推論する手助けをしたいと考えた。

そのため、Sparkを使ったデータアルゴリズムに関するマフムード・パーシアン博士の新刊を目にするのを非常に楽しみにしている。Parsian博士は、イルミナのビッグデータ・チームのリーダーとしてバイオインフォマティクスの新しいアルゴリズムを開発するなど、大規模データ並列アルゴリズムに関する広範な研究と実践経験を有している。本書では、Python APIであるPySparkを通じてSparkを紹介し、Sparkの分散コンピューティング・プリミティブを使用して幅広い有用なアルゴリズムを効率的に実装する方法を示す。また、基礎となるSparkエンジンの仕組みや、データのパーティション分割を制御するなどのテクニックによってアルゴリズムを最適化する方法についても解説している。本書は、既存のアルゴリズムをスケーラブルに実装したいと考えている読者にとっても、Sparkを使って新しいカスタムアルゴリズムを開発しようとしている読者にとっても、素晴らしいリソースとなるだろう。

また、パーシアン博士が、可能な限り実際の問題を用いて論じたすべてのアルゴリズムについて、実用的なコード例を載せていることにも感激している。これらは、同様の計算を実装したい読者にとって素晴らしい出発点となるだろう。これらのアルゴリズムを直接利用するにしても、Sparkを使って独自のアルゴリズムを構築するにしても、オープンソースエンジンやその内部構造、そしてコンピューティング全体に大きな影響を及ぼしている最新の並列アルゴリズムの入門書として、本書を楽しんでほしい。

マテイ・ザハリア

スタンフォード大学コンピューターサイエンス助教授

データブリックス、チーフ・テクノロジスト

Apache Sparkの生みの親である。

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341635302

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Sparkによるデータアルゴリズム

by Mahmoud Parsian

序文

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.