book

Sparkによるデータアルゴリズム

Name: Sparkによるデータアルゴリズム
Author: Mahmoud Parsian
ISBN: 9798341635302

by Mahmoud Parsian

March 2025

Intermediate to advanced

438 pages

6h 47m

Japanese

O'Reilly Media, Inc.

Read now

Unlock full access

序文
序文
この本を書いた理由この本は誰のためにあるのか？本書の構成本書で使用されている慣例コード例を使うオライリー・オンライン・ラーニング問い合わせ先謝辞
I.基礎
1.SparkとPySparkの紹介
なぜデータ分析にSparkなのか？Sparkのエコシステムスパーク・アーキテクチャPySparkのパワーPySparkアーキテクチャSparkデータの抽象化RDDの例Spark RDD演算子データフレームの例PySparkシェルを使うPySparkシェルを起動するコレクションからRDDを作成するキーの値の集約とマージRDDの要素をフィルタリングする似たキーをグループ化する類似キーの値を集約するデータフレームを使ったETLの例抽出トランスフォーメーションローディング概要
2.トランスフォーメーション
DNA塩基カウントの例DNA塩基カウント問題FASTA形式サンプルデータDNA塩基カウント溶液1ステップ1：入力からRDD[文字列]を作成するステップ2：マッパー関数の定義ステップ3：DNA文字の頻度を発見する解決策1の長所と短所DNA塩基カウント溶液2ステップ1：入力からRDD[文字列]を作成するステップ2：マッパー関数の定義ステップ3：DNA文字の頻度を発見する解決策2の長所と短所DNA塩基カウント溶液3mapPartitions() 変換ステップ1：入力からRDD[文字列]を作成するステップ2：パーティションを処理する関数を定義するステップ3：カスタム関数を各パーティションに適用する解決策3の長所と短所概要
3.マッパーの変換
データの抽象化とマッパートランスフォーメーションとは何か？怠惰な変形map() 変換データフレームマッパーflatMap()変換map() と flatMap() の比較DataFrameにflatMap()を適用するmapValues() 変換flatMapValues() 変換mapPartitions() 変換空のパーティションを扱う利点と欠点DataFrames と mapPartitions() 変換概要
4.スパークの削減
ペアRDDの作成削減変換Sparkの削減額簡単なウォームアップの例reduceByKey() で解くgroupByKey()で解くaggregateByKey()で解くcombineByKey() で解くモノイドとは何か？モノイドと非モノイドの例映画問題分析する入力データセットaggregateByKey() 変換aggregateByKey()を使用した最初の解決策aggregateByKey()を使用した 2 番目の解決法groupByKey()を使ったPySparkの完全なソリューションreduceByKey()を使ったPySparkの完全なソリューションcombineByKey() を使った PySpark の完全なソリューションシャッフル・ステップgroupByKey()のシャッフル・ステップreduceByKey() のシャッフル・ステップ概要
II.データを扱う
5.データのパーティション分割
パーティション入門Sparkのパーティションパーティションを管理するデフォルトのパーティショニング明示的パーティショニングSQLクエリの物理パーティショニングSparkにおけるデータの物理パーティション分割テキスト形式でのパーティションパーケット形式でのパーティションパーティション分割されたデータのクエリ方法アマゾン・アテナの例概要
6.グラフアルゴリズム
グラフ入門GraphFrames APIグラフフレームの使い方GraphFrames 関数と属性グラフフレームのアルゴリズム三角形を発見するモチーフ発見実世界での応用遺伝子解析ソーシャル・レコメンデーションフェイスブックサークルコネクテッド・コンポーネントフライトデータを分析する概要

7.外部データソースと対話する
リレーショナルデータベースデータベースからの読み取りDataFrameをデータベースに書き込むテキストファイルの読み取りCSVファイルの読み書きCSVファイルの読み取りCSVファイルを書くJSONファイルの読み書きJSONファイルの読み取りJSONファイルを書くAmazon S3からの読み取りとAmazon S3への書き込みAmazon S3からの読み取りAmazon S3に書き込むHadoopファイルの読み書きHadoopテキストファイルの読み取りHadoopテキストファイルを書くHDFSシーケンスファイルの読み取りと書き込みパーケットファイルの読み書きパーケットファイルを書くパーケットファイルの読み取りAvroファイルの読み書きAvroファイルの読み取りAvroファイルを書くMS SQL Server からの読み取りと MS SQL Server への書き込みMS SQL Serverへの書き込みMS SQLサーバからの読み取り画像ファイルの読み取り画像からDataFrameを作成する概要
8.ランキング・アルゴリズム
ランク製品ランク積の計算ランク積の定式化ランク製品例PySparkソリューションページランクPageRankの反復計算RDDを使ったPySparkのカスタムPageRankPySparkで隣接行列を使ってカスタムPageRankを行うグラフフレームを使ったページランク概要
データ設計パターンデータ・デザイン・パターン
9.古典的なデータデザインパターン
インプット・マップ・アウトプットRDDソリューションデータフレーム・ソリューションフラットマッパーの関数入力-フィルター-出力RDDソリューションデータフレーム・ソリューションデータフレームフィルターインプット-マップ-リデュース-アウトプットRDDソリューションデータフレーム・ソリューションインプット-マルチプル-マッピング-リデュース-アウトプットRDDソリューションデータフレーム・ソリューションインプット-マップ-コンバイナー-リデュース-アウトプット入力-マップ分割-削減-出力反転インデックス問題提起インプット出力PySparkソリューション概要
10.実践的データデザインパターン
インマッパーの組み合わせ基本的なMapReduceアルゴリズムレコードごとのマッパー内結合パーティションごとのマッパー内結合トップ10トップN正式決定PySparkソリューション下位10人の発見MinMax解決策1：クラシックなMapReduce解決策2：ソート解決策3：SparkのmapPartitions()複合パターンとモノイドモノイドモノイドと非モノイドの例非モノイドMapReduceの例モノイドMapReduceの例モノイダル平均のPySpark実装ファンクタとモノイドモノイドの使用に関する結論ビンニングソート概要
11.デザインパターンに参加する
結合操作の紹介MapReduceに参加する地図段階減速機フェーズPySparkでの実装RDDを使用したマッピングサイドジョインDataFramesを使ったマッピングサイドジョインステップ1：空港用キャッシュの作成ステップ2：航空会社用キャッシュの作成ステップ3：ファクトテーブルの作成ステップ4：マップサイドジョインを適用するブルームフィルターを用いた効率的な結合ブルーム・フィルター入門簡単なブルームフィルターの例PythonのブルームフィルタPySparkでブルームフィルタを使う概要
12.PySparkにおけるフィーチャーエンジニアリング
フィーチャー・エンジニアリング入門新しい機能を追加するUDFを適用するパイプラインの作成データを2値化するインプットトークン化トークナイザーRegexTokenizerパイプラインによるトークン化標準化ノーマライゼーションパイプラインを使ってカラムを拡大縮小する複数の列でMinMaxScalerを使用するノーマライザーを使った正規化文字列インデクシングStringIndexerを単一列に適用するStringIndexerを複数の列に適用するベクター組み立てバケットバケタイザークォンタイル・ディスクレタイザー対数変換ワンホットエンコーディングTF-IDFフィーチャーハッシャーSQLTransformer概要
インデックス
著者について

Content preview from Sparkによるデータアルゴリズム

序文

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

Sparkは大規模データ分析のデファクトスタンダードとなっている。私は9年前のSparkの登場以来、Sparkを使い、教えており、ETL（Extract, Transform, Load）プロセス、分散アルゴリズム開発、大規模データ分析において驚異的な改善を見てきた。私はJavaでSparkを使い始めたが、コードはかなり安定しているものの、長い行を書かなければならず、読めなくなる可能性があることを発見した。本書では、PySpark（SparkのPython API）を使うことにした。Pythonの方がSparkのパワーを表現しやすく、コードが短く、読みやすく、保守しやすいからだ。PySparkはパワフルだが使い方はシンプルで、シンプルな変換とアクションのセットでどんなETLや分散アルゴリズムも表現できる。

この本を書いた理由

PySparkを使ったデータ分析の入門書である。本書は、ソフトウェアエンジニアやデータエンジニアが可能な限りシンプルな方法でデータ問題を解決するためのガイドラインと例題のセットで構成されている。 PySparkを使えば、複雑な問題に対してシンプルなコードを書くことができる。私の目的は、読者にデータについて考える方法を教え、その起源と最終的な意図する形を理解すること、そして様々なデータ問題を解決するための基本的なデータ変換パターンの使い方を示すことである。

この本は誰のためにあるのか？

本書を効果的に使うには、条件付き（if-then-else ）の使い方、リストの繰り返し処理、関数の定義と呼び出しなど、Pythonプログラミング言語の基本を知っていると役に立つだろう。しかし、あなたのバックグラウンドが他のプログラミング言語（JavaやScalaなど）で、Pythonを知らなくても、SparkとPySparkの合理的な入門書を提供したので、この本を使うことができるだろう。

本書は主に、SparkエンジンとPySparkを使って大量のデータを分析し、分散アルゴリズムを開発したい人を対象としている。PySparkでETLオペレーションを実行し、分散アルゴリズムを書く方法を示す簡単な例を提供した。コード例は、カット＆ペーストで簡単に作業ができるように書かれている。

GitHubで提供されているサンプル・コードは、独自のデータ・プロジェクトを始めるのに最適なリソースだ。

本書の構成

本書は12の章から成り、3つのパートで構成されている：

第1部 "基礎"

最初の4章では、SparkとPySparkの基礎をカバーし、マッパー、フィルタリング、リデューサーなどのデータ変換を紹介している。本書の最初の4章で紹介されているシンプルなPySparkデータ変換（map() 、flatMap() 、filter() 、reduceByKey() など）を使用することで、すべてのデータ問題の約95%に取り組むことができる。ここで紹介する内容を詳しく見てみよう：

第1章「SparkとPySpark入門」では、データアルゴリズムのハイレベルな概要を説明し、データ分析の問題を解決するためのSparkとPySparkの使い方を紹介する。
第2章 "Transformations in Action "では、Sparkの変換（マッパー、フィルタリング、リデューサー）を使って実際のデータ問題を解決する方法を紹介する。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341635302

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business