book

Sparkによるデータアルゴリズム

Name: Sparkによるデータアルゴリズム
Author: Mahmoud Parsian
ISBN: 9798341635302

by Mahmoud Parsian

March 2025

Intermediate to advanced

438 pages

6h 47m

Japanese

O'Reilly Media, Inc.

Read now

Unlock full access

序文
序文
この本を書いた理由この本は誰のためにあるのか？本書の構成本書で使用されている慣例コード例を使うオライリー・オンライン・ラーニング問い合わせ先謝辞
I.基礎
1.SparkとPySparkの紹介
なぜデータ分析にSparkなのか？Sparkのエコシステムスパーク・アーキテクチャPySparkのパワーPySparkアーキテクチャSparkデータの抽象化RDDの例Spark RDD演算子データフレームの例PySparkシェルを使うPySparkシェルを起動するコレクションからRDDを作成するキーの値の集約とマージRDDの要素をフィルタリングする似たキーをグループ化する類似キーの値を集約するデータフレームを使ったETLの例抽出トランスフォーメーションローディング概要
2.トランスフォーメーション
DNA塩基カウントの例DNA塩基カウント問題FASTA形式サンプルデータDNA塩基カウント溶液1ステップ1：入力からRDD[文字列]を作成するステップ2：マッパー関数の定義ステップ3：DNA文字の頻度を発見する解決策1の長所と短所DNA塩基カウント溶液2ステップ1：入力からRDD[文字列]を作成するステップ2：マッパー関数の定義ステップ3：DNA文字の頻度を発見する解決策2の長所と短所DNA塩基カウント溶液3mapPartitions() 変換ステップ1：入力からRDD[文字列]を作成するステップ2：パーティションを処理する関数を定義するステップ3：カスタム関数を各パーティションに適用する解決策3の長所と短所概要
3.マッパーの変換
データの抽象化とマッパートランスフォーメーションとは何か？怠惰な変形map() 変換データフレームマッパーflatMap()変換map() と flatMap() の比較DataFrameにflatMap()を適用するmapValues() 変換flatMapValues() 変換mapPartitions() 変換空のパーティションを扱う利点と欠点DataFrames と mapPartitions() 変換概要
4.スパークの削減
ペアRDDの作成削減変換Sparkの削減額簡単なウォームアップの例reduceByKey() で解くgroupByKey()で解くaggregateByKey()で解くcombineByKey() で解くモノイドとは何か？モノイドと非モノイドの例映画問題分析する入力データセットaggregateByKey() 変換aggregateByKey()を使用した最初の解決策aggregateByKey()を使用した 2 番目の解決法groupByKey()を使ったPySparkの完全なソリューションreduceByKey()を使ったPySparkの完全なソリューションcombineByKey() を使った PySpark の完全なソリューションシャッフル・ステップgroupByKey()のシャッフル・ステップreduceByKey() のシャッフル・ステップ概要
II.データを扱う
5.データのパーティション分割
パーティション入門Sparkのパーティションパーティションを管理するデフォルトのパーティショニング明示的パーティショニングSQLクエリの物理パーティショニングSparkにおけるデータの物理パーティション分割テキスト形式でのパーティションパーケット形式でのパーティションパーティション分割されたデータのクエリ方法アマゾン・アテナの例概要
6.グラフアルゴリズム
グラフ入門GraphFrames APIグラフフレームの使い方GraphFrames 関数と属性グラフフレームのアルゴリズム三角形を発見するモチーフ発見実世界での応用遺伝子解析ソーシャル・レコメンデーションフェイスブックサークルコネクテッド・コンポーネントフライトデータを分析する概要

7.外部データソースと対話する
リレーショナルデータベースデータベースからの読み取りDataFrameをデータベースに書き込むテキストファイルの読み取りCSVファイルの読み書きCSVファイルの読み取りCSVファイルを書くJSONファイルの読み書きJSONファイルの読み取りJSONファイルを書くAmazon S3からの読み取りとAmazon S3への書き込みAmazon S3からの読み取りAmazon S3に書き込むHadoopファイルの読み書きHadoopテキストファイルの読み取りHadoopテキストファイルを書くHDFSシーケンスファイルの読み取りと書き込みパーケットファイルの読み書きパーケットファイルを書くパーケットファイルの読み取りAvroファイルの読み書きAvroファイルの読み取りAvroファイルを書くMS SQL Server からの読み取りと MS SQL Server への書き込みMS SQL Serverへの書き込みMS SQLサーバからの読み取り画像ファイルの読み取り画像からDataFrameを作成する概要
8.ランキング・アルゴリズム
ランク製品ランク積の計算ランク積の定式化ランク製品例PySparkソリューションページランクPageRankの反復計算RDDを使ったPySparkのカスタムPageRankPySparkで隣接行列を使ってカスタムPageRankを行うグラフフレームを使ったページランク概要
データ設計パターンデータ・デザイン・パターン
9.古典的なデータデザインパターン
インプット・マップ・アウトプットRDDソリューションデータフレーム・ソリューションフラットマッパーの関数入力-フィルター-出力RDDソリューションデータフレーム・ソリューションデータフレームフィルターインプット-マップ-リデュース-アウトプットRDDソリューションデータフレーム・ソリューションインプット-マルチプル-マッピング-リデュース-アウトプットRDDソリューションデータフレーム・ソリューションインプット-マップ-コンバイナー-リデュース-アウトプット入力-マップ分割-削減-出力反転インデックス問題提起インプット出力PySparkソリューション概要
10.実践的データデザインパターン
インマッパーの組み合わせ基本的なMapReduceアルゴリズムレコードごとのマッパー内結合パーティションごとのマッパー内結合トップ10トップN正式決定PySparkソリューション下位10人の発見MinMax解決策1：クラシックなMapReduce解決策2：ソート解決策3：SparkのmapPartitions()複合パターンとモノイドモノイドモノイドと非モノイドの例非モノイドMapReduceの例モノイドMapReduceの例モノイダル平均のPySpark実装ファンクタとモノイドモノイドの使用に関する結論ビンニングソート概要
11.デザインパターンに参加する
結合操作の紹介MapReduceに参加する地図段階減速機フェーズPySparkでの実装RDDを使用したマッピングサイドジョインDataFramesを使ったマッピングサイドジョインステップ1：空港用キャッシュの作成ステップ2：航空会社用キャッシュの作成ステップ3：ファクトテーブルの作成ステップ4：マップサイドジョインを適用するブルームフィルターを用いた効率的な結合ブルーム・フィルター入門簡単なブルームフィルターの例PythonのブルームフィルタPySparkでブルームフィルタを使う概要
12.PySparkにおけるフィーチャーエンジニアリング
フィーチャー・エンジニアリング入門新しい機能を追加するUDFを適用するパイプラインの作成データを2値化するインプットトークン化トークナイザーRegexTokenizerパイプラインによるトークン化標準化ノーマライゼーションパイプラインを使ってカラムを拡大縮小する複数の列でMinMaxScalerを使用するノーマライザーを使った正規化文字列インデクシングStringIndexerを単一列に適用するStringIndexerを複数の列に適用するベクター組み立てバケットバケタイザークォンタイル・ディスクレタイザー対数変換ワンホットエンコーディングTF-IDFフィーチャーハッシャーSQLTransformer概要
インデックス
著者について

Content preview from Sparkによるデータアルゴリズム

第1章. SparkとPySparkの紹介

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

Sparkは、大規模データ処理のための強力な分析エンジンで、ビッグデータ・アプリケーションのスピード、使いやすさ、拡張性を目指している。ビッグデータを日々扱う多くの企業で使用されている、実績のある広く採用されているテクノロジーだ。Sparkの「ネイティブ」言語はScalaだが（SparkのほとんどはScalaで開発されている）、Java、Python、Rの高レベルAPIも提供している。

本書では、SparkプログラミングモデルをPythonに公開するAPIであるPySparkを介してPythonを使用する。 Pythonは最もアクセスしやすいプログラミング言語であり、SparkのAPIは強力で式が多いため、PySparkはシンプルであり、私たちにとって最良の選択となる。PySparkはPythonプログラミング言語におけるSparkのインタフェースであり、以下の2つの重要な機能を提供する：

PythonのAPIを使ってSparkアプリケーションを書くことができる。
分散環境でインタラクティブにデータを分析するためのPySparkシェルを提供する。

本章の目的は、PySparkをSparkエコシステムの主要コンポーネントとして紹介し、ETL演算、何十億ものドキュメントのインデックス作成、何百万ものゲノムの取り込み、機械学習、グラフデータ解析、DNAデータ解析などのビッグデータ・タスクに効果的に使用できることを示すことである。まずSparkとPySparkのアーキテクチャを概観し、PySparkの表現力を示す例を提供する。SparkとPySparkをすぐに使い始められるように、Sparkのコア関数（変換とアクション）と概念の概要を紹介する。Sparkの主なデータ抽象化には、レジリエンス分散データセット（RDD）、DataFrames、Datasetsがある。これから説明するように、データ（Hadoopファイル、Amazon S3オブジェクト、Linuxファイル、コレクションデータ構造、リレーショナルデータベースのテーブルなど）をRDDとDataFramesの組み合わせで表現することができる。

いったんデータがSparkのデータ抽象化として表現されると、求めている最終的な形になるまで、そのデータに変換を適用したり、新しいデータ抽象化を作成したりすることができる。Sparkの変換（map() やreduceByKey() など）を使って、データをある形から別の形に変換し、目的の結果を得ることができる。これらのデータ抽象化については追って説明するが、まずはなぜSparkがデータ分析に最適なのかをもう少し掘り下げてみよう。

なぜデータ分析にSparkなのか？

Sparkは、大規模なデータ処理に使用できる強力な分析エンジンである。Sparkを使用する最も重要な理由は以下の通りである：

Sparkはシンプルでパワフル、そして速い。
Sparkはフリーでオープンソースだ。
Sparkはあらゆる場所（Hadoop、Mesos、Kubernetes、スタンドアロン、クラウド）で動作する。
Sparkは、あらゆるデータソース（Amazon S3、Hadoop HDFS、リレーショナルデータベースなど）から／へのデータの読み取り／書き込みが可能だ。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341635302

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Sparkによるデータアルゴリズム

by Mahmoud Parsian

第1章. SparkとPySparkの紹介

なぜデータ分析にSparkなのか？

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.