序文
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
Sparkは大規模データ分析のデファクトスタンダードとなっている。私は9年前のSparkの登場以来、Sparkを使い、教えており、ETL(Extract, Transform, Load)プロセス、分散アルゴリズム開発、大規模データ分析において驚異的な改善を見てきた。私はJavaでSparkを使い始めたが、コードはかなり安定しているものの、長い行を書かなければならず、読めなくなる可能性があることを発見した。本書では、PySpark(SparkのPython API)を使うことにした。Pythonの方がSparkのパワーを表現しやすく、コードが短く、読みやすく、保守しやすいからだ。PySparkはパワフルだが使い方はシンプルで、シンプルな変換とアクションのセットでどんなETLや分散アルゴリズムも表現できる。
この本を書いた理由
PySparkを使ったデータ分析の入門書である。本書は、ソフトウェアエンジニアやデータエンジニアが可能な限りシンプルな方法でデータ問題を解決するためのガイドラインと例題のセットで構成されている。 PySparkを使えば、複雑な問題に対してシンプルなコードを書くことができる。私の目的は、読者にデータについて考える方法を教え、その起源と最終的な意図する形を理解すること、そして様々なデータ問題を解決するための基本的なデータ変換パターンの使い方を示すことである。
この本は誰のためにあるのか?
本書を効果的に使うには、条件付き(if-then-else )の使い方、リストの繰り返し処理、関数の定義と呼び出しなど、Pythonプログラミング言語の基本を知っていると役に立つだろう。しかし、あなたのバックグラウンドが他のプログラミング言語(JavaやScalaなど)で、Pythonを知らなくても、SparkとPySparkの合理的な入門書を提供したので、この本を使うことができるだろう。
本書は主に、SparkエンジンとPySparkを使って大量のデータを分析し、分散アルゴリズムを開発したい人を対象としている。PySparkでETLオペレーションを実行し、分散アルゴリズムを書く方法を示す簡単な例を提供した。コード例は、カット&ペーストで簡単に作業ができるように書かれている。
GitHubで提供されているサンプル・コードは、独自のデータ・プロジェクトを始めるのに最適なリソースだ。
本書の構成
本書は12の章から成り、3つのパートで構成されている:
- 第1部 "基礎"
-
最初の4章では、SparkとPySparkの基礎をカバーし、マッパー、フィルタリング、リデューサーなどのデータ変換を紹介している。本書の最初の4章で紹介されているシンプルなPySparkデータ変換(
map()、flatMap()、filter()、reduceByKey()など)を使用することで、すべてのデータ問題の約95%に取り組むことができる。ここで紹介する内容を詳しく見てみよう:-
第1章「SparkとPySpark入門」では、データアルゴリズムのハイレベルな概要を説明し、データ分析の問題を解決するためのSparkとPySparkの使い方を紹介する。
-
第2章 "Transformations in Action "では、Sparkの変換(マッパー、フィルタリング、リデューサー)を使って実際のデータ問題を解決する方法を紹介する。 ...
-
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access