Skip to Content
Sparkによるデータアルゴリズム
book

Sparkによるデータアルゴリズム

by Mahmoud Parsian
March 2025
Intermediate to advanced
438 pages
6h 47m
Japanese
O'Reilly Media, Inc.
Content preview from Sparkによるデータアルゴリズム

序文

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com

Sparkは大規模データ分析のデファクトスタンダードとなっている。私は9年前のSparkの登場以来、Sparkを使い、教えており、ETL(Extract, Transform, Load)プロセス、分散アルゴリズム開発、大規模データ分析において驚異的な改善を見てきた。私はJavaでSparkを使い始めたが、コードはかなり安定しているものの、長い行を書かなければならず、読めなくなる可能性があることを発見した。本書では、PySpark(SparkのPython API)を使うことにした。Pythonの方がSparkのパワーを表現しやすく、コードが短く、読みやすく、保守しやすいからだ。PySparkはパワフルだが使い方はシンプルで、シンプルな変換とアクションのセットでどんなETLや分散アルゴリズムも表現できる。

この本を書いた理由

PySparkを使ったデータ分析の入門書である。本書は、ソフトウェアエンジニアやデータエンジニアが可能な限りシンプルな方法でデータ問題を解決するためのガイドラインと例題のセットで構成されている。 PySparkを使えば、複雑な問題に対してシンプルなコードを書くことができる。私の目的は、読者にデータについて考える方法を教え、その起源と最終的な意図する形を理解すること、そして様々なデータ問題を解決するための基本的なデータ変換パターンの使い方を示すことである。

この本は誰のためにあるのか?

本書を効果的に使うには、条件付き(if-then-else )の使い方、リストの繰り返し処理、関数の定義と呼び出しなど、Pythonプログラミング言語の基本を知っていると役に立つだろう。しかし、あなたのバックグラウンドが他のプログラミング言語(JavaやScalaなど)で、Pythonを知らなくても、SparkとPySparkの合理的な入門書を提供したので、この本を使うことができるだろう。

本書は主に、SparkエンジンとPySparkを使って大量のデータを分析し、分散アルゴリズムを開発したい人を対象としている。PySparkでETLオペレーションを実行し、分散アルゴリズムを書く方法を示す簡単な例を提供した。コード例は、カット&ペーストで簡単に作業ができるように書かれている。

GitHubで提供されているサンプル・コードは、独自のデータ・プロジェクトを始めるのに最適なリソースだ。

本書の構成

本書は12の章から成り、3つのパートで構成されている:

第1部 "基礎"

最初の4章では、SparkとPySparkの基礎をカバーし、マッパー、フィルタリング、リデューサーなどのデータ変換を紹介している。本書の最初の4章で紹介されているシンプルなPySparkデータ変換(map()flatMap()filter()reduceByKey() など)を使用することで、すべてのデータ問題の約95%に取り組むことができる。ここで紹介する内容を詳しく見てみよう:

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

メダリオンアーキテクチャの構築

メダリオンアーキテクチャの構築

Piethein Strengholt

Publisher Resources

ISBN: 9798341635302