Skip to Content
スパーク定義ガイド
book

スパーク定義ガイド

by Bill Chambers, Matei Zaharia
March 2025
Intermediate to advanced
606 pages
9h
Japanese
O'Reilly Media, Inc.
Content preview from スパーク定義ガイド

第24章. 高度なアナリティクスとマシンラーニングの概要

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com

ここまで 、かなり一般化されたデータフローAPIを扱ってきた。このパートでは、Sparkで利用可能な、より具体的な高度な分析APIについて深く掘り下げていく。Sparkは、大規模SQL分析やストリーミングだけでなく、統計、マシン学習、グラフ分析もサポートしている。これらは、高度なアナリティクスと呼ばれる一連のワークロードを包含している。このパートでは、Sparkの高度な分析ツールについて説明する:

  • データの前処理(データのクリーニングとフィーチャーエンジニアリング)

  • 教師あり学習

  • 推薦学習

  • 教師なしエンジン

  • グラフ分析

  • ディープラーニング

この章では、高度なアナリティクスの基本的な概要、使用例、基本的な高度なアナリティクスのワークフローを説明する。そして、リストに挙げたアナリティクスツールを取り上げ、その適用方法を伝授する。

警告

本書は機械学習についてゼロから学ぶことを意図しているわけではない。厳密な数学的定義や定式化には踏み込まないが、それは重要性がないからではなく、単に情報が多すぎるからである。本書のこの部分は、利用可能なすべてのアルゴリズムの数学的裏付けや、使用されている詳細な実装戦略を教えるアルゴリズムガイドではない。ここに含まれる章はユーザ向けのガイドであり、Sparkの高度な分析APIを使用するために知っておくべきことを概説することを目的としている。

アドバンスド・アナリティクス入門

アドバンスト・アナリティクスとは、データに基づいて洞察を導き出し、予測や推奨を行うという中核的な問題を解決することを目的とした様々なテクニックを指す。機械学習に最適なオントロジーは、実行したいタスクに基づいて構成されている。最も一般的なタスクは以下の通りである:

  • 分類や回帰を含む教師あり学習では、様々な特徴に基づいて各データ点のラベルを予測することが目標となる。

  • 振る舞いからユーザに商品を提案するレコメンデーションエンジン。

  • 教師なし学習(クラスタリング、異常検出、トピックモデリングを含む。

  • ソーシャルネットワークのパターン検索などのグラフ分析タスク。

SparkのAPIについて詳しく説明する前に、一般的なマシン学習や高度なアナリティクスのユースケースとともに、これらのタスクのそれぞれを確認しておこう。可能な限りわかりやすく紹介するように努めたつもりだが、この内容を完全に理解するためには他のリソースを参照する必要があるかもしれない。O'Reillyは、特定のものにリンクしたり、言及したりすべきだろうか?さらに、個々のアナリティクスについてより深く学ぶための素晴らしいリソースであるため、次の数章を通して以下の書籍を引用する(おまけに、これらはウェブ上で自由に入手可能である):

  • Gareth James、Daniela Witten、Trevor Hastie、Robert Tibshirani著『統計的学習入門』である。この本を "ISL "と呼ぶ。

  • トレバー・ヘイスティー、ロバート・ティブシラニ、ジェローム・フリードマン著『統計的学習の要素』である。我々はこの本を "ESL "と呼んでいる。

  • イアン・グッドフェロー、ヨシュア・ベンジオ、アーロン・クールヴィル著『Deep Learning』である。我々はこの本を ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

高性能Spark

高性能Spark

Holden Karau, Rachel Warren
生成AIの可視化

生成AIの可視化

Priyanka Vergadia, Valliappa Lakshmanan
ソフトウェア工学の基礎

ソフトウェア工学の基礎

Nathaniel Schutta, Dan Vega

Publisher Resources

ISBN: 9798341627567