第24章. 高度なアナリティクスとマシンラーニングの概要
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
ここまで 、かなり一般化されたデータフローAPIを扱ってきた。このパートでは、Sparkで利用可能な、より具体的な高度な分析APIについて深く掘り下げていく。Sparkは、大規模SQL分析やストリーミングだけでなく、統計、マシン学習、グラフ分析もサポートしている。これらは、高度なアナリティクスと呼ばれる一連のワークロードを包含している。このパートでは、Sparkの高度な分析ツールについて説明する:
-
データの前処理(データのクリーニングとフィーチャーエンジニアリング)
-
教師あり学習
-
推薦学習
-
教師なしエンジン
-
グラフ分析
-
ディープラーニング
この章では、高度なアナリティクスの基本的な概要、使用例、基本的な高度なアナリティクスのワークフローを説明する。そして、リストに挙げたアナリティクスツールを取り上げ、その適用方法を伝授する。
警告
本書は機械学習についてゼロから学ぶことを意図しているわけではない。厳密な数学的定義や定式化には踏み込まないが、それは重要性がないからではなく、単に情報が多すぎるからである。本書のこの部分は、利用可能なすべてのアルゴリズムの数学的裏付けや、使用されている詳細な実装戦略を教えるアルゴリズムガイドではない。ここに含まれる章はユーザ向けのガイドであり、Sparkの高度な分析APIを使用するために知っておくべきことを概説することを目的としている。
アドバンスド・アナリティクス入門
アドバンスト・アナリティクスとは、データに基づいて洞察を導き出し、予測や推奨を行うという中核的な問題を解決することを目的とした様々なテクニックを指す。機械学習に最適なオントロジーは、実行したいタスクに基づいて構成されている。最も一般的なタスクは以下の通りである:
-
分類や回帰を含む教師あり学習では、様々な特徴に基づいて各データ点のラベルを予測することが目標となる。
-
振る舞いからユーザに商品を提案するレコメンデーションエンジン。
-
教師なし学習(クラスタリング、異常検出、トピックモデリングを含む。
-
ソーシャルネットワークのパターン検索などのグラフ分析タスク。
SparkのAPIについて詳しく説明する前に、一般的なマシン学習や高度なアナリティクスのユースケースとともに、これらのタスクのそれぞれを確認しておこう。可能な限りわかりやすく紹介するように努めたつもりだが、この内容を完全に理解するためには他のリソースを参照する必要があるかもしれない。O'Reillyは、特定のものにリンクしたり、言及したりすべきだろうか?さらに、個々のアナリティクスについてより深く学ぶための素晴らしいリソースであるため、次の数章を通して以下の書籍を引用する(おまけに、これらはウェブ上で自由に入手可能である):
-
Gareth James、Daniela Witten、Trevor Hastie、Robert Tibshirani著『統計的学習入門』である。この本を "ISL "と呼ぶ。
-
トレバー・ヘイスティー、ロバート・ティブシラニ、ジェローム・フリードマン著『統計的学習の要素』である。我々はこの本を "ESL "と呼んでいる。
-
イアン・グッドフェロー、ヨシュア・ベンジオ、アーロン・クールヴィル著『Deep Learning』である。我々はこの本を ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access