Skip to Content
スパーク定義ガイド
book

スパーク定義ガイド

by Bill Chambers, Matei Zaharia
March 2025
Intermediate to advanced
606 pages
9h
Japanese
O'Reilly Media, Inc.
Content preview from スパーク定義ガイド

第28章 推薦の言葉

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com

推薦というタスクは、最も直感的なものの一つである。人々の明示的な嗜好(レーティングを通して)や暗黙的な嗜好(可観測性を通して)を研究することで、あるユーザと他のユーザ、あるいはそのユーザが気に入った商品と他の商品との類似点を導き出すことで、あるユーザが好むかもしれないものを推薦することができる。根底にある類似性を使って、推薦エンジンは他のユーザに新しい推薦をすることができる。

使用例

レコメンデーション エンジンは、ビッグデータの最良のユースケースの一つである。ユーザの過去の嗜好に関する学習データを大規模に収集するのはかなり簡単で、このデータはユーザと新しいコンテンツを結びつけるために多くのドメインで使用することができる。Sparkは、様々な企業で大規模なレコメンデーションに使われているオープンソースのツールだ:

おすすめ映画

Amazon、Netflix、 、HBOはいずれも、関連性の高い映画やテレビコンテンツをユーザに提供したいと考えている。NetflixはSparkを利用し、ユーザに大規模な映画推薦を行っている。

推奨コース

ある学校は、似たような生徒がどのようなコースを好んで受講したかを調べることで、生徒にコースを推薦したいと考えるかもしれない。過去の登録データは、このタスクのための訓練データセットを非常に簡単に収集することができる。

Sparkには、Alternating Least Squares(ALS)という推薦アルゴリズムがある。このアルゴリズムは協調フィルタリングと呼ばれるテクニックを活用しており、ユーザが過去にどのアイテムと対話したかに基づいて推薦を行う。つまり、ユーザやアイテムに関する付加的な特徴を必要とせず、利用することもない。Sparkは、いくつかのALSのバリエーション(例えば、明示的または暗黙的フィードバック)をサポートしている。ALSとは別に、Sparkはマーケットバスケット分析におけるアソシエーションルールを発見するためのFrequent Pattern Miningを提供している。最後に、SparkのRDD APIには、本書では取り上げないが、より低レベルの行列因数分解のメソッドも含まれている。

交互最小二乗法による協調フィルタリング

ALS は、各ユーザの特徴ベクトルと各アイテムの特徴ベクトルの内積が、そのアイテムに対するユーザの評価に近似するような、各ユーザとアイテムの↪Ll_1 次元の特徴ベクトルを発見する。したがって、ユーザID列、アイテムID列(映画など)、評価列の3つの列を持つ、ユーザとアイテムのペア間の既存の評価の入力データセットのみが必要となる。評価は、明示的なもの直接予測することを目的とした数値評価)か、暗黙的なもの(各評価は、ユーザとアイテムの間で観察された対話の強さ(例えば、特定のページへの訪問回数)を表し、そのアイテムに対するユーザの嗜好に対する信頼度を測定する)のいずれかにすることができる。この入力DataFrameが与えられると、モデルは特徴ベクトルを生成し、それを使ってユーザがまだ評価していないアイテムの評価を予測することができる。

実際に注意すべき点として、このアルゴリズムは、非常に一般的なものや多くの情報を持っているものを優先的に提供する。ユーザが好みを表明していない新製品を紹介する場合、アルゴリズムは多くの人にそれを薦めることはないだろう。さらに、新規ユーザがプラットフォームにオンボーディングしている場合、トレーニングセットに評価がない可能性がある。そのため、アルゴリズムは彼らに何を勧めるべきかわからない。これらの ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

高性能Spark

高性能Spark

Holden Karau, Rachel Warren
生成AIの可視化

生成AIの可視化

Priyanka Vergadia, Valliappa Lakshmanan
ソフトウェア工学の基礎

ソフトウェア工学の基礎

Nathaniel Schutta, Dan Vega

Publisher Resources

ISBN: 9798341627567