第10章 推荐系统

本章包含以下内容。

  • 显性反馈的协同过滤。
  • 隐性反馈的协同过滤。

以下是维基百科对推荐系统的定义。

“推荐系统是信息过滤系统的基类,用于预测用户对一件物品的‘评价’或‘偏好’。”

近年来,推荐系统的影响力骤增。Amazon用它来推荐图书,Netflix用它来推荐电影,Google News用它来推荐新闻。以下一些例子可以说明推荐系统的影响力。

  • Netflix上2/3的观看来自推荐系统。
  • Google News上38%的新闻点击来自推荐系统。
  • Amazon销售额的35%是推荐的结果。

正如前面的章节所说,功能和特征选择在机器学习算法的有效性上发挥着重要作用。推荐引擎算法可以自动发现这些被称为潜在特征的特征。简而言之,某个用户喜欢一部电影而不喜欢另一部是由潜在特征引起的,如果另一个用户拥有相同的潜在特征,那么他也会有相同的电影品味。

为了更好地理解,让我们看看表10-1的电影评分示例。

表10-1 电影评分示例

电影

Rich

Bob

Peter

Chris

泰坦尼克号

5

3

5

?

007之黄金眼

3

2

1

5

玩具总动员

1

?

2

2

桃色机密

4

4

?

4

王牌威龙

4

?

4

?

我们的目标是预测出那些标记为“?”的缺失项。让我们看看能不能找到这些电影的相关特征。首先,让我们看看表10-2所示的流派。

表10-2 流派

电影

流派

泰坦尼克号

动作片、爱情片

007之黄金眼

动作片、探险片、惊悚片

玩具总动员

动画片、儿童片、喜剧 ...

Get Spark Cookbook (中文版) now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.