第10章 推荐系统
本章包含以下内容。
- 显性反馈的协同过滤。
- 隐性反馈的协同过滤。
10.1 简介
以下是维基百科对推荐系统的定义。
“推荐系统是信息过滤系统的基类,用于预测用户对一件物品的‘评价’或‘偏好’。”
近年来,推荐系统的影响力骤增。Amazon用它来推荐图书,Netflix用它来推荐电影,Google News用它来推荐新闻。以下一些例子可以说明推荐系统的影响力。
- Netflix上2/3的观看来自推荐系统。
- Google News上38%的新闻点击来自推荐系统。
- Amazon销售额的35%是推荐的结果。
正如前面的章节所说,功能和特征选择在机器学习算法的有效性上发挥着重要作用。推荐引擎算法可以自动发现这些被称为潜在特征的特征。简而言之,某个用户喜欢一部电影而不喜欢另一部是由潜在特征引起的,如果另一个用户拥有相同的潜在特征,那么他也会有相同的电影品味。
为了更好地理解,让我们看看表10-1的电影评分示例。
表10-1 电影评分示例
电影 |
Rich |
Bob |
Peter |
Chris |
---|---|---|---|---|
泰坦尼克号 |
5 |
3 |
5 |
? |
007之黄金眼 |
3 |
2 |
1 |
5 |
玩具总动员 |
1 |
? |
2 |
2 |
桃色机密 |
4 |
4 |
? |
4 |
王牌威龙 |
4 |
? |
4 |
? |
我们的目标是预测出那些标记为“?”的缺失项。让我们看看能不能找到这些电影的相关特征。首先,让我们看看表10-2所示的流派。
表10-2 流派
电影 |
流派 |
---|---|
泰坦尼克号 |
动作片、爱情片 |
007之黄金眼 |
动作片、探险片、惊悚片 |
玩具总动员 |
动画片、儿童片、喜剧 ... |
Get Spark Cookbook (中文版) now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.