第5章 推荐系统
只要是可选的产品或服务较多,用户无法在合理的时间范围内评价它们的好坏,自然就有使用推荐系统的必要。推荐引擎可以帮助线上的卖家,从大量与终端用户不相关的备选商品中,找出用户有意购买的商品,因此它是电子商务平台的重要部件。推荐系统的典型应用见于Amazon、Netflix、eBay和Google Play商店,这些产品利用收集到的历史数据,向每位用户推荐他们也许想购买的商品。过去20年,人们发明了多种推荐技术,我们重点介绍如今为业界采用、最重要的推荐技术,并指出每种方法的优缺点。这些推荐系统分为基于内容的过滤(Content-based Filtering,CBF)和协同过滤(Collaborative Filtering,CF)。我们还会讨论其他推荐方法(关联规则、对数似然和混合推荐)及如何用多种不同方法评估推荐方法的正确率。我们用MovieLens数据集(http://grouplens.org/datasets/movielens/),它包括943名用户对1682部电影的评分数据(分数从1到5共5等),总数量有10万条。每名用户至少给20部电影打过分,每部电影从属于多个类型。本章代码依旧可从GitHub下载,文件夹地址https://github.com/ai2010/machine_learning_for_the_web/tree/master/chapter_5,代码文件为rec_sys_methods.ipynb。
讨论推荐算法之前,我们先介绍主要的矩阵和常用的度量标准,以便准备数据集、建立推荐系统。
5.1 效用矩阵
推荐系统用到两类数据:用户和商品。每名用户喜欢特定的几种商品。评分(1到5)将用户i和商品j联系起来,表示用户喜欢商品的程度。把这些数据收集起来,用矩阵来表示,这样的矩阵叫作效用矩阵(utility ...
Get Web机器学习 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.