
404
|
第
13
章
从图
13-2
不容易看出
Windows
用户在小分组中的相对比例,因此对分组百分比进行标
准化,使其之和为
1
:
再次绘图,如图
13-3
所示:
图 13-3:计数最多时区中的 Windows 用户和非 Windows 用户的百分比
我们还可以用 groupby 的 transform 方法更高效地计算标准化的和:
13.2 MovieLens 1M
数据集
GroupLens
实验室(
https://grouplens.org/datasets/movielens
)收集了大量由
MovieLens
用户提供的从
20
世纪
90
年代末到
21
世纪初的电影评分数据。这些数据包括电影评分、
电影元数据(风格类型和年代),以及关于用户的人口统计学数据(年龄、邮编、性别和
职业)。基于机器学习算法的推荐系统一般都会对此类数据感兴趣。虽然我不会在本书
中详细介绍机器学习技术,但会介绍如何对这种数据进行切片和切块以满足实际需求。