14.5.3 可视化特征
绘制每种特征上的目标值对数据可视化是有帮助的—对于本案例,可以查看房价中值与每种特征的关系。为了使可视化更清晰,可以使用DataFrame中的sample函数随机选择20,640个样本中的10%来绘图:
关键字参数frac指定要选择的数据比例(0.1表示10%),关键字参数random_state为随机数生成器设定种子,我们任意设置的整数种子值(17)对可重复性至关重要。每次使用相同的种子值时,sample函数都会选择DataFrame行的相同随机子集,从而在绘制数据图表时,就会得到相同的结果。
接下来,我们将使用Matplotlib和Seaborn来显示8个特征中每个特征的散点图,这两个库都可以用来显示散点图。Seaborn更具吸引力并且需要更少的代码,因此我们使用Seaborn进行创建。首先,导入两个库,并使用Seaborn的set函数将每个图的字体缩放到默认大小的两倍:
以下代码用于显示散点图[1]。沿着x轴每个点显示了一个特征,沿着y轴每个点显示了一个房价中值(california.target),因此我们可以看到每个特征和房价中值如何相互关联。我们为每个特征显示单独的散点图,窗口按照代码段[6]中列出的特征顺序显示,最近显示的窗口位于最前面: ...
Get Python程序设计:人工智能案例实践 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.