
30
|
第
1
章
与单变量分析类似,双变量分析也需要计算摘要统计量和生成可视化图形。合适的双变量
或多变量分析方式取决于数据的本质是数据型数据还是分类型数据。
1.8.1
六边形分箱图和等高线图
(
绘制数值型数据之间的
关系
)
当数据值比较少时,使用散点图非常合适,如图
1-7
中的股票收益图仅有大约
750
个点。
对于有成千上万甚至几百万条记录的数据集,散点图就会显得过于密集,所以需要其他方
法来对数据间的关系进行可视化。出于演示的目的,让我们看一下
kc_tax
数据集,它包含
了华盛顿州金县住宅应纳税额数据。我们使用
subset
函数去掉了价格特别高以及面积特别
大或特别小的住宅纳税数据,只关注数据的主体部分。
kc_tax0 <- subset(kc_tax, TaxAssessedValue < 750000 &
SqFtTotLiving > 100 &
SqFtTotLiving < 3500)
nrow(kc_tax0)
432693
在
pandas
中,使用以下代码筛选数据:
kc_tax0 = kc_tax.loc[(kc_tax.TaxAssessedValue < 750000) &
(kc_tax.SqFtTotLiving > 100) &
(kc_tax.SqFtTotLiving < 3500), :]
kc_tax0.shape
(432693, 3)
图
1-8
是一张
六边形分箱图
,表示了金县房屋面积(单位:平方英尺,约为
0.09
平方米)
与应纳税额之间的关系。这张图没有使用数据点来绘制,因为那样做会只会显示出一团黑 ...