
探索性数据分析
|
35
ggplot(data=airline_stats, aes(airline, pct_carrier_delay)) +
ylim(0, 50) +
geom_violin() +
labs(x='', y='Daily % of Delayed Flights')
seaborn
包的
violinplot
方法也可以生成小提琴图:
ax = sns.violinplot(airline_stats.airline, airline_stats.pct_carrier_delay,
inner='quartile', color='white')
ax.set_xlabel('')
ax.set_ylabel('Daily % of Delayed Flights')
得到的图形为图
1-11
。如图所示,阿拉斯加航空公司的数据分布集中在
0
附近,其次是达
美(
Delta
)航空公司
。这种现象在箱线图中就没有这么明显。你可以在绘图中添加
geom_
boxplot
命令,将小提琴图与箱线图结合(给图片着色的话,效果最好)。
图 1-11:由于航空公司控制所导致的航班延误百分比的小提琴图
1.8.4
多个变量的可视化
通过
条件
(
conditioning
)这个概念,可以轻松地将用来比较两个变量的图表类型——散点
图、六边形分箱图和箱线图——推广到多个变量的比较。例如,图
1-8
展示
了房屋面积与
应纳税额之间的关系。我们观察到,一部分房屋具有更高的每平方英尺应纳税额。研究得
更深入一些会发现,图
1-12 ...