
探索性数据分析
|
29
著下跌而另一种股票上涨,或者反过来(第二象限和第四象限中的点)。
尽管图
1-7
中只显示了
754
个数据点
,但明显可以看出,我们很难在图形中部识别出更加
详细的信息。稍后将介绍如何为数据点添加透明度,或使用六边形分箱图和密度图,来帮
助你发现数据中的其他结构。
本节要点
•
相关系数测量的是两个成对变量(如人的身高和体重)之间关联的程度。
•
当
v1
值随着
v2
值的增大而增大时,
v1
和
v2
正相关。
•
当
v1
值随着
v2
值的增大而减小时,
v1
和
v2
负相关。
•
相关系数是一种标准化的度量方式,所以它的值总是在
–1
(完全负相关)和
+1
(完
全正相关)之间。
•
相关系数为
0
表示没有相关性,但是请注意,如果对数据进行随机重新排列,则既
可能得到正相关系数,又可能得到负相关系数,这是由偶然性造成的。
1.7.2
扩展阅读
David Freedman
、
Robert Pisani
和
Roger Purves
的著作
Statistics
(第
4
版)对相关性进行了
精彩的讨论。
1.8
探索两个及以上的变量
像均值和方差这些我们熟悉的估计量每次只研究一个变量(
单变量分析
),而相关性分析
(见
1.7
节
)是比较两个变量的重要方法(
双变量分析
)。这一节介绍一些其他的估计方法
和绘图方式,将涉及两个以上的变量(
多变量分析
)。
本节关键术语
列联表
一种表格,包含对两个或更多的分类变量的计数。
六边形分箱图
一种包含两个数值变量的统计图,记录分成多个六边形箱子。
等高线图
一种表示两个数值变量的密度的统计图,类似于地形图。
小提琴图
类似于箱线图,但能表示出密度估计。 ...