
模型改进与数据提取
|
181
表 10-2:维度与气温之间的相关性
维度
与气温的相关性
Matt
咖啡的销量
-0.58
冰淇淋
0.93
月份
0.16
表 10-3:维度之间的相关性
维度
Matt
咖啡的销量
冰淇淋
月份
Matt
咖啡的销量
1 -0.54 0
冰淇淋
-0.54 1 0.14
月份
0 0.14 1
正如你在两张表中所看到的,冰淇淋的销量与气温是正相关性,而咖啡则是负相关,
月份与温度的相关性很低。直觉上我们认为月份会与气温有很大的相关性,但是由于
我们采用的是线性相关的模型,所以这种月份如时钟一样的周期化循环过程很难采用
线性过程进行模拟,所以此处的相关性很低。冗余度更有意思,从上下文来看,咖啡
的消费和月份之间的冗余度很低,但是咖啡和冰淇淋之间的冗余度很高。
那么可以拿这些数据做什么呢?接下来将介绍一个如何使用这些数据的重要算法。
最小冗余最大相关性的特征选择
把这些相互竞争的因素糅合在一起的统一算法称为
mRMR(minimum redundancy
maximum relevance)
特征选择,目标是保持最大相关性的同时使冗余度最小。我们可
以用
Python
库中的
NumPy
和
SciPy
库来求解这个最大
(
最小
)
问题。
首先在公式中做如下简化:
公式
10-1
:
nRMR
定义
最大相关性-冗余度
公式
10-2
:相关性定义
相关性
Table 10-2. Relevancy using correlation
Dimension Correlation to temperature
Matt’s ...