Skip to Main Content
Python 机器学习实践:测试驱动的开发方法
book

Python 机器学习实践:测试驱动的开发方法

by Matthew Kirk
January 2018
Intermediate to advanced content levelIntermediate to advanced
211 pages
8h 31m
Chinese
China Machine Press
Content preview from Python 机器学习实践:测试驱动的开发方法
模型改进与数据提取
181
10-2:维度与气温之间的相关性
维度
与气温的相关性
Matt
咖啡的销量
-0.58
冰淇淋
0.93
月份
0.16
10-3:维度之间的相关性
维度
Matt
咖啡的销量
冰淇淋
月份
Matt
咖啡的销量
1 -0.54 0
冰淇淋
-0.54 1 0.14
月份
0 0.14 1
正如你在两张表中所看到的,冰淇淋的销量与气温是正相关性,而咖啡则是负相关,
月份与温度的相关性很低。直觉上我们认为月份会与气温有很大的相关性,但是由于
我们采用的是线性相关的模型,所以这种月份如时钟一样的周期化循环过程很难采用
线性过程进行模拟,所以此处的相关性很低。冗余度更有意思,从上下文来看,咖啡
的消费和月份之间的冗余度很低,但是咖啡和冰淇淋之间的冗余度很高。
那么可以拿这些数据做什么呢?接下来将介绍一个如何使用这些数据的重要算法。
最小冗余最大相关性的特征选择
把这些相互竞争的因素糅合在一起的统一算法称为
mRMR(minimum redundancy
maximum relevance)
特征选择,目标是保持最大相关性的同时使冗余度最小。我们可
以用
Python
库中的
NumPy
SciPy
库来求解这个最大
(
最小
)
问题。
首先在公式中做如下简化:
公式
10-1
nRMR
定义
最大相关性-冗余度
公式
10-2
:相关性定义
相关性
Table 10-2. Relevancy using correlation
Dimension Correlation to temperature
Matt’s ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Mastering Python for Bioinformatics

Mastering Python for Bioinformatics

Ken Youens-Clark

Publisher Resources

ISBN: 9787111581666