
80
|
第
2
章
Out[88]:
Accuracy on training set: 0.988
Accuracy on test set: 0.972
在这个例子中,增大 C 可以显著改进模型,得到
97.2%
的精度。
6.
优点
、
缺点和参数
核支持向量机是非常强大的模型,在各种数据集上的表现都很好。
SVM
允许决策边界很
复杂,即使数据只有几个特征。它在低维数据和高维数据(即很少特征和很多特征)上的
表现都很好,但对样本个数的缩放表现不好。在有多达
10 000
个样本的数据上运行
SVM
可能表现良好,但如果数据量达到
100 000
甚至更大,在运行时间和内存使用方面可能会
面临挑战。
SVM
的另一个缺点是,预处理数据和调参都需要非常小心。这也是为什么如今很多应用
中用的都是基于树的模型,比如随机森林或梯度提升(需要很少的预处理,甚至不需要预
处理)。此外,
SVM
模型很难检查,可能很难理解为什么会这么预测,而且也难以将模型
向非专家进行解释。
不过
SVM
仍然是值得尝试的,特别是所有特征的测量单位相似(比如都是像素密度)而
且范围也差不多时。
核
SVM
的重要参数是正则化参数 C、核的选择以及与核相关的参数。虽然我们主要讲的是
RBF
核,但 scikit-learn 中还有其他选择。
RBF
核只有一个参数 gamma,它是高斯核宽度
的倒数。gamma 和 C 控制的都是模型复杂度,较大的值都对应更为复杂的模型。因此,这
两个参数的设定通常是强烈相关的,应该同时调节。
2.3.8
神经网络
(
深度学习
)
一类被称为神经网络的算法最近以“深度学习”的名字再度流行。虽然深度学习在许多机 ...