
58
|
第
4
章
Test score with bow features: 0.775873066497
Test score with l2-normalized features: 0.763514590974
Test score with tf-idf features: 0.743182905438
事与愿违,结果显示准确率最高的分类器使用的是词袋特征,这真是出乎意料。实际上,
出现这种情况的原因在于分类器没有很好地“调优”,这是在比较分类器时经常犯的错误。
4.2.4
使用正则化对逻辑回归进行调优
逻辑回归有些不切实际的功能。当特征数量大于数据点数量时,找出最佳模型这个问题就
变得
不确定
了。解决这个问题的一种方法是在训练过程中加入额外的限制条件,这就是
正
则化
,本节将讨论它的技术细节。
逻辑回归的大多数具体实现都允许正则化。要使用正则化,必须确定一个正则化参数。正
则化参数是一种
超参数
,不能在模型训练过程中自动学习。相反,它们必须根据具体的问
题进行调优,并提供给训练算法,这个过程就是超参数调优。(如果想详细了解如何评价
机器学习模型,参见
Zheng (2015)
。)一种基本的超参数调优方法称为
网格搜索
:先确定一
个超参数网格,然后使用调优程序自动搜索,找到网格中的最优超参数设置。找到最优超
参数设置之后,你可以使用该设置在整个训练集上训练一个模型,然后使用它在测试集上
的表现作为这类模型的最终评价。
重要
:
比较模型时要对超参数进行调优
当比较模型或特征时,必须对超参数进行调优。软件包的默认设置总是能返 ...