
线性建模与线性代数基础
|
155
“零空间”这个名称听起来像是一种存在性危机的悲伤结局。如果零空间中除了全零向量
之外还有其他向量,那么方程
Aw
=
y
就有无穷多解。有很多解可供选择本身不是一件坏
事,有时候我们可以选择任意一个解。但如果有很多可能的答案,就会有多个特征集合可
以用于分类任务。这时就很难弄清楚哪个特征才是真正重要的。
解决零空间过大这个问题的一种方法是添加额外的限制条件,从而对模型进行
调整
:
Aw
=
y
其中
w
满足
w
T
w
=
c
。
这种正则化方式限制了权重向量具有特定的范数
c
。这种正则化的强度是通过一个正则化
参数来控制的,和前面实验中的做法一样,这个参数必须调优。
一般来说,
特征选择
方法需要选取出最有用的特征来降低计算负担,减轻模型的模糊性,
并使得学习出的模型更与众不同。这也是
2.6
节中的重点。
另一个问题是数据矩阵的谱的“不均匀性”。在训练线性分类器时,我们关心的不仅是线
性系统是否有通用解,还有我们是否能容易地找到这个解。通常,训练过程使用的求解器
要计算损失函数的梯度,然后沿着梯度以较小的步长求解。当某些奇异值非常大而其余
奇异值非常接近于
0
时,要想找到真实答案,求解器需要非常小心地绕过较长的奇异向量
(对应于大奇异值的奇异向量),花费大量时间在较短的奇异向量附近进行探索。这种谱的
“不均匀性”可以由矩阵的条件数来表示,也就是最大奇异值和最小奇异值的绝对值之间
的比值。
总结一下,为了找出一个与众不同的好线性模型,也为了比较容易地找到它,我们需要以
下条件。
(1)
标签向量能比较好地通过特征 ...