
208
|
第
8
章
在此步骤之后,权重矩阵
W
ˆ
(包含权重
w
ˆ
ij,
)对训练实例之间的局部线性关系进行编码。
第二步是将训练实例映射到
d
维空间(其中
d
<
n
),同时尽可能保留这些局部关系。如
果
z
(
i
)
是此
d
维空间中
x
(
i
)
的图像,则我们希望
z
(
i
)
与
∑
j
m
=1
w
ˆ
ij,
z
()j
之间的平方距离尽可能小。
这种想法导致了公式 8-5 中描述的无约束优化问题。它看起来与第一步非常相似,但是
我们没有保持实例固定并找到最佳权重,而是相反:保持权重固定并找到实例图像在低
维空间中的最佳位置。注意
Z
是包含所有
z
(
i
)
的矩阵。
公式 8-5:LLE 第二步:在保持关系的同时减少维度
Z zz
ˆ
= −arg min
Z
∑∑
ij
mm
= =11
() ( )ij
w
ˆ
ij,
2
Scikit-Learn 的 LLE 实现具有以下计算复杂度:
O
(
m
log(
m
)
n
log(
k
)) 用于找到
k
个最近的
邻居,
O
(
mnk
3
) 用于优化权重,
O
(
dm
2
) 用于构造低维表示。不幸的是,最后一项中的
m
2
使该算法很难扩展到非常大的数据集。
8.6 其他降维技术
还有许多其他降维技术,Scikit-Learn 中提供了其中几种。以下是一些很受欢迎的降维
技术:
随机投影
顾名思义,使用随机线性投影将数据投影到较低维度的空间。这听起来可能很疯
狂,但事实证明,这样的随机投影实际上很有可能很好地保持距离,就如 William
B. Johnson 和 Joram Lindenstrauss 在著名引理中的数学证明。降维的质量取决于实
例数目和目标维度 ...