Skip to Main Content
Spark高级数据分析(第2版)
book

Spark高级数据分析(第2版)

by Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
June 2018
Beginner to intermediate content levelBeginner to intermediate
246 pages
6h 57m
Chinese
Posts & Telecom Press
Content preview from Spark高级数据分析(第2版)
基于潜在语义分析算法分析维基百科
113
重,
概念空间
中的每个向量都有一个概念权重。每个词项、文档或概念都在各自空间中定义
了一个
,词项、文档和概念的权重就是在轴方向上的长度。每个词项或文档向量都可以映
射为概念空间里的相应向量。每个概念向量可能对应多个词向量和文档向量,其中包括一
个规范化词向量和文档向量,对概念向量进行逆向转换就得到规范化的词向量和文档向量。
V
n
×
k
型矩阵,每一行对应一个词项,每一列对应一个概念。这个矩阵定义了词项空间
到概念空间的映射。其中,词项空间中每个点是一个
n
维向量,向量的每个元素是每个词
项的权重;概念空间中每个点是一个
k
维向量,向量的每个元素是每个概念的权重。
类似地,
U
m
×
k
型矩阵,
U
中每一行对应一个文档,每一列对应一个概念。
U
定义了
一个文档空间到概念空间的映射。
S
k
×
k
对角阵,其中保存了奇异值。
S
中每个对角线上的元素对应了一个概念(因此
对应了
V
U
中的一列)。奇异值的大小对应了概念的重要程度,亦即概念在解释不同主
题时的能力。
SVD
的一种可能但效率不高的实现是先得到
k
阶分解,具体做法是先进行
n
阶分解,不停地去掉
n
-
k
个最小奇异值,直到只剩下
k
个奇异值(当然还有
U
V
中对应
的列)。
LSA
算法的一个要点是概念中只有一小部分对表示数据是重要的。
S
矩阵中的元素
直接表示每个概念的重要性,它们正好是
MM
T
的特征值(
eigenvalue
https://en.wikipedia.
org/wiki/Eigenvalues_and_eigenvectors
)的平方根。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

大数据项目管理:从规划到实现

大数据项目管理:从规划到实现

Ted Malaska, Jonathan Seidman
管理Kubernetes

管理Kubernetes

Brendan Burns, Craig Tracey

Publisher Resources

ISBN: 9787115482525