
318
|
第
10
章
10.5.2
案例:使用
TensorFlow
的嵌入投影
除了自行实现可视化函数之外,你还可以使用
TensorFlow
的嵌入投影
(
Embedding Projector
)。它也支持
PCA
、
t-SNE
和
UMAP
,而且还提
供了一些非常方便的数据过滤与高亮显示的方法。你甚至无需安装
TensorFlow
,就
可以使用这个工具,因为它有一个在线版本(
https://oreil.ly/VKLxe
)。为了演示,
其上加载了一些数据集。
为了使用
TensorFlow
嵌入投影来显示我们的单词嵌入,我们需要创建两个文件,其
中包含制表符分隔的值:一个文件用于保存单词向量,还有一个可选文件用于保存
嵌入的元数据,在我们的例子中就是单词。具体的实现代码如下:
import csv
name = 'autos_w2v_sg_30'
model = models[name]
with open(f'{model_path}/{name}_words.tsv', 'w', encoding='utf-8') as tsvfile:
tsvfile.write('\n'.join(model.vocab))
with open(f'{model_path}/{name}_vecs.tsv', 'w', encoding='utf-8') as tsvfile:
writer = csv.writer(tsvfile, delimiter='\t',
dialect=csv.unix_dialect, ...