
扩展性和分布式训练
| 191
当我们使用之前的数据在集群中运行时,得到了如图
6-15
所示的结果。为了
更好地理解这些标签函数的输出结果,我们可以使用
LFAnalysis
函数来进行
分析。
LFAnalysis
是
Snorkel
中的一组工具,它们可以衡量不同的标签函数
之间的性能差异,从而辅助评估各个标签函数的性能。
图
6
-
15
:SparkLFApplier 结果——训练集
顺带一提,这里的覆盖率表示有多少数据点至少有一个标签。重叠率是指有
两个或更多非弃权标签的数据所占的百分比。冲突率是指有冲突标签(也是
非弃权标签)的数据所占的百分比。
观察图
6-15
中的
LFAnalysis
函数的输出结果,我们发现
label_rp
、
label_
wp
和
label_snopes
的覆盖率的值远超我们的预期结果,因此它们的冲突率值
和重叠率值也比较高。
Spark
运行所需的类型转换
在我们运行训练模型之前,需要转换数据类型并调整数据集结构才能够在
Spark
上运行。
我们最开始将数据以
80%/20%
的比例分成了训练集和测试集,这里的数据类
型是
Pandas
数据帧
(
pandas.core.frame.DataFrame)
,训练集如图
6-16
所示。