Skip to Main Content
弱监督学习实用指南
book

弱监督学习实用指南

by Wee Hyong Tok, Amit Bahree, Senja Filipi
January 2023
Beginner to intermediate content levelBeginner to intermediate
209 pages
3h 55m
Chinese
Southeast University Press
Content preview from 弱监督学习实用指南
扩展性和分布式训练
191
当我们使用之前的数据在集群中运行时,得到了如图
6-15
所示的结果。为了
更好地理解这些标签函数的输出结果,我们可以使用
LFAnalysis
函数来进行
分析。
LFAnalysis
Snorkel
中的一组工具,它们可以衡量不同的标签函数
之间的性能差异,从而辅助评估各个标签函数的性能。
6
-
15
SparkLFApplier 结果——训练集
顺带一提,这里的覆盖率表示有多少数据点至少有一个标签。重叠率是指有
两个或更多非弃权标签的数据所占的百分比。冲突率是指有冲突标签(也是
非弃权标签)的数据所占的百分比。
观察图
6-15
中的
LFAnalysis
函数的输出结果,我们发现
label_rp
label_
wp
label_snopes
的覆盖率的值远超我们的预期结果,因此它们的冲突率值
和重叠率值也比较高。
Spark
运行所需的类型转换
在我们运行训练模型之前,需要转换数据类型并调整数据集结构才能够在
Spark
上运行。
我们最开始将数据以
80%/20%
的比例分成了训练集和测试集,这里的数据类
型是
Pandas
数据帧
(
pandas.core.frame.DataFrame)
,训练集如图
6-16
所示。
192
6
6
-
16
:训练集
在我们使用
Snorkel
进行训练前,需要将所有的标签列从 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

人工智能技术与大数据

人工智能技术与大数据

Posts & Telecom Press, Anand Deshpande, Manish Kumar
解密金融数据

解密金融数据

Justin Pauley
C++语言导学(原书第2版)

C++语言导学(原书第2版)

本贾尼 斯特劳斯特鲁普

Publisher Resources

ISBN: 9787576602630