Skip to Main Content
弱监督学习实用指南
book

弱监督学习实用指南

by Wee Hyong Tok, Amit Bahree, Senja Filipi
January 2023
Beginner to intermediate content levelBeginner to intermediate
209 pages
3h 55m
Chinese
Southeast University Press
Content preview from 弱监督学习实用指南
标记行为
85
弱分类器的生成协议
在完成了标记数据后,下一步就是聚合所有来自标签函数的投票,以统计学
的形式创立一个具有意义的弱标签。
第一步是将
DataFrame
分割为一个训练集和验证集。我们选择
80%/20%
的比
例。
lfs
数组存有所有“标签函数”。
PandasLFApplier.apply
将“应用”标
签函数到数据集中,以获得他们的投票(真实、假或弃权):
data = data.sample(frac = 1, random_state = 1)
df_train = data[:12170]
df_valid = data[12170:]
lfs = [
label_rp,
label_wp,
label_gb,
label_snopes,
label_politifact,
factcheckqa,
factcheckafpqa,
speaker
]
applier = PandasLFApplier(lfs=lfs)
L_train = applier.apply(df=df_train)
LFAnalysis(L=L_train, lfs=lfs).lf_summary()
LFAnalysis
将以矩阵形式分析标签函数的输出(见表
3-3
),包括输出的覆
盖率(该标签函数标记数据的概率);重叠率(该标签函数与另一标签函数
重叠的概率);冲突率(该标签函数做出的决策与另一个标签函数做出的决
策不同的概率)。
3
-
3
df_val 数据帧
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

人工智能技术与大数据

人工智能技术与大数据

Posts & Telecom Press, Anand Deshpande, Manish Kumar
解密金融数据

解密金融数据

Justin Pauley
C++语言导学(原书第2版)

C++语言导学(原书第2版)

本贾尼 斯特劳斯特鲁普

Publisher Resources

ISBN: 9787576602630