
标记行为
| 85
弱分类器的生成协议
在完成了标记数据后,下一步就是聚合所有来自标签函数的投票,以统计学
的形式创立一个具有意义的弱标签。
第一步是将
DataFrame
分割为一个训练集和验证集。我们选择
80%/20%
的比
例。
lfs
数组存有所有“标签函数”。
PandasLFApplier.apply
将“应用”标
签函数到数据集中,以获得他们的投票(真实、假或弃权):
data = data.sample(frac = 1, random_state = 1)
df_train = data[:12170]
df_valid = data[12170:]
lfs = [
label_rp,
label_wp,
label_gb,
label_snopes,
label_politifact,
factcheckqa,
factcheckafpqa,
speaker
]
applier = PandasLFApplier(lfs=lfs)
L_train = applier.apply(df=df_train)
LFAnalysis(L=L_train, lfs=lfs).lf_summary()
LFAnalysis
将以矩阵形式分析标签函数的输出(见表
3-3
),包括输出的覆
盖率(该标签函数标记数据的概率);重叠率(该标签函数与另一标签函数
重叠的概率);冲突率(该标签函数做出的决策与另一个标签函数做出的决
策不同的概率)。
表
3
-
3
:df_val 数据帧