
38 |
第
2
章
PandasParallelLFApplier
这个
applier
通过将
Pandas
数据帧并行化为
Dask DataFrame
来操作,并使
用
DaskLFApplier
来并行处理分区,因此比
PandasLFApplier
更快。
SparkLFApplier
在
Spark
弹性分布式数据集(
RDD
)上应用标签功能。
在我们的例子中,由于数据量很小,而且这个过程可以很容易地在台式机或
笔记本电脑上运行,所以我们将使用
PandasLFApplier
。
让我们导入
Snorkel PandasLFApplier
:
from snorkel.labeling import PandasLFApplier
接下来,让我们定义一个数组,
lfs
,在这里我们将声明所有的标签函数,然
后使用
lfs
初始化
applier PandasLFApplier
。最后使用
applier.apply
将标签
函数应用到数据帧
df
中:
lfs = [
is_odd,
is_even,
is_two,
is_known_prime
]
applier = PandasLFApplier(lfs=lfs)
L_train = applier.apply(df=df)
标签的性能分析
应用标签函数后,我们可以对它们的表现进行分析。
Snorkel
配备了
LFAnalysis
,它通过描述极性、覆盖率、重叠率和冲突率来总结标签函
数的性能。为了使用
LFAnalysis
,让我们从导入软件包开始,然后输出
LFAnalysis ...