
176 |
第
6
章
图
6
-
9
:安装集群的库文件
Databricks
上的假新闻检测数据集
第
3
章中,我们以假新闻检测
(FakeNewsNet)
为例,在单台机器上端到端运行。
现在,我们将看到如何将
FakeNewsNet
从一台机器扩展到
Databricks
的集群。
顺带一提,假新闻检测数据集包含
3
个部分:训练、验证和测试。我们只需
要使用训练文件
(
fnn_train.csv
)
。该文件包含
15 212
条记录,虽然这是已经标
记好的数据,但我们会忽略其标签并将其视为无标签样本。
FakeNewsNet
(
FNN
)数据集包含的内容如表
6-1
所示。
表
6
-
1
:FNN 列
列
说明
id
每个样本的标识符
,
代表本文的
PolitiFact
网站
ID
date
发布时间
speaker
发表此声明的个人或组织
statement
发言人发表的声明
sources
每个声明的来源