Skip to Main Content
弱监督学习实用指南
book

弱监督学习实用指南

by Wee Hyong Tok, Amit Bahree, Senja Filipi
January 2023
Beginner to intermediate content levelBeginner to intermediate
209 pages
3h 55m
Chinese
Southeast University Press
Content preview from 弱监督学习实用指南
176
6
6
-
9
:安装集群的库文件
Databricks
上的假新闻检测数据集
3
章中,我们以假新闻检测
(FakeNewsNet)
为例,在单台机器上端到端运行。
现在,我们将看到如何将
FakeNewsNet
从一台机器扩展到
Databricks
的集群。
顺带一提,假新闻检测数据集包含
3
个部分:训练、验证和测试。我们只需
要使用训练文件
(
fnn_train.csv
)
。该文件包含
15 212
条记录,虽然这是已经标
记好的数据,但我们会忽略其标签并将其视为无标签样本。
FakeNewsNet
FNN
)数据集包含的内容如表
6-1
所示。
6
-
1
FNN
说明
id
每个样本的标识符
代表本文的
PolitiFact
网站
ID
date
发布时间
speaker
发表此声明的个人或组织
statement
发言人发表的声明
sources
每个声明的来源
扩展性和分布式训练
177
6
-
1
FNN 列(续)
说明
paragraph_based_content
语句取自的段落
fullText_based_content
提取段落的全文
我们还将使用之前的假新闻检测数据集
(LIAR)
。该数据集是从
PolitiFact
收集的。
Truth-O-Meter
里对标签的声明有
6
个评级,如表
6-2
所示。
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

人工智能技术与大数据

人工智能技术与大数据

Posts & Telecom Press, Anand Deshpande, Manish Kumar
解密金融数据

解密金融数据

Justin Pauley
C++语言导学(原书第2版)

C++语言导学(原书第2版)

本贾尼 斯特劳斯特鲁普

Publisher Resources

ISBN: 9787576602630