
文本摘要
|
285
9.6
案例:使用机器学习生成文本摘要
可能很多人都参与过在线论坛,讨论有关旅行计划、编程等主题。这些
平台上的用户以话题的形式进行交流。任何人都可以发起一个话题,而
其他成员则可以回复这个话题。话题可能会变得很长,而关键信息也可能会丢失。
在这个案例中,我们将使用从某个旅行论坛中提取的数据(来自一篇研究论文)
注
2
,
其中包含某个话题中的所有帖子的文本,以及话题的摘要,如图
9-4
所示。
图 9-4:来自某个旅行论坛的某个话题的帖子以及相应的摘要
在这个案例中,我们打算使用机器学习,帮助我们自动识别整个话题中最重要的且
能够准确地总结整个话题的帖子。首先我们使用人工创建的摘要,为数据集库创建
目标标签;接着,我们生成特征,并通过特征判断某个帖子是否应该出现在摘要中;
最后训练模型,并评估其准确性。这个任务与文本分类非常相似,只不过是在帖子
的级别上进行。
注 2: Sansiri Tarnpradab 等,“Toward Extractive Summarization of Online ForumDiscussions
via Hierarchical Attention Networks”,
https://arxiv.org/abs/1805.10390
。有关数据集
(
.zip
),请参见
https://oreil.ly/cqU_O
。