第8章 深度学习在文本挖掘中的应用

本章将讨论以下主题:

  • 对文本数据进行预处理并提取感情;
  • 使用tf-idf分析文档;
  • 使用LSTM网络执行情感预测;
  • 使用text2vec示例的应用程序。

在本节中,我们将简•奥斯汀发表于1813年的畅销小说《傲慢与偏见》用于我们的文本数据预处理分析。在R中,我们将使用Hadley Wickham开发的tidytext包来执行词语切分、停止词的删除、使用预定义情感词典提取情感、词频-逆文档频率(term frequency - inverse document frequency,tf-idf)矩阵的创建,以及理解n-grams之间的成对相关性。

在本节中,我们不是将文本存储为字符串、语料库或文档术语矩阵(Document Term Matrix,DTM),而是将其处理为每行一个切分的表格格式。

以下是我们如何进行预处理的步骤。

1.加载所需的软件包:

load_packages=c("janeaustenr","tidytext","dplyr","stringr","ggplot2
","wordcloud","reshape2","igraph","ggraph","widyr","tidyr")
lapply(load_packages, require, character.only = TRUE)

2.加载Pride and Prejudice数据集。line_num属性类似于书中打印的行号:

Pride_Prejudice <- data.frame("text" = prideprejudice, "book" = "Pride and Prejudice", "line_num" ...

Get 深度学习实战手册(R语言版) now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.