第8章 深度学习在文本挖掘中的应用
本章将讨论以下主题:
- 对文本数据进行预处理并提取感情;
- 使用tf-idf分析文档;
- 使用LSTM网络执行情感预测;
- 使用text2vec示例的应用程序。
8.1 对文本数据进行预处理并提取情感
在本节中,我们将简•奥斯汀发表于1813年的畅销小说《傲慢与偏见》用于我们的文本数据预处理分析。在R中,我们将使用Hadley Wickham开发的tidytext包来执行词语切分、停止词的删除、使用预定义情感词典提取情感、词频-逆文档频率(term frequency - inverse document frequency,tf-idf)矩阵的创建,以及理解n-grams之间的成对相关性。
在本节中,我们不是将文本存储为字符串、语料库或文档术语矩阵(Document Term Matrix,DTM),而是将其处理为每行一个切分的表格格式。
8.1.1 怎么做
以下是我们如何进行预处理的步骤。
1.加载所需的软件包:
load_packages=c("janeaustenr","tidytext","dplyr","stringr","ggplot2
","wordcloud","reshape2","igraph","ggraph","widyr","tidyr")
lapply(load_packages, require, character.only = TRUE)
2.加载Pride and Prejudice数据集。line_num属性类似于书中打印的行号:
Pride_Prejudice <- data.frame("text" = prideprejudice, "book" = "Pride and Prejudice", "line_num" ...
Get 深度学习实战手册(R语言版) now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.