第8章　深度学习在文本挖掘中的应用

本章将讨论以下主题：

对文本数据进行预处理并提取感情；
使用tf-idf分析文档；
使用LSTM网络执行情感预测；
使用text2vec示例的应用程序。

8.1　对文本数据进行预处理并提取情感

在本节中，我们将简•奥斯汀发表于1813年的畅销小说《傲慢与偏见》用于我们的文本数据预处理分析。在R中，我们将使用Hadley Wickham开发的tidytext包来执行词语切分、停止词的删除、使用预定义情感词典提取情感、词频-逆文档频率（term frequency - inverse document frequency，tf-idf）矩阵的创建，以及理解n-grams之间的成对相关性。

在本节中，我们不是将文本存储为字符串、语料库或文档术语矩阵（Document Term Matrix，DTM），而是将其处理为每行一个切分的表格格式。

8.1.1　怎么做

以下是我们如何进行预处理的步骤。

1．加载所需的软件包：

load_packages=c("janeaustenr","tidytext","dplyr","stringr","ggplot2
","wordcloud","reshape2","igraph","ggraph","widyr","tidyr")
lapply(load_packages, require, character.only = TRUE)

2．加载Pride and Prejudice数据集。line_num属性类似于书中打印的行号：

Pride_Prejudice <- data.frame("text" = prideprejudice, "book" = "Pride and Prejudice", "line_num" ...

Get 深度学习实战手册（R语言版） now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.

Start your free trial

深度学习实战手册（R语言版） by Posts & Telecom Press, PKS Prakash, Achyutuni Sri Krishna Rao

第8章　深度学习在文本挖掘中的应用

8.1　对文本数据进行预处理并提取情感

8.1.1　怎么做

Don’t leave empty-handed

It’s yours, free.

Check it out now on O’Reilly

第8章 深度学习在文本挖掘中的应用

8.1 对文本数据进行预处理并提取情感

8.1.1 怎么做

Don’t leave empty-handed

It’s yours, free.

Check it out now on O’Reilly

第8章　深度学习在文本挖掘中的应用

8.1　对文本数据进行预处理并提取情感

8.1.1　怎么做