文本挖掘:基于R 语言的整洁工具

Book description

当前很多数据都是非结构化的大规模文本,这给分析和可视化带来了挑战。本书使用实用的tidytext软件包来介绍文本挖掘技术,该包是由Julia Silge和David Robinson共同开发的R软件包(类似于ggplot2和dplyr软件包),开发时采用了整洁原则。本书将会介绍如何利用tidytext以及其他整洁工具使文本分析变得更容易、更有效。

本书展示如何将文本转换为数据框,然后提取和可视化文本的特征;并介绍如何将自然语言处理(NLP)融入有效的工作流程中;实用的代码示例和数据分析将帮助你了解文学作品、新闻和社交媒体中的有用信息。

  • 如何将tidytext格式应用于NLP
  • 用情感分析方法挖掘文本中的情感内容
  • 以词频作为衡量标准来确定文档中最重要的词项
  • 使用ggraph和widyr软件包来分析单词之间的关系
  • 在R的整洁格式和不整洁文本格式之间互相转换
  • 使用主题建模对文档集合进行分类
  • 案例研究:Twitter归档文件比较、挖掘NASA元数据、分析数千个Usenet消息

Table of contents

  1. 封面
  2. 扉页
  3. 版权页
  4. O’Reilly介绍
  5. 译者序
  6. 目录
  7. 前言
    1. 大纲
    2. 本书不包括的主题
    3. 关于本书
    4. 本书约定
    5. 使用代码示例
    6. Safari在线图书
    7. 联系我们
    8. 致谢
  8. 第1章 整洁文本格式
    1. 比较整洁文本结构与其他数据结构
    2. unnest_tokens函数
    3. 整理Jane Austen的作品
    4. gutenbergr包
    5. 词频
    6. 总结
  9. 第2章 基于整洁数据的情感分析
    1. 情感数据集
    2. 内连接的情感分析
    3. 比较三个情感词典
    4. 最常见的正面单词和负面单词
    5. Wordclouds模块
    6. 除单词外的其他文本单元
    7. 总结
  10. 第3章 分析词和文件频率:tf-idf
    1. Jane Austen小说中的词项频率
    2. Zipf定律
    3. bind_tf_idf函数
    4. 物理学语料库
    5. 总结
  11. 第4章 词之间的关系:n-gram及相关性
    1. n-gram词条化
    2. 用widyr包对单词对计数并计算相关性 (1/2)
    3. 用widyr包对单词对计数并计算相关性 (2/2)
    4. 总结
  12. 第5章 非整洁格式转换
    1. 使文档–词项矩阵整洁
    2. 将整洁文本数据转换为矩阵 (1/2)
    3. 将整洁文本数据转换为矩阵 (2/2)
    4. 总结
  13. 第6章 主题建模
    1. LDA
    2. 示例:博大的图书馆馆藏 (1/2)
    3. 示例:博大的图书馆馆藏 (2/2)
    4. LDA方法的替代实现
    5. 总结
  14. 第7章 案例研究:Twitter归档文件比较
    1. 单词使用情况的比较
    2. 单词使用情况的变化
    3. 收藏和转发
    4. 总结
  15. 第8章 案例研究:NASA元数据挖掘
    1. NASA如何组织数据
    2. 共现单词与相关单词 (1/2)
    3. 共现单词与相关单词 (2/2)
    4. 计算描述字段的tf-idf (1/3)
    5. 计算描述字段的tf-idf (2/3)
    6. 计算描述字段的tf-idf (3/3)
    7. 总结
  16. 第9章 案例研究:分析Usenet文本
    1. 预处理
    2. 新闻组中的单词
    3. 情感分析 (1/2)
    4. 情感分析 (2/2)
    5. 总结
  17. 参考文献
  18. 作者简介
  19. 封面简介

Product information

  • Title: 文本挖掘:基于R 语言的整洁工具
  • Author(s): Julia Silge, David Robinson
  • Release date: March 2018
  • Publisher(s): China Machine Press
  • ISBN: 9787111588559

You might also like

book

SQL经典实例(第2版)

by Anthony Molinaro, Robert de Graaf

你或许熟悉SQL基础知识,但能否充分发挥它的强大威力呢?本书从实战角度展示SQL在查询之外的能力。你将学会用SQL进行统计分析,像使用商业智能工具那样制作报表,进行文本数据匹配,以及执行复杂的日期数据分析。本书的写作方式独树一帜,以160余个真实场景为例,提供了让你耳目一新的解决方案。书中的实例短小精悍,涵盖5种主流的关系数据库:Oracle、MySQL、SQL Server、PostgreSQL和DB2。 数据分析师、数据科学家和数据库管理员可以通过本书练习解决SQL问题的能力,并开拓思路。对于其他需要在日常工作中与SQL打交道的读者,本书也是弥足珍贵的参考书,有助于快速查找解决方案。 本书第2版做了如下更新。 全面修订了原有实例,帮助你巩固基础知识并充分利用各个SQL实现引入的窗口函数 新增了一些实例,旨在帮助你采用可读性更强、更容易实现的通用表表达式(CTE) 为非数据库专家(如数据科学家)量身定制了一些实例 扩展了处理数字和字符串的解决方案 包含更多标准解决方案

book

SQL经典实例

by Anthony Molinaro

了解SQL查询语言的基本原理,但仍感觉无法自由运用SQL?想在数据上线前用SQL跑一遍数据库?想进一步提高SQL技能? 以上需求,《SQL经典实例》都可以满足。本书致力于让广大数据库相关人员了解SQL的强大数据处理能力。书中汇集了150多个SQL示例,给出了常见问题的解决方案,帮助读者扩宽思路并用学到的技术来解决新问题,既适合SQL初学者更深入理解SQL,也适合SQL中高级用户进阶及日常查询参考。 where子句等常见查询语句 查询结果排序 连接查询 如何获取数据库元信息 常见数字运算实例 字符串处理 日期处理 数据仓储和复杂报表生成领域的查询 与层次化有关的一些实例

book

Python数据分析基础

by Clinton W. Brownley

想深入应用手中的数据?还是想在上千份文件中重复同样的分析过程?没有编程经验的非程序员们如何能在最短的时间内学会用当今炙手可热的Python语言进行数据分析? 来自Facebook的数据专家Clinton Brownley可以帮您解决上述问题。在他的这本书里,读者将能掌握基本Python编程方法,学会编写出处理电子表格和数据库中的数据的脚本,并了解使用Python模块来解析文件、分组数据和生成统计量的方法。 学习基础语法,创建并运行自己的Python脚本 读取和解析CSV文件 读取多个Excel工作表和工作簿 执行数据库操作 搜索特定记录、分组数据和解析文本文件 建立统计图并绘图 生成描述性统计量并估计回归模型和分类模型 在Windows和Mac环境下按计划自动运行脚本

book

金融人工智能:用Python实现AI量化交易

by Yves Hilpisch

人工智能和机器学习的广泛应用给当今的许多行业带来了根本性的变革。在金融领域,人工智能技术也已锋芒初露。通过阅读本书,你将了解如何利用神经网络和强化学习等方法,对金融市场的走势做出预测。 作者伊夫·希尔皮斯科博士基于多年开发、回测和部署人工智能算法交易策略的实战经验,展示了将人工智能算法应用于金融场景的实用方法。本书包含大量Python示例,有助于你边学边练,轻松复现书中的所有结果。 学习人工智能的主要概念和算法,并了解通用人工智能和超级智能 理解机器学习和数据驱动的金融学将如何改变金融理论和实践 运用神经网络和强化学习等方法,发掘金融市场的统计失效现象 学习向量化回测和算法交易,并掌握人工智能算法交易策略的执行与部署 展望金融人工智能的未来,涉及基于人工智能的竞争和金融奇点