book

NLTK应用开发指南

Name: NLTK应用开发指南
ISBN: 9781836205913

by Posts & Telecom Press, Nitin K Hardeniya

May 2024

Intermediate to advanced

172 pages

2h 39m

Chinese

Packt Publishing

Read now

Unlock full access

版权信息
版权声明
内容提要
作者简介
审阅者简介
译者序
前言
本书所涵盖的内容前期准备本书的适用读者编写体例读者反馈客户支持实例代码的下载勘误版权如有疑问
第1章自然语言处理简介
1.1 为什么要学习NLP1.2 先从Python开始吧1.2.1 列表1.2.2 自助功能1.2.3 正则表达式1.2.4 字典1.2.5 编写函数1.3 向NLTK迈进1.4 练习1.5 小结
第2章文本的歧义及其清理
2.1 何谓文本歧义2.2 文本清理2.3 语句分离器2.4 标识化处理2.5 词干提取2.6 词形还原2.7 停用词移除2.8 罕见词移除2.9 拼写纠错2.10 练习2.11 小结
第3章词性标注
3.1 何谓词性标注3.1.1 Stanford标注器3.1.2 深入了解标注器3.1.3 顺序性标注器3.1.4 Brill标注器3.1.5 基于机器学习的标注器3.2 命名实体识别（NER）NER标注器3.3 练习3.4 小结

第4章文本结构解析
4.1 浅解析与深解析4.2 两种解析方法4.3 为什么需要进行解析4.4 不同的解析器类型4.4.1 递归下降解析器4.4.2 移位-归约解析器4.4.3 图表解析器4.4.4 正则表达式解析器4.5 依存性文本解析4.6 语块分解4.7 信息提取4.7.1 命名实体识别（NER）4.7.2 关系提取4.8 小结
第5章 NLP应用
5.1 构建第一个NLP应用5.2 其他NLP应用5.2.1 机器翻译5.2.2 统计型机器翻译5.2.3 信息检索5.2.4 语音识别5.2.5 文本分类5.2.6 信息提取5.2.7 问答系统5.2.8 对话系统5.2.9 词义消歧5.2.10 主题建模5.2.11 语言检测5.2.12 光符识别5.3 小结
第6章文本分类
6.1 机器学习6.2 文本分类6.3 取样操作6.3.1 朴素贝叶斯法6.3.2 决策树6.3.3 随机梯度下降法6.3.4 逻辑回归6.3.5 支持向量机6.4 随机森林算法6.5 文本聚类K均值法6.6 文本中的主题建模安装gensim6.7 参考资料6.8 小结
第7章 Web爬虫
7.1 Web爬虫7.2 编写第一个爬虫程序7.3 Scrapy库中的数据流7.3.1 Scrapy库的shell7.3.2 目标项7.4 生成网站地图的蜘蛛程序7.5 目标项管道7.6 参考资料7.7 小结
第8章 NLTK与其他Python库的搭配运用
8.1 NumPy8.1.1 多维数组8.1.2 基本运算8.1.3 从数组中提取数据8.1.4 复杂矩阵运算8.2 SciPy8.2.1 线性代数8.2.2 特征值与特征向量8.2.3 稀疏矩阵8.2.4 优化措施8.3 pandas8.3.1 读取数据8.3.2 数列8.3.3 列转换8.3.4 噪声数据8.4 matplotlib8.4.1 子图绘制8.4.2 添加坐标轴8.4.3 散点图绘制8.4.4 条形图绘制8.4.5 3D绘图8.5 参考资料8.6 小结
第9章 Python中的社交媒体挖掘
9.1 数据收集Twitter9.2 数据提取热门话题9.3 地理可视化9.3.1 影响力检测9.3.2 Facebook9.3.3 有影响力的朋友9.4 小结
第10章大规模文本挖掘
10.1 在Hadoop上使用Python的不同方式10.1.1 Python的流操作10.1.2 Hive/Pig下的UDF10.1.3 流封装器10.2 Hadoop上的NLTK10.2.1 用户定义函数（UDF）10.2.2 Python的流操作10.3 Hadoop上的Scikit-learn10.4 PySpark10.5 小结
欢迎来到异步社区！
异步社区的来历社区里都有什么？购买图书下载资源与作译者互动灵活优惠的购书纸电图书组合购买社区里还可以做什么？提交勘误写作会议活动早知道加入异步

Content preview from NLTK应用开发指南

第9章　Python中的社交媒体挖掘

这一章来讨论一下社交媒体。虽然这方面的内容与NLTK/NLP没有直接关系，但社交数据也是一种非常丰富的非结构化文本的数据源。作为NLP爱好者，我们应该掌握一些处理社交数据的技能。本章将会探讨如何从一些目前最受欢迎的社交媒体平台中收集到相关数据。还会介绍如何利用Python API来从Twitter、Facebook等社交媒体中收集数据。还会探讨一些在社交媒体挖掘领域中最常见的用例，例如热门话题、情绪分析等。

我们在前面的章节中已经学习了许多与自然语言处理和机器学习相关的概念性话题。本章将会试着围绕一些社交数据来构建一些应用程序。本章还提供了一些针对社交数据处理的最佳实践，并以可视化图形的方式来查看这些社交数据。

社交媒体都会存在一个基础性的图结构，而大多数基于图结构的问题都可以被表述成某种信息流问题，并找出该图结构中最繁忙的节点。像热门话题、影响力检测以及情绪分析这些问题都是很好的例子。下面就通过这些具体的用例，围绕社交网络来构建一些酷炫的应用程序吧。

在阅读完本章之后，我们希望你能掌握以下内容。

知道如何用相关API收集任意社交媒体中的数据。
学会如何用某种结构化格式来表述数据，并以此构建出一些很棒的应用程序。
可以为社交数据绘制可视化图形，并能对其进行有意义的观察。

9.1　数据收集

本章最重要的目标是要介绍如何在一些业界最常见的社交网络之间进行数据收集。本章主要以Twitter和Facebook为实验对象，为你详细、充分地介绍与这两个社交媒体有关的API信息，以及如何有效地利用它们来获取相关数据。此外，还将讲解与废弃数据相关的数据字典，以及如何利用目前所学到的知识来构建一些酷炫的应用程序。

Twitter

先从目前最流行、最开放的且完全公开的社交媒体开始入手。这实际上就意味着可能要去收集整个Twitter流中的信息，但这是要付费的，但可以免费捕获其中百分之一的信息。在商业背景下，对于那些想要了解公众情绪、新兴话题这类信息的人来说，Twitter是一个非常丰富的信息资源。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9781836205913

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

NLTK应用开发指南

by Posts & Telecom Press, Nitin K Hardeniya

第9章　Python中的社交媒体挖掘