book

NLTK应用开发指南

Name: NLTK应用开发指南
ISBN: 9781836205913

by Posts & Telecom Press, Nitin K Hardeniya

May 2024

Intermediate to advanced

172 pages

2h 39m

Chinese

Packt Publishing

Read now

Unlock full access

版权信息
版权声明
内容提要
作者简介
审阅者简介
译者序
前言
本书所涵盖的内容前期准备本书的适用读者编写体例读者反馈客户支持实例代码的下载勘误版权如有疑问
第1章自然语言处理简介
1.1 为什么要学习NLP1.2 先从Python开始吧1.2.1 列表1.2.2 自助功能1.2.3 正则表达式1.2.4 字典1.2.5 编写函数1.3 向NLTK迈进1.4 练习1.5 小结
第2章文本的歧义及其清理
2.1 何谓文本歧义2.2 文本清理2.3 语句分离器2.4 标识化处理2.5 词干提取2.6 词形还原2.7 停用词移除2.8 罕见词移除2.9 拼写纠错2.10 练习2.11 小结
第3章词性标注
3.1 何谓词性标注3.1.1 Stanford标注器3.1.2 深入了解标注器3.1.3 顺序性标注器3.1.4 Brill标注器3.1.5 基于机器学习的标注器3.2 命名实体识别（NER）NER标注器3.3 练习3.4 小结

第4章文本结构解析
4.1 浅解析与深解析4.2 两种解析方法4.3 为什么需要进行解析4.4 不同的解析器类型4.4.1 递归下降解析器4.4.2 移位-归约解析器4.4.3 图表解析器4.4.4 正则表达式解析器4.5 依存性文本解析4.6 语块分解4.7 信息提取4.7.1 命名实体识别（NER）4.7.2 关系提取4.8 小结
第5章 NLP应用
5.1 构建第一个NLP应用5.2 其他NLP应用5.2.1 机器翻译5.2.2 统计型机器翻译5.2.3 信息检索5.2.4 语音识别5.2.5 文本分类5.2.6 信息提取5.2.7 问答系统5.2.8 对话系统5.2.9 词义消歧5.2.10 主题建模5.2.11 语言检测5.2.12 光符识别5.3 小结
第6章文本分类
6.1 机器学习6.2 文本分类6.3 取样操作6.3.1 朴素贝叶斯法6.3.2 决策树6.3.3 随机梯度下降法6.3.4 逻辑回归6.3.5 支持向量机6.4 随机森林算法6.5 文本聚类K均值法6.6 文本中的主题建模安装gensim6.7 参考资料6.8 小结
第7章 Web爬虫
7.1 Web爬虫7.2 编写第一个爬虫程序7.3 Scrapy库中的数据流7.3.1 Scrapy库的shell7.3.2 目标项7.4 生成网站地图的蜘蛛程序7.5 目标项管道7.6 参考资料7.7 小结
第8章 NLTK与其他Python库的搭配运用
8.1 NumPy8.1.1 多维数组8.1.2 基本运算8.1.3 从数组中提取数据8.1.4 复杂矩阵运算8.2 SciPy8.2.1 线性代数8.2.2 特征值与特征向量8.2.3 稀疏矩阵8.2.4 优化措施8.3 pandas8.3.1 读取数据8.3.2 数列8.3.3 列转换8.3.4 噪声数据8.4 matplotlib8.4.1 子图绘制8.4.2 添加坐标轴8.4.3 散点图绘制8.4.4 条形图绘制8.4.5 3D绘图8.5 参考资料8.6 小结
第9章 Python中的社交媒体挖掘
9.1 数据收集Twitter9.2 数据提取热门话题9.3 地理可视化9.3.1 影响力检测9.3.2 Facebook9.3.3 有影响力的朋友9.4 小结
第10章大规模文本挖掘
10.1 在Hadoop上使用Python的不同方式10.1.1 Python的流操作10.1.2 Hive/Pig下的UDF10.1.3 流封装器10.2 Hadoop上的NLTK10.2.1 用户定义函数（UDF）10.2.2 Python的流操作10.3 Hadoop上的Scikit-learn10.4 PySpark10.5 小结
欢迎来到异步社区！
异步社区的来历社区里都有什么？购买图书下载资源与作译者互动灵活优惠的购书纸电图书组合购买社区里还可以做什么？提交勘误写作会议活动早知道加入异步

Content preview from NLTK应用开发指南

第10章　大规模文本挖掘

本章打算再回顾之前章节中提到的一些程序库，但这回要谈的是如何在大数据环境中大规模地使用这些库。因此，本章会假设读者对于Hadoop+Hive这样的大数据框架已经有了一定的了解。在此基础之上，我们会对一些Python库进行一些相应的探讨，例如NLTK、scikit-learn和pandas这几个库都可以被应用于带有大规模非结构化数据的Hadoop集群。

还将会讨论一些NLP和文本挖掘领域中常见的用例，在这过程中，也会给出一些代码片段，以便帮助你完成相关的工作。具体来看三个会涉及绝大多数文本挖掘问题的主要示例。这些示例会告诉你如何通过大规模地执行NLTK来完成本书最初几章中所介绍的那些NLP任务。此外，还将通过几个例子来介绍如何在大数据条件下执行文本分类任务。

当然，机器学习和NLP还有另一高度规模化应用的问题就是它们是否可并行化。这里将会简单地讨论一下上一章中的一些问题，看看这些问题是否属于大数据问题，或者是否在某些条件下可以用大数据的方式来解决这些问题。

由于到目前为止所学习的大多数库都是用Python编写的，所以如何用Python（Hadoop）来处理大数据也是本章的主要问题之一。

在阅读完本章之后，我们希望读者掌握以下内容。

能很好地了解Hadoop、Hive这些与大数据相关的技术，并在其条件下使用Python。
根据教程一步一步地掌握如何在大数据条件下使用NLTK、Scikit和PySpark。

10.1　在Hadoop上使用Python的不同方式

在Hadoop上运行一个Python进程的方式有很多种。在这里，将会讨论其中一些当前最为流行的方式，并通过这些方式在Hadoop上用Python来实现流式的MapReduce作业^[1]、Hive中的Python ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9781836205913

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

NLTK应用开发指南

by Posts & Telecom Press, Nitin K Hardeniya

第10章　大规模文本挖掘

10.1　在Hadoop上使用Python的不同方式

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.