May 2024
Intermediate to advanced
172 pages
2h 39m
Chinese
本章打算再回顾之前章节中提到的一些程序库,但这回要谈的是如何在大数据环境中大规模地使用这些库。因此,本章会假设读者对于Hadoop+Hive这样的大数据框架已经有了一定的了解。在此基础之上,我们会对一些Python库进行一些相应的探讨,例如NLTK、scikit-learn和pandas这几个库都可以被应用于带有大规模非结构化数据的Hadoop集群。
还将会讨论一些NLP和文本挖掘领域中常见的用例,在这过程中,也会给出一些代码片段,以便帮助你完成相关的工作。具体来看三个会涉及绝大多数文本挖掘问题的主要示例。这些示例会告诉你如何通过大规模地执行NLTK来完成本书最初几章中所介绍的那些NLP任务。此外,还将通过几个例子来介绍如何在大数据条件下执行文本分类任务。
当然,机器学习和NLP还有另一高度规模化应用的问题就是它们是否可并行化。这里将会简单地讨论一下上一章中的一些问题,看看这些问题是否属于大数据问题,或者是否在某些条件下可以用大数据的方式来解决这些问题。
由于到目前为止所学习的大多数库都是用Python编写的,所以如何用Python(Hadoop)来处理大数据也是本章的主要问题之一。
在阅读完本章之后,我们希望读者掌握以下内容。
在Hadoop上运行一个Python进程的方式有很多种。在这里,将会讨论其中一些当前最为流行的方式,并通过这些方式在Hadoop上用Python来实现流式的MapReduce作业[1]、Hive中的Python ...
Read now
Unlock full access