第8章 NLTK与其他Python库的搭配运用

本章将会带你探索Python在机器学习和自然语言处理方面的一些主干库。到目前为止,前面已经使用过了NLTK、Scikit和genism这三个库,它们在功能上都非常抽象,所要处理的也都是非常具有针对性的任务。大多数统计型NLP都大量地依赖于向量空间模型,而向量空间模型的基础是线性代数的基本运算,这部分将由NumPy库所覆盖。除此之外,NLP领域中有许多任务(如POS或NER标记)在卸下伪装之后,其实都是一些分类器。本章将会讨论所有这些任务中会被大量用到的程序库。

本章的主要用意是希望为读者提供一份最基本的Python库的快速预览。这将有助于读者了解更多这些最酷炫的程序库背后的数据结构、设计和数学,如之前章节中所讨论的NLTK和Scikit。

下面是本章将要介绍的4个程序库。在这里,会尽量维持一份简介该有的篇幅,但如果你希望在数据科学领域掌握更多基于Python的一站式解决方案,我个人会强烈建议读者应该去阅读更多关于这些库的详细信息。

  • NumPy(用于数值计算)。
  • SciPy(用于科学计算)。
  • pandas(用于数据操纵)。
  • matplotlib(用于可视化处理)。

NumPy是一种用于处理数值计算的Python库,而且其运算速度很快。NumPy库提供了一些高度优化的数据结构(如ndarray)。另外,NumPy库中也提供了许多为数值计算专门设计和优化的函数,用于执行一些最常见的数值运算。因此,这个库也是NLTK、scikitlearn、pandas等其他相关库实现其一些算法的基础之一。本节会简单地介绍一些NumPy库的运行实例。这样做不仅有助于读者了解NLTK与其他相关库背后所用的基本数据结构,而且还能使读者有能力根据自己的需要自定义其中的一些功能。 ...

Get NLTK应用开发指南 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.