第6章 管理包

在前言中,我们提到本书是为那些正在寻找数据科学领域工具的读者而准备的。对于在数据科学领域工作的研究人员或实践者来说,存在几个重要的问题。首先,他们需要理解原始数据,例如数据的目的、结构、可靠和复杂程度,以及数据是如何被收集的。其次,研究人员和实践者应该有一种处理这些数据的好方法。换句话说,他们应该掌握至少一门计算机语言,如R、Python或Julia。掌握一门语言的基础之后,应该转向学习一些相关的软件包,因为理解这些包可能决定你在数据领域能走多远。在本章中,我们将讨论以下主题:

  • 包、模块和工具箱简介
  • 使用包的两个示例
  • 在R、Python、Julia和Octave中查找所有包
  • R中的任务视图(task view)
  • 查找手册
  • 包依赖
  • R、Python、Julia和Octave中的包管理
  • 包管理器Conda
  • 在R和Python中创建程序集
  • 查找环境变量

多年来,研究人员或用户已经开发了很多围绕不同任务的各种编程语言的包。在本书中,我们将模块(module)或工具箱(toolbox)都看作包(package)的同义词。对于数据科学领域的分析来说,使用不同的包来实现目标非常重要,这是因为使用不同包存在以下几个优点。首先,如果能够找到某个包中包含相关的程序,那么就不必从头开始编写代码,这将节省大量的时间。换句话说,我们不必重新造轮子,对于开发人员来说尤其如此。其次,包通常是由具有相关领域经验的人员开发的。因此,相对来说,包的质量通常比新手编写的程序要高。最后,对于初学者来说,开发包的知识和相关的技能集可以帮助他们加速学习过程。

通常来说,举例子来说明或理解一些密切相关的包的有用性和重要性是一个不错的主意。第一个例子非常简单:为百度网站生成一个二维码。相关代码只有两行。请注意,如果包qrcode还没有预先安装,那么需要运行 ...

Get Anaconda数据科学实战 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.