第1章 准备你的数据科学环境

本章涵盖如下内容:

  • 理解数据科学管道
  • 在Windows、Mac OS X和Linux上安装R
  • 在R和RStudio中安装扩展包
  • 在Linux和Mac OS X上安装Python
  • 在Windows上安装Python
  • 在Mac OS X和Linux上安装Python数据分析库
  • 安装更多Python包
  • 安装和使用virtualenv

传统意义上的食谱,就是作者擅长的烹饪菜谱,用于帮助读者学习新菜的做法。很多人相信,对于一份食谱而言,它最终的产出就是食谱所对应的菜品本身,而读者在阅读本书时也可以想象是在阅读一份食谱。本书的每一章都会介绍基于不同目标、在不同数据集上使用数据科学管道的各种阶段来完成的实际应用案例,指导读者实践。同时,和做菜的过程一样,最终的产品可以是针对某一个特定数据集的分析应用。

然而,我们希望读者能有一个更广泛的视角。数据科学家是在实践中不断学习的,每一次的迭代和验证假设都可以增进实践者的知识。在本书中,我们使用两种不同的编程语言(R和Python)来对不同的数据集采用多种数据科学管道。希望通过这样的方式,读者可以开始抽象出分析模式,看到一幅更广阔的图景,并且对数据科学这一尚未明确定义的领域有更深刻的认识。

我们同时也希望读者能够知道,不同于传统的烹饪食谱,数据科学的食谱是含混不清的。当主厨开始制作某道菜时,他们是明确知道要使用什么食材,以及成品的品相如何的。然而对于数据科学家而言,情况往往不同。数据科学家往往不知道要处理的数据集是什么样的。数据科学家的菜单是深入挖掘数据的某种可能实现方式,而要开始在这条路上深挖数据,首先你要能够问出对的问题。

如果你是统计学或者数学背景,那么本书提供的建模技术可能不会令你感到兴奋。你应该关注那些更偏重实践的数据科学管道,比如如何加载一个很大的数据集,以及如何使用可扩展工具以及已知算法来实现实际的数据应用、交互式可视化图形展示以及Web应用,而不仅仅是报告或者论文。我们希望这些视角可以扩展你的价值,加深对于数据科学的理解,以及能够更好地在你的领域应用数据科学。 ...

Get 数据科学实战手册 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.