第1章 数据科学生态系统

作为一名数据科学家,你应该已经能非常熟练地处理文件和大量数据。但是除了对单一类型的数据进行简单分析外,你还需要一种组织和编目数据的方法,以便有效地管理数据。这种能力实际上是成为一名伟大的数据科学家的基础。因为随着数据量的增加和复杂性的提高,成功的泛化和失败的过拟合之间的区别就在于是否有一个一致且强大的方法。

本章介绍处理大规模数据的方法和生态系统,侧重于介绍数据科学的工具和技术。本章主要介绍运行环境和如何正确配置环境,同时也介绍一些与整体数据架构相关的非功能性注意事项。虽然这一阶段还没涉及具体的数据科学研究,但它为本书的成功提供了坚实的平台。

在这一章里,我们将探讨以下主题。

  • 数据管理职责。
  • 数据架构。
  • 配套工具。

在数据持续产生、变动和更新的时代,数据管理显得尤为重要。在这种情形下,我们需要一种存储、结构化和审计数据的方法,从而对数据进行持续处理,对模型和结果进行不断改进。

本章将介绍如何最优地保存和管理数据,以便在满足日常需求的数据架构环境中集成Apache Spark和相关工具。

就算暂且不做长远的打算,即使你只是想在家里随便“玩”一点数据,如果没有适当的数据管理,往往问题会逐步升级直至你在数据中完全迷失,进而犯下错误。花时间思考如何组织你的数据,特别是如何进行数据采集是至关重要的。假如你花了很长的时间运行并分析代码,然后整理结果并生成报告,最终你发现使用了错误版本的数据,或者数据并不完整(例如缺失字段),或者更糟糕的是你把结果误删了。没有什么比这些更让人“抓狂”了!

这里还有个坏消息——虽然数据管理相当重要,但商业和非商业组织对它都并不太重视,尤其是缺少现成的解决方案。但好消息是,使用本章介绍的基础构建模块来完成这一工作会容易得多。 ...

Get 精通Spark数据科学 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.