第4章 探索性数据分析
在商业环境中进行的探索性数据分析(EDA)一般是作为一个较大的工作中的一部分而进行的,这个工作是按照可行性评估的方式组织和执行的。可行性评估的目的,也是扩展的EDA所关注的,用于回答经检验的数据是否符合目的、是否值得进一步投资这样的问题。
一般情况下,我们总是期望数据调查能涵盖多方面的可行性,包括在生产环境中使用数据的实际领域,例如及时性、质量、复杂性、覆盖范围,以及是否符合预期的假设检验。虽然从数据科学的角度来看,这些方面相当无趣,数据质量主导的调查的重要性并不亚于纯粹的统计发现。当所讨论的数据集非常大且复杂的时候,并且为数据科学准备数据所需的投资可能很大时,尤其如此。为了说明这一点,同时将话题付诸实践,我们提出了一个方案,做一个庞大而复杂的GKG数据流馈送的EDA,这个项目来自GDELT。
在本章中,我们将创建和解释EDA,同时涵盖以下主题。
- 理解问题和设计原则,规划和构建一个扩展的EDA。
- 数据剖析的简介,以及相关示例;为了连续监控数据质量,如何选用技术方案搭建一个通用框架。
- 如何构造一个通用的基于掩码的数据剖析器。
- 如何将指标存储为标准模式,方便研究随时间产生的指标中的数据漂移,以及相关示例。
- 如何使用Apache Zeppelin notebook进行快速EDA工作,并绘制图表和图形。
- 如何提取和研究GDELT中的GCAM情感数据,并分别作为时间序列和时空分布数据集。
- 如何扩展Apache Zeppelin、采用
plot.ly
库生成自定义图表。
4.1 问题、原则与规划
在本节中,我们来探讨为什么EDA是必需的,并讨论创建EDA时要考虑的关键点。
4.1.1 理解EDA问题
在推进EDA项目之前,总会面临一个问题:你能给我一个预算和明细吗? ...
Get 精通Spark数据科学 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.