第3章 理解数据集——探索性数据分析

本章主要内容

EDA的概念。

用EDA理解数据集的方法。

一元EDA。

二元EDA。

图形化的多元EDA简介。

在本章中,我们将介绍EDA的主要技术。我们先解释预测分析过程阶段的一般性目标,然后讨论其实现方式。

一种常见的对EDA技术进行分类的方式,是根据分析变量的个数——一个、两个还是多个进行分类。因此,本章各节的主要主题分别是“一元EDA”“二元EDA”“图形化的多元EDA”。在一元分析和二元分析中,要根据特征的类型选择相应的数值和图形技术。

在本章中,我们用钻石价格数据集来讲解一元EDA和二元EDA,先通过示例介绍常见的可视化方式,接着借鉴散点图、箱型图和其他方法进行可视化,并根据图形解释变量之间的关系;使用信用卡违约数据集作为多元EDA的示例,介绍如何利用Seaborn生成复杂的图形。

对于本章相关的统计学定义,你应该在统计相关课程上学过,因此本章不再叙述。在本章中,我们更侧重于阐释概念,并给出相关的应用示例。本章的目标是介绍EDA技术的基础,从而帮助你解决问题。

Python 3.6及更高版本。

Jupyter Notebook。

最新版本的Python库:NumPy、pandas、Matplotlib以及Seaborn。

正如第1章所述,EDA是数值技术和图形技术的结合,有助于让人理解数据集的特点、特征以及特征之间的潜在关系。

记住,这一阶段的目标是理解数据集,但并不等同于生成汇总统计量、好看的可视化图形或实现复杂的多元分析。这些处理只是实现最终目标的方式。

此外,不要混淆“计算”和“理解”。谁都可以借助函数计算数值特征的标准差,比如借助pandas序列方法中的 ...

Get Python预测分析实战 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.