第2章 理解问题和准备数据

本章主要内容

理解业务问题并提出解决方案。

引入钻石价格数据集及相关的实践项目。

引入信用卡违约数据集及相关的实践项目。

我们在第1章介绍了预测分析过程、一些相关的基本定义和主要的Python生态系统库。本章开始着手处理数据集,并深入介绍预测分析过程的第一阶段和第二阶段,即理解问题和定义问题以及收集数据和准备数据

在本章中,我们先讨论理解问题和定义问题时最需要注意的方面,比如,是否掌握了足够的背景知识、预测对象如何定义、数据如何处理,然后提出解决方案。

接着,我们将进入实践阶段,引入两个数据集(它们也将用于本书的其余章节)和一些虚拟的业务问题。这些数据集不仅将被用来讨论理解问题和定义问题,还将被用来讨论收集数据和准备数据。同时,我们还将引入该阶段的一些实践性问题,比如缺失值处理、分类特征编码、共线性问题、低方差特征等,最后还会简单介绍特征工程。

Python 3.6或更高版本。

Jupyter Notebook。

最新版本的Python库:NumPy、pandas和Matplotlib。

在本节中,我们将讨论业务问题的定义和内涵,以及定义过程中的其他事宜,会使用预测分析来解决问题。该阶段的细节完全取决于项目,因此我们仅给出一般性的指导建议。但在讨论实践案例时,我们会在预测分析项目中具体介绍理解问题的一些必要考虑因素。

上文提到的“理解问题和定义问题”是预测分析过程的第一个阶段。正如第1章所述,这个阶段非常关键,因为这时需要与利益相关方共同树立预测分析项目的目标。

待解决的问题是什么?

如何基于业务角度评价解决方案?

因此,任何预测分析项目的第一个任务就是理解问题的背景。正如第1章所述,预测分析总处在某个特定的领域。显然,对该领域的理解越全面,对问题的理解就会越准确,提出的解决方案就会越恰当。 ...

Get Python预测分析实战 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.