第7章 模型评价

本章主要内容

学习回归模型和分类模型的不同指标。

学习与业务问题有关的自定义指标。

学习用于模型评价的不同图形。

理解如何用不同的阈值生成不同的分类器。

理解精确率与召回率之间的关系。

理解k折交叉验证的过程。

学习如何使用k折交叉验证评价模型指标,以及该方法好在哪里。

到目前为止,我们介绍了许多关于预测分析和分类模型的知识,其中的分类模型是回归模型的基础。这些知识涵盖了像多元线性回归模型这样的简单模型,以及像多层感知器这样的复杂模型。本书讲过如何训练模型进行预测,也讲过测试集划分对于评价的影响很大,因为模型的评价要在之前不可见的数据上执行,即希望模型可以学习能够泛化到不可见数据上的一些规律。

目前,模型度量的一般性评价指标有用于回归问题的均方误差(Mean Square Error,MSE),以及用于分类问题的准确率。但是,对于每一个预测分析项目,我们都需要仔细考虑评价模型的指标和一般性的评价策略,以及如何把策略和业务问题联系起来。

本章主要包括3个部分。首先讨论对回归模型的评价,这部分讨论一些评价回归模型的较为重要和流行的指标,同时也会给出一些很有用的可视化技术;然后回到信用卡违约问题,讨论对分类模型的评价。这部分也会涉及数值指标和可视化技术;最后以k折交叉验证结束本章,它对于模型评价以及超参数调节至关重要。超参数调节是第8章的主题。

Python 3.6或更高版本。

Jupyter Notebook。

最新版本的Python库:NumPy、pandas、Matplotlib、Seaborn和scikit-learn。

评价模型有数值指标,可视化技术也可以作为辅助方法。本节将回到钻石价格问题,随后讨论评价回归模型常见的指标和图形。此外,在具体的业务问题背景下,还要定义自己的评价指标。 ...

Get Python预测分析实战 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.