第8章 调整模型和提高性能
本章主要内容
● 超参数调整。
● 用EDA提高模型性能。
● 讨论在执行评价时业务角度的重要性。
本章主要介绍如何改进模型。全章主要包括两个部分。第一部分讨论超参数调整,模型中的有些参数不是从数据中学习得到的,我们可以通过超参数调整方法对其加以赋值。我们先从最简单的“如何调整一个参数”开始,然后展示一种流行的方法——可以同时优化多个超参数的方法。这一部分会用到交叉验证和k折交叉验证,由此可见第7章涉及的概念非常重要。第二部分展示如何通过尝试不同的模型提高预测质量,然后用一些从探索性数据分析过程中得到的信息对钻石价格数据集的目标特征加以变换,以查看结果是否有所改进,随后从不同的视角分析模型的预测能力,最后讨论将模型性能与业务问题进行匹配的必要性。
8.1 技术要求
● Python 3.6或更高的版本。
● Jupyter Notebook。
● 最新版本的Python库:NumPy、pandas、Matplotlib、Seaborn和scikit-learn。
8.2 超参数调整
我们已经处理过一些参数模型,这些模型可以从数据中学习参数,例如多元线性回归模型、逻辑回归模型和多层感知器,但是大多数模型中的一些参数不能直接从数据中学习。我们需要对这些参数的取值加以选择,而这样的参数称为超参数(Hyperparameter)。我们已经在各个示例中使用各个库的默认值为不同的模型选择了超参数,或者基于经验选择了可能最好的取值,但是如果还希望模型执行得更好,就需要进行一些超参数调整,为模型的超参数寻找更好的取值。
本节的第一个示例回到钻石价格模型。
● 进行必要的导入:
import numpy as np import pandas as pd import ...
Get Python预测分析实战 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.