第5章 基于机器学习的分类预测

本章主要内容

学习分类任务及认识其重要性。

回顾信用卡违约数据集。

学习逻辑回归模型。

理解分类树模型。

学习随机森林模型。

给出多元分类问题的简单示例。

学习朴素贝叶斯分类器的基础内容。

我们在第4章介绍了机器学习的基础内容。在本章中,我们会构建类别预测的模型。这一类机器学习问题被称为分类问题。分类模型是较为常见的一类实践模型。在本章中,我们将介绍一些常用的分类模型。

我们先介绍分类任务及一些分类任务的应用,然后回顾信用卡违约数据集,并进行相应的数据准备。随后,我们引入一个流行的分类模型——逻辑回归,它在本质上与我们在第4章讨论过的多元线性回归模型很相似。接下来,我们将给出既流行又好理解的分类树模型。分类树模型是随机森林模型的基础模型,而随机森林模型是预测分析中非常流行的模型,其功能非常强大。

与我们在第4章所用的处理方式一样,我们先从较高的层面介绍这些模型的作用机制,接着使用scikit-learn在信用卡违约数据集上训练模型,再在测试集上比较这些模型的性能。考虑到信用卡违约问题是一个二元分类问题,我们将在最后展示一个多元分类问题。

Python 3.6或更高版本。

Jupyter Notebook。

最新版本的Python库:NumPy、pandas、Matplotlib、Seaborn和scikit-learn。

分类任务属于机器学习的监督学习分支,广泛应用于工业界和学术界。下面是一些分类任务的应用示例。

直销:预测客户对活动的反应是积极的还是消极的。

医药:预测人们是健康的还是生病的,例如得了哪种癌症。

保险:按照风险水平对客户分类,例如判断客户属于低风险、平均风险还是高风险。 ...

Get Python预测分析实战 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.