第5章 基于机器学习的分类预测
本章主要内容
● 学习分类任务及认识其重要性。
● 回顾信用卡违约数据集。
● 学习逻辑回归模型。
● 理解分类树模型。
● 学习随机森林模型。
● 给出多元分类问题的简单示例。
● 学习朴素贝叶斯分类器的基础内容。
我们在第4章介绍了机器学习的基础内容。在本章中,我们会构建类别预测的模型。这一类机器学习问题被称为分类问题。分类模型是较为常见的一类实践模型。在本章中,我们将介绍一些常用的分类模型。
我们先介绍分类任务及一些分类任务的应用,然后回顾信用卡违约数据集,并进行相应的数据准备。随后,我们引入一个流行的分类模型——逻辑回归,它在本质上与我们在第4章讨论过的多元线性回归模型很相似。接下来,我们将给出既流行又好理解的分类树模型。分类树模型是随机森林模型的基础模型,而随机森林模型是预测分析中非常流行的模型,其功能非常强大。
与我们在第4章所用的处理方式一样,我们先从较高的层面介绍这些模型的作用机制,接着使用scikit-learn在信用卡违约数据集上训练模型,再在测试集上比较这些模型的性能。考虑到信用卡违约问题是一个二元分类问题,我们将在最后展示一个多元分类问题。
5.1 技术要求
● Python 3.6或更高版本。
● Jupyter Notebook。
● 最新版本的Python库:NumPy、pandas、Matplotlib、Seaborn和scikit-learn。
5.2 分类任务
分类任务属于机器学习的监督学习分支,广泛应用于工业界和学术界。下面是一些分类任务的应用示例。
● 直销:预测客户对活动的反应是积极的还是消极的。
● 医药:预测人们是健康的还是生病的,例如得了哪种癌症。
● 保险:按照风险水平对客户分类,例如判断客户属于低风险、平均风险还是高风险。 ...
Get Python预测分析实战 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.