第5章 模式识别之分类算法

本章主要内容

  • 决策树分类
  • 概率分类模型
  • 判别分析分类
  • k邻近算法

分类算法研究如何自动学习根据观测到的数据做出准确的预测。分类学习的第一步是对数据集进行标注。对于已经分类的每个类别,我们都预先定义一个标签(label)。这个标签可以是任意值(整数、字符串等,一般用正整数)。接着,我们对每个样本的特征向量(feature vector)都标注一个预先定义好的标签,用于表示这个样本所属类别。只有两个类别(标签)的分类问题称为二分类问题;有多个类别(标签)的则称为多分类问题。我们将从样本的特征向量到标签的映射函数称为分类器(classifier)。

分类问题与第4章中学习的回归问题有一些相似之处,例如,它们都是从已标注好的数据集中学习输入数据到输出数据的映射关系。两者最大的区别在于,回归问题的输出数据是连续值,而分类问题的输出数据是离散值,即分类的类别标签。

举例而言,回归模型可基于前10年的石油价格数据预测未来的石油价格。二分类模型可预测石油价格的走势,即是涨还是跌。在回归问题中,输出数据石油价格是连续变量;而在分类问题中,尽管输入数据不变,仍然是前10年的石油价格数据(即为连续变量),但输出数据变成涨跌分类,即价格走势是涨还是跌。

本章将展示如何使用k邻近算法、判别分析(discriminant analysis)分类、决策树分类和朴素贝叶斯分类算法,还将介绍概率论在分类问题中所扮演的角色。在本章末尾,我们将了解这些算法中的内容,并学会如何在MATLAB中实现、运行这些算法。

决策树可看作一系列判断结果及其判断条件的图形化展示,尤其是对人脑极难描述清楚的判断条件的展示。判断结果往往是根据一连串层级化的判断条件而得出的,这使我们很难单纯地用表格、数字以正式和易于人脑理解的方式描述这些判断过程。 ...

Get MATLAB机器学习 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.