
78
|
第
5
章
MushroomTree
用于蘑菇分类的决策树的实现。
测试蘑菇分类并进行回归分析将采取两种不同的形式:平方误差(回归分析)和混淆
矩阵(见图
5-7
)。
混淆矩阵是确定分类问题如何工作的一种方式。
预测
实
际
TP(True Positive)分类为可食用的实际也是可食用的
TN(True Nagitive)分类为有毒的实际也是有毒的
FN(false nagitive)分类为有毒的但实际是可食用的
FP(false positive)分类为可食用的但实际是有毒的(危险!)
图 5-7:一个用是或否作答的混淆矩阵的例子
混淆矩阵
混淆矩阵是把分类器的工作情况做成列表的一种方法。
对于给定两个类别,我
们要测试分类器是否正确。
阅读混淆矩阵就是查看实际分类和预测分类一致的
情况(对角线),即分类的结果就是真正的分类。关于找到不正确的分类,任何
不匹配的实际分类和预测分类的列行对都是不正确的分类。
MushroomProblem
要写这个分类器,我们首先需要做一些设置。为此,我们将依赖
Pandas
、
NumPy
和
scikit-learn
。你会注意到,我们使用了大量的
Pandas
函数将数据放入一些易于使用的
类和功能中。
我们从定义问题开始吧。
给出一个带有附加属性的蘑菇训练数据的数据文件,我们希
望将其加载到将这些属性分解为数字信息并输出验证数据进行测试的类中:
Confusion Matrix
Confusion matrices are a way of tabulating how well the ...