
138
|
第
4
章
4.4.3
有序因子变量
有些因子变量的水平是有等级的,这样的变量称为
有序因子变量
,或者
有序分类变量
。例
如,贷款等级可以是
A
、
B
、
C
,等等
,每种等级都比前一等级风险更高。通常,有序因子
变量可以转换为数值并作为数值使用。例如,
BldgGrade
是一个有序因子变量。表
4-1
给出
了部分等级类型。尽管等级有特殊的含义,但数值可以由低到高排序,对应于房屋等级。
4.2
节中拟合了一个回归模型
house_lm
,其中
BldgGrade
是作为数值变量处理的。
表4-1:房屋等级及其相应的数值
Value Description
1 Cabin
2 Substandard
5 Fair
10 Very good
12 Luxury
13 Mansion
将有序因子按照数值变量处理可以保留顺序中包含的信息,如果转换为因子,这种信息就
会丢失。
本节要点
•
因子变量需要转换为数值变量,才能在回归中使用。
•
对于有
P
个不同值的因子变量,最常用的编码方法是用
P
–1
个虚拟变量来表示它们。
•
对于有多个水平的因子变量,即使是在非常大的数据集中,也需要合并成一个水平
更少的变量。
•
有些因子变量的水平是有序的,可以用一个数值变量来表示它们。
4.5
解释回归方程
在数据科学中,回归最重要的应用是预测因变量(结果变量)。不过,在某些情况下,深
刻理解回归方程,搞清楚预测变量与结果变量之间关系的本质也是非常有价值的。本节针
对回归方程的研究与解释提供了一些指导。
本节关键术语
相关变量
如果预测变量高度相关,就很难解释单个系数。