
152
|
第
4
章
图 4-9:变量
SqFtTotLiving
的偏残差图
这个例子中的非线性是可以理解的:与大房子相比,一个小房子面积多出
500
平方英尺所
造成的差异要大得多。这说明
SqFtTotLiving
并不是一个简单的线性项,而是一个非线性
项(参见
4.7
节
)。
本节要点
•
虽然离群点会在小数据集中造成一些问题,但它的主要价值是找出数据中存在的问
题或定位异常。
•
在小数据集中,单条记录(包括回归中的离群点)可能会对回归方程产生非常大的
影响,但在大数据集中,这种效果被稀释掉了。
•
如果使用回归模型进行正式的统计推断(
p
值之类),就应该检查关于残差分布的假
设。不过,在数据科学中,残差分布通常不是很重要。
•
可以使用偏残差图定性地评估每个回归项的拟合程度,由此可以使用另外一种模型设置。
4.7
多项式回归与样条回归
预测变量与响应变量之间的关系不一定是线性的。对药物剂量的响应通常是非线性的:
药物剂量加倍一般不会产生加倍的响应。对某种产品的需求也不是营销投入的线性函数,
需求会在某个点上达到饱和。有多种方法可以对回归进行扩展,使其能够捕获这些非线
性效果。