
回归与预测
|
131
本节要点
•
一个响应变量
Y
和多个预测变量
X
1
,
…
,
X
p
之间的关系可以使用多元线性回归进行
建模。
•
评价一个模型的最重要指标是均方根误差(
RMSE
)和
R
方(
R
2
)。
•
系数的标准误差可以用来测量变量对模型贡献的可靠性。
•
逐步回归是一种自动确定哪些变量应该包含在模型中的方法。
•
加权回归可以在拟合回归方程时给特定记录加上更大或更小的权重。
4.2.6
扩展阅读
Gareth James
、
Daniela Witten
、
Trevor Hastie
和
Robert Tibshirani
的著作
An Introduction to
Statistical Learning
中对交叉验证与重抽样进行了精彩的论述。
4.3
使用回归进行预测
在数据科学中,回归的基本目标是预测。我们应该牢记这一点,因为作为一种古老而又成
熟的统计方法,回归在很多时候仍然被视为传统的解释性建模工具,而非预测工具。
本节关键术语
预测区间
一个预测值两侧的不确定性区间。
外推
将模型扩展到其拟合所用的数据范围之外。
4.3.1
外推风险
回归模型不应该外推到数据范围之外(除非使用回归进行时间序列预测),模型只对那些
有足够多数据值的预测变量有效(即使有足够多的数据,也会有其他问题,参见
4.6
节
)。
看一个极端的例子,假设我们要使用模型
model_lm
预测一个
5000
平方英尺的空荡荡的院
落的价值。在这个例子中,所有与建筑物相关的预测变量的值都是
0
,回归方程会得
到一
个荒谬的预测结果:
–521 900 + 5000
×
(–0.0605) ...