
115
第 4 章
回归与预测
统计学中最常见的目标可能就是回答这个问题:“变量
X
(更可能是
X
1
,
…
,
X
p
)与变量
Y
有关联吗?如果有,它们之间的关系是什么?可以使用
X
来预测
Y
吗?”
统计学与数据科学之间联系最为紧密的领域是预测,具体地说,就是基于预测变量的值来预测
结果(目标)变量。在结果已知的数据上训练一个模型,再把这个模型应用于结果未知的数据
上,这个过程称为
监督学习
。数据科学与统计学之间有重要联系的另一种领域是
异常检测
——
在数据分析中先进行回归诊断,再逐步改进回归模型,然后使用这个模型来检测异常记录。
4.1
简单线性回归
简单线性回归提供了一个关系模型来反映一个变量与另一个变量的大小之间的关系。例
如,当
X
增大时,
Y
也增大,或者当
X
增大时,
Y
减小。
1
测量两个变量之间如何关联的另
一种方式是相关性,参见
1.7
节
。二者之间的区别是,相关性测量的是两个变量之间关联
的
强度
,而回归模型则是对两个变量之间关系的
本质
进行量化。
本节关键术语
响应变量
试图预测的变量。
同义词
因变量、变量
Y
、目标、结果
注
1
:
本章内容版权归属:
©
2020 Datastats, LLC, Peter Bruce, Andrew Bruce, and Peter Gedeck
;已获得授权使用。