14.4 案例研究:时间序列和简单线性回归

上一节中,我们展示了每个样本与不同类别相关联的分类。在这里,我们继续讨论简单的线性回归—最简单的回归算法—从第10章的“数据科学入门”部分开始。我们来回想一下,给定表示自变量和因变量的数值合集,使简单的线性回归就可以描述这些变量与一条直线之间的关系,这条直线被称为回归线。

之前,我们对1895~2018年纽约市1月份平均高温数据的时间序列执行了简单的线性回归操作,使用Seaborn的regplot函数创建了具有相应回归线的数据散点图。我们还使用scipy.stats模块的linregress函数来计算回归线的斜率和截距。然后,利用这些值预测了未来的温度并估算过去的温度。

在本节中,我们将会:

▪ 使用scikit-learn估计器重新实现在第10章中展示的简单线性回归。

▪ 使用Seaborn的scatterplot函数绘制数据,并使用Matplotlib的plot函数显示回归线。

▪ 使用scikit-learn估计器计算所得的回归系数和截距值以进行预测。

稍后,我们还将研究多元线性回归(也简称为线性回归)。

为了方便起见,我们在ch14示例文件夹中名为ave_hi_nyc_jan_1895-2018.csv的CSV文件中提供了温度数据。再次在启用Matplotlib支持的情况下启动IPython:

    ipython --matplotlib

将平均高温数据加载到DataFrame

正如在第10章中所做的,下面从ave_hi_nyc_jan_1895-2018.csv加载数据,将'Value'列重命名为'Temperature',删除每个日期值末尾的“01”并显示一些数据样本:

将数据拆分为训练集和测试集

在这个例子中,我们将使用 ...

Get Python程序设计:人工智能案例实践 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.