10.16 数据科学入门:时间序列和简单线性回归

前面已经介绍了列表、元组和数组等序列数据,本节将讨论时间序列。时间序列是与时间点相关联的值(称作观测)的序列,如每日收盘价格、每小时温度读数、飞机飞行中的位置变化、每年作物产量、每季度公司利润这些都是时间序列数据。来自全球Twitter用户的带时间戳的推文流也是一个时间序列数据,第12章将深入讨论Twitter数据。

本节将使用一个称为简单线性回归的技术,完成时间序列数据的预测。这里使用1895~2018年纽约市的1月份平均高温数据,一方面预测未来的1月份平均高温,另一方面估计1895年以前那些年的1月份平均高温。

第14章将使用scikit-learn库再次讨论这个例子,而第15章将使用递归神经网络(RNN)分析时间序列。

时间序列在金融应用和物联网(IoT)领域非常流行,第16章对此会做具体讨论。

本节利用Seaborn和pandas显示图形,而Seaborn和pandas都使用了Matplotlib,因此在启动IPython时需要启用Matplotlib支持:

    ipython --matplotlib

时间序列

这里使用的时间序列数据是按年份顺序排列的。单变量时间序列中,每个时间点只有一个观测值,如某年纽约市1月份高温的平均值。而多变量时间序列中每个时间点有两个或更多个观测值,如天气应用中的温度、湿度和气压读数。这里分析的是单变量时间序列。

常对时间序列执行的两个任务如下:

时间序列分析,即根据现有时间序列数据得到其模式信息,以帮助数据分析师理解数据。一个常见的分析任务是查找数据中的季节性规律,如纽约市月平均高温随季节(春、夏、秋、冬)的显著变化情况。

时间序列预测,即使用过去的数据预测未来的数据。

本节讨论时间序列预测任务。 ...

Get Python程序设计:人工智能案例实践 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.