第10章 预测新西兰的海外游客

本章包含以下主要内容。

  • 创建时间序列对象。
  • 可视化时间序列数据。
  • 简单的线性回归模型。
  • 自相关函数和局部自相关函数。
  • ARIMA建模。
  • 精确性评估。
  • 拟合季节性ARIMA建模。

对于大多数看重统计学或机器学习方法的人来说,天气预测、股票指数预测、销售预测等,都是他们感兴趣的常见问题。当然,他们的目的是使用可接受的准确性模型对接下来一段时间进行预测。天气预测有助于规划旅行,股票指数预测有助于投资计划,而销售预测则有助于制定最优的库存规划。一般来说,这3个问题的一个共同结构是,在相等时间间隔点上能够获取到观测值。这些观测值可能是每天、每周或每月获取的,我们将这些数据称作时间序列数据(time series data)。这些观测值是在过去很长一段时间内收集的,并且我们相信已经捕获到了该序列足够多的特征,以确保基于这些历史数据建立的分析模型具有可预测的能力,并且我们将可以获得相当准确的预测值。

时间序列数据的结构具有一些新的挑战性,并且无法使用本书前面讨论的方法对其进行分析。主要的挑战来自于这样一个事实,因为不能将我们定期获得的观测值视为相互独立的观测值。例如,连续几天的降雨取决于最近过去几天的情况,因为我们有一个逻辑信念,并且加上经验补充,所以明天的降雨强度取决于今天的降雨情况,今天是降雨或者是天气晴朗,将会造成不同的结果。如果一个人从概念上接受观察值并不是相互独立的这一观点,那么如何指定这种依赖关系呢?首先,我们考虑关于新西兰的海外游客数据。

去国外旅游总是很吸引人的,特别是假日旅行。对于任何一个国家的旅游部门来说,了解到他们国家旅游的海外游客趋势十分重要,这样就可以解决物流问题。还有很多其他的工作也与海外游客有关,例如,相关部门可能会有兴趣知道下个季度的访客将会增加还是减少。旅游部门需要考虑行业的各个方面,例如,是否每年游客数量都有增长?是否有季节性因素,比如夏季的旅行时间最长? ...

Get 数据科学实战手册(R+Python)(第2版) now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.