第10章 数据预测分析:建模和验证

在进行各种数据分析时,我们最大的目标是设法找到能够预测未来的方式。对于股票市场,研究人员和专业人士正在进行各种测试来了解市场机制。在这种情况下,人们可能会提出很多问题。未来5年的市场指数会是什么水平?明年IBM的价格区间是多少?未来市场波动性是增加还是减少?如果政府改变税收政策,会有什么影响?如果一个国家和另一个国家产生贸易摩擦,那么潜在的收益和损失是什么?如何通过分析一些相关变量来预测一个消费者的行为?我们能预测一个本科生顺利毕业的概率吗?我们能找到某种疾病与某些行为之间的联系吗?

在本章中,我们将讨论以下主题:

  • 理解数据预测分析
  • 有用的数据集
  • 预测未来事件
  • 模型选择
  • Granger因果关系检验

关于未来事件,人们可能会有很多问题。对于一位投资者来说,如果他能够预测一只股票价格的未来走势,那么他就可以获得更多收益。对于一家公司来说,如果能够预测其产品趋势,就能增加其股票价格和产品的市场份额。对于政府来说,如果能够预测人口老龄化对社会和经济的影响,就会有更大的动力在政府预算和其他方面制定更好的政策。

对于大学来说,如果能够很好地把握市场对学生在知识和技能方面的需求,就可以开设一套更好的课程,或者推出新的课程来满足未来对劳动力的需求。

为了更好地预测,研究人员必须考虑很多问题。例如,样本是否太小?如何移除缺失的变量?考虑数据收集过程,该数据集会有偏差吗?如何处理极值或异常值?什么是季节性以及如何应对?应该应用什么样的模型?在本章中,我们将讨论其中一些问题。首先,我们从有用的数据集开始。

最好的数据源之一是UCI机器学习存储库,当我们访问这个库时,将会看到以下列表,如图10.1所示。

图10.1 UCI机器学习库数据集 ...

Get Anaconda数据科学实战 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.