第10章 数据预测分析:建模和验证
在进行各种数据分析时,我们最大的目标是设法找到能够预测未来的方式。对于股票市场,研究人员和专业人士正在进行各种测试来了解市场机制。在这种情况下,人们可能会提出很多问题。未来5年的市场指数会是什么水平?明年IBM的价格区间是多少?未来市场波动性是增加还是减少?如果政府改变税收政策,会有什么影响?如果一个国家和另一个国家产生贸易摩擦,那么潜在的收益和损失是什么?如何通过分析一些相关变量来预测一个消费者的行为?我们能预测一个本科生顺利毕业的概率吗?我们能找到某种疾病与某些行为之间的联系吗?
在本章中,我们将讨论以下主题:
- 理解数据预测分析
- 有用的数据集
- 预测未来事件
- 模型选择
- Granger因果关系检验
10.1 理解数据预测分析
关于未来事件,人们可能会有很多问题。对于一位投资者来说,如果他能够预测一只股票价格的未来走势,那么他就可以获得更多收益。对于一家公司来说,如果能够预测其产品趋势,就能增加其股票价格和产品的市场份额。对于政府来说,如果能够预测人口老龄化对社会和经济的影响,就会有更大的动力在政府预算和其他方面制定更好的政策。
对于大学来说,如果能够很好地把握市场对学生在知识和技能方面的需求,就可以开设一套更好的课程,或者推出新的课程来满足未来对劳动力的需求。
为了更好地预测,研究人员必须考虑很多问题。例如,样本是否太小?如何移除缺失的变量?考虑数据收集过程,该数据集会有偏差吗?如何处理极值或异常值?什么是季节性以及如何应对?应该应用什么样的模型?在本章中,我们将讨论其中一些问题。首先,我们从有用的数据集开始。
10.2 有用的数据集
最好的数据源之一是UCI机器学习存储库,当我们访问这个库时,将会看到以下列表,如图10.1所示。
图10.1 UCI机器学习库数据集 ...
Get Anaconda数据科学实战 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.