第4章 大数据—高级分析
在本章中,我们将面临高性能金融分析和数据管理的一个最大挑战。那就是,如何在R中高效且完美地处理大型数据集。
我们主要的目标是,指导读者通过R自己动手使用R访问和管理大型数据集。本章不关注任何特定的金融理论,仅仅致力于通过亲手实践的实用案例,指导研究者和专业人士在R环境中对大型数据集进行计算密集型的分析和建模。
在本章的第一部分中,我们解释了如何从多种开放的数据源直接访问数据。R提供了多种工具和选项将数据载入到R环境中,还不需要任何预先的数据管理要求。这个部分会通过实用案例指导你如何使用Quandl和quantmod包访问数据。这里给出的案例对于本书其他各章也有相当参考价值。在本章的后半部分中,我们会强调R处理大数据的局限性,并通过实例说明如何借助bigmemory包和ff包把大规模数据载入R中。我们还会演示如何对大数据执行基本的统计分析,如K-均值聚类和线性回归。
4.1 由开放资源获取数据
从开放资源获取金融时间序列或横截面数据是任何学术研究的挑战之一。几年前还很难获得用于金融分析的公共数据,但最近几年可以获得的开放访问数据库越来越多,这为任何领域的数量分析师提供了巨大机会。
在这一节中,我们会介绍Quandl和quantmod包,这是两种特定的工具,可以在R环境中无缝访问和载入金融数据。我们将通过两个例子,向你展示这些工具如何帮助金融分析师直接从数据资源整合数据而无需任何提前数据管理。
Quandl是一个金融时间序列的开源网站,索引了来自500个数据源的数以百万计的金融、经济和社会数据集。Quandl包可以利用Quandl API直接和网站互动,提供了多种格式的数据,可在R中使用。除了下载数据,用户也可以上传并编辑他们自己的数据,也可以直接用R.upload搜寻任何数据资源,搜索任何数据。 ...
Get 精通R语言 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.