第4章 股市数据建模
本章包含以下主要内容。
- 获取股市数据。
- 描述数据。
- 清洗并探索性地分析数据。
- 生成相对估值。
- 筛选股票并分析历史价格。
4.1 简介
本章将引导你参与一个财务分析项目,通过分析股票市场数据,判断股市是被高估还是被低估了,从而识别出有效投资的目标股票列表,并对目标股票的历史价格进行可视化分析。
我们必须指出,本章的目标不是让你成为股市分析方面的专家,或者帮你致富。华尔街量化投资分析师研究的模型,明显比我们在这里接触到的更为复杂。很多书整本都在讲解股市模型和金融工程,而我们只有一章来阐述这个问题。因此,受时间和形式所限,本章主要目标如下。
- 对我们将要分析的数据有一个基本了解。
- 找到有效地对这些数据进行分析和建模的方法。
- 如何利用数据科学工具和方法对这些数据进行分析。
本章用到的数据来源于finviz网站,而股票历史价格数据则通过Yahoo财经日报获得。
与前几章类似,本项目也采用R统计语言作为分析工具。可能你已经注意到,R有很多功能强大的程序包可以帮助我们完成分析任务;本章将充分利用其中的部分程序包。此外,本章中依然遵循数据科学管道流程,但会因为处理不同的数据类型和任务类型而进行适当调整。
准备工作
为了完成本章的数据科学项目,你需要一台可以访问互联网的电脑,并且这台电脑上应安装了R语言和以下包:
install.packages("XML")
install.packages("ggplot2")
install.packages("plyr")
install.packages("reshape2")
install.packages("zoo")
library(XML)
library(ggplot2 ,quietly=TRUE)
library(plyr ...
Get 数据科学实战手册(R+Python)(第2版) now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.