第5章 在Anaconda中统计建模
在本章中,我们首先介绍最简单的统计模型:单因子线性模型(the one-factor linear model)。为了使学习过程更加有趣,我们将讨论该模型的一个应用:著名的金融模型资本资产定价模型(Capital Asset Pricing Model,CAPM)。在处理数据方面,我们将展示如何检测和去除缺失值,以及如何在R、Python或Julia中用平均值或其他值来替换缺失值。同时,由于异常值会使统计结果失真,因此我们需要知道如何检测和处理它们。然后,我们会讨论多因素线性模型(multi-factor linear models)。同样的,为了使讨论更有意义,我们将讨论著名的Fama-French 3因子和5因子线性模型,以及Fama-French-Carhart 4因子线性模型。接着,我们将讨论如何对这些模型进行排名,即如何衡量不同模型的性能。在本章中,我们将讨论以下主题:
- 线性模型简介
- 在R、Python、Julia和Octave中运行线性回归
- 临界值和决策规则
- F检验(F-test)、临界值和决策规则
- 处理缺失数据
- 检测及处理异常值
- 几个多元线性模型
- 共线性及其解决方案
- 模型的性能测量
5.1 线性模型简介
单因子线性模型是展示y和x两个变量之间关系的最简单方式。换句话说,我们试图用x来解释y。单因子线性模型的一般形式如下所示,其中yt是时刻t的因变量,是截距,是斜率,xt是独立变量在时刻t上的值,是一个随机项:
(1)
为了进行行线性回归,我们打算估计截距( ...
Get Anaconda数据科学实战 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.