
236
|
第
7
章
虚线表示了两个主成分的方向:第一个主成分沿着椭圆的长轴方向,第二个主成分则沿着
短轴方向。可以看出,在两支股票的收益中,第一个主成分解释了大部分变动。这是非常
合理的,因为能源股票价格往往是同时发生变化的。
第一个主成分的权重都是负数,不过将所有权重的符号都变成正的也不会改
变主成分。例如,在第一个主成分中使用
0.747
和
0.665
的权重与使用负权
重是完全一样的,就像一条由原点和
(1, 1)
所定义的无限长直线与由原点和
(–1, –1)
所定义的直线是同一条直线一样。
7.1.2
计算主成分
从两个变量扩展到多个变量非常容易。对于第一个主成分,只需在线性组合中包含另外的
预测变量,并赋予权重,使得第一个主成分中所有预测变量的协方差集合达到最优(
协方
差
是一个统计学术语,参见
5.2.1
节)
。主成分的计算是一种经典的统计学方法,可以基于
数据的相关矩阵,也可以基于协方差矩阵。这种方法的执行速度非常快,并不依赖于迭
代。正如前面提到的,主成分分析只对数值变量有效,它不适用于分类变量。
PCA
的完整
计算过程描述如下。
1.
在创建第一个主成分时
,
PCA
会找出对全部方差的解释比例达到最大的预测变量的线
性组合。
2.
然后,将这个线性组合作为第一个“新”预测变量
Z
1
。
3. PCA
重复这个过程
,使用带有不同权重的同一变量创建第二个新预测变量
Z
2
。加权过
程应该使
Z
1
和
Z
2
不相关。
4.
继续重复这个过程,直到新变量(或成分)
Z
i
的个数与初始变量
X
i
一样多。
5.
选择保留解释大多数方差所需的成分。
6.
至此 ...