Skip to Main Content
数据科学中的实用统计学(第2版)
book

数据科学中的实用统计学(第2版)

by Peter Bruce, Andrew Bruce, Peter Gedeck
October 2021
Intermediate to advanced content levelIntermediate to advanced
289 pages
8h 31m
Chinese
Posts & Telecom Press
Content preview from 数据科学中的实用统计学(第2版)
236
7
虚线表示了两个主成分的方向:第一个主成分沿着椭圆的长轴方向,第二个主成分则沿着
短轴方向。可以看出,在两支股票的收益中,第一个主成分解释了大部分变动。这是非常
合理的,因为能源股票价格往往是同时发生变化的。
第一个主成分的权重都是负数,不过将所有权重的符号都变成正的也不会改
变主成分。例如,在第一个主成分中使用
0.747
0.665
的权重与使用负权
重是完全一样的,就像一条由原点和
(1, 1)
所定义的无限长直线与由原点和
(–1, –1)
所定义的直线是同一条直线一样。
7.1.2
 计算主成分
从两个变量扩展到多个变量非常容易。对于第一个主成分,只需在线性组合中包含另外的
预测变量,并赋予权重,使得第一个主成分中所有预测变量的协方差集合达到最优(
协方
是一个统计学术语,参见
5.2.1
节)
。主成分的计算是一种经典的统计学方法,可以基于
数据的相关矩阵,也可以基于协方差矩阵。这种方法的执行速度非常快,并不依赖于迭
代。正如前面提到的,主成分分析只对数值变量有效,它不适用于分类变量。
PCA
的完整
计算过程描述如下。
1.
在创建第一个主成分时
PCA
会找出对全部方差的解释比例达到最大的预测变量的线
性组合。
2.
然后,将这个线性组合作为第一个“新”预测变量
Z
1
3. PCA
重复这个过程
,使用带有不同权重的同一变量创建第二个新预测变量
Z
2
。加权过
程应该使
Z
1
Z
2
不相关。
4.
继续重复这个过程,直到新变量(或成分)
Z
i
的个数与初始变量
X
i
一样多。
5.
选择保留解释大多数方差所需的成分。
6.
至此 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Pandas数据清洗与建模

Pandas数据清洗与建模

丹尼尔·陈
C++语言导学(原书第2版)

C++语言导学(原书第2版)

本贾尼 斯特劳斯特鲁普

Publisher Resources

ISBN: 9787115569028