Skip to Main Content
数据科学中的实用统计学(第2版)
book

数据科学中的实用统计学(第2版)

by Peter Bruce, Andrew Bruce, Peter Gedeck
October 2021
Intermediate to advanced content levelIntermediate to advanced
289 pages
8h 31m
Chinese
Posts & Telecom Press
Content preview from 数据科学中的实用统计学(第2版)
254
7
(
p
×
(
p
–1))/2
个协方差项。协方差矩阵中一共有
(
p
×
(
p
–1))/2 +
p
个参数。多元正态分布表
示如下:
12
( , , , )~ ( , )
pp
XX X N
µ
这就是所有变量都服从正态分布的符号表示方法。总体分布由变量均值向量与协方差矩阵
描述。
7-10
给出了两个变量
X
Y
的多元正态分布的概率等高线(例如,
0.5
的等高线中包含
50%
的数据分布)
7-10:二维正态分布的概率等高线
均值为
μ
x
=
0.5
μ
y
=
–0.5
,协方差矩阵为:
11
=
12



因为协方差
σ
xy
为正,所以
X
Y
是正相关的。
7.4.2
 混合正态分布
基于模型的聚类方法的关键思想是,假定每条记录都服从于
K
个多元正态分布中的一个分
无监督学习
255
布,其中
K
是簇的数量。每个分布都有一个不同的均值
μ
和协方差矩阵
Σ
。举例来说,如
果你有两个变量
X
Y
,那么每行记录
(
X
i
,
Y
i
)
都可以认为是从
K
个多元正态分布
N
(
μ
1
,
Σ
1
),
N
(
μ
2
,
Σ
2
),
,
N
(
μ
K
,
Σ
K
)
中的某个分布抽样得到的。
R
中有一个功能非常丰富的包,
可以执行基于模型的聚类,它称为
mclust
,最初是由
Chris
Fraley
Adrian Raftery
开发的
。我们在前面使用
K-
均值和层次聚类分析了股票收益数据, ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Pandas数据清洗与建模

Pandas数据清洗与建模

丹尼尔·陈
C++语言导学(原书第2版)

C++语言导学(原书第2版)

本贾尼 斯特劳斯特鲁普

Publisher Resources

ISBN: 9787115569028