Skip to Content
数据驱动力:企业数据分析实战
book

数据驱动力:企业数据分析实战

by Carl Anderson
April 2021
Intermediate to advanced
210 pages
6h 3m
Chinese
Posts & Telecom Press
Content preview from 数据驱动力:企业数据分析实战
关于数据不合理的有效性:为什么数据越多越好
187
员获得软件相关职称的概率与毕业月数之间的关联性。从数据中可以看出,
Sr Software
Engineer
和“
Senior Software Engineer
”(均指“高级软件工程师”)的分布几乎相同,就
像“
C
TO
”和“
Chief Technology Officer
”(均指“首席技术官”)那样。正如我们所料,因
为它们都是同义词。这个结果带来了一个有趣的辨别同义词的方式,从而能够对数据去
重,让我们无须维护一个包含同义词和缩写的庞大的总清单。这种方法只有在数据量足够
让我们获得可靠且可能接近真实的总体分布时才能奏效。
职位头衔的概率
毕业月数
[绿色] &
[蓝色] &
E
[红色]
[紫色]
A-4LinkedIn 会员获得软件相关职称的概率与毕业月数之间的关联性
(图像来自
Peter Skomoroch
,转载已获许可。)
A.4
 多变量问题
第四类问题是广义的
多变量
问题或
相关
问题,也就是让我们判断变量关系的问题,比如判
y
=
f
(
x
)
关系,或估计许多变量的联合概率密度函数。我们可以用以上方法来进行词
义消歧(比如,文章里的“
pike
”是指梭子鱼
,还是指矛?)或建立实体的相关特征或概
念的档案(比如,一家公司有一个相关的首席执行官、总公司、税号等)。这里我们感兴
趣的是单词或短语的相关关系。问题是,
We
b
文档的维度非常高,而处理这种高维问题会
让我们陷入“维数灾难”,即数据点会变得非常稀疏。因此,更大样本会增加整个状态空
间的数据密度。重申一次,有了更大的样本 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Java数据科学实战

Java数据科学实战

Michael R. Brzustowicz, PhD
精通模块化JavaScript

精通模块化JavaScript

Nicolás Bevacqua

Publisher Resources

ISBN: 9787115560179