
关于数据不合理的有效性:为什么数据越多越好
|
187
员获得软件相关职称的概率与毕业月数之间的关联性。从数据中可以看出,
“
Sr Software
Engineer
”
和“
Senior Software Engineer
”(均指“高级软件工程师”)的分布几乎相同,就
像“
C
TO
”和“
Chief Technology Officer
”(均指“首席技术官”)那样。正如我们所料,因
为它们都是同义词。这个结果带来了一个有趣的辨别同义词的方式,从而能够对数据去
重,让我们无须维护一个包含同义词和缩写的庞大的总清单。这种方法只有在数据量足够
让我们获得可靠且可能接近真实的总体分布时才能奏效。
职位头衔的概率
毕业月数
[绿色] &
[蓝色] &
E
[红色]
[紫色]
图 A-4:LinkedIn 会员获得软件相关职称的概率与毕业月数之间的关联性
(图像来自
Peter Skomoroch
,转载已获许可。)
A.4
多变量问题
第四类问题是广义的
多变量
问题或
相关
问题,也就是让我们判断变量关系的问题,比如判
断
y
=
f
(
x
)
的
关系,或估计许多变量的联合概率密度函数。我们可以用以上方法来进行词
义消歧(比如,文章里的“
pike
”是指梭子鱼
,还是指矛?)或建立实体的相关特征或概
念的档案(比如,一家公司有一个相关的首席执行官、总公司、税号等)。这里我们感兴
趣的是单词或短语的相关关系。问题是,
We
b
文档的维度非常高,而处理这种高维问题会
让我们陷入“维数灾难”,即数据点会变得非常稀疏。因此,更大样本会增加整个状态空
间的数据密度。重申一次,有了更大的样本 ...