
数据表示设计模式
|
35
Inverse Document Frequency
,词频-逆文档频率)(
https://oreil.ly/kNYHr
)。
TF-IDF
反映了一个单词对文档的唯一性。
•
如果数组是按特定方式排序的(例如,按时间顺序),则用最后三项表示输入数
组。短于
3
的数组将用缺失值填充。
•
通过大量统计数据表示数组,例如数组长度、模式(最常见的项)、中位数、第
10
个百分位数、第
20
个百分位数等。
其中,计数
/
相对频率是最为常见的惯用语。请注意,这两个都是一个独热编码的泛
化,如果婴儿没有哥哥姐姐,则表示为
[0,0,0]
;如果婴儿有一个自然出生的哥哥姐
姐,则表示为
[0,1,0]
。
在了解了简单的数据表示之后,让我们讨论有助于数据表示的设计模式。
设计模式
1
:哈希特征
哈希特征(
Hashed Feature
)设计模式解决了与分类特征相关的三个可能问题:词汇
表不完整、基数导致的模型大小和冷启动。它通过将分类特征进行分组并接受数据
表示中的冲突权衡来解决这些问题。
问题
对分类输入变量进行独热编码需要事先了解词汇表。如果输入变量类似于一本书所
用的语言或预测交通水平的星期几,这就不是问题。
如果所讨论的分类变量类似于婴儿出生地的医院
hospital_id
或接生者的
individual_id
呢?像这样的分类变量会带来一些问题:
•
了解词汇需要从训练数据中提取。由于随机采样,训练数据可能不包含所有可能
的医院或医生。这个词汇表可能不完整。
•
分类变量具有很高的基数。我们拥有长度从数千到数百万的特征向量,而不是具 ...