Skip to Main Content
机器学习设计模式
book

机器学习设计模式

by Valliappa Lakshmanan, Sara Robinson, Michael Munn
September 2022
Beginner to intermediate content levelBeginner to intermediate
386 pages
7h 36m
Chinese
Southeast University Press
Content preview from 机器学习设计模式
数据表示设计模式
35
Inverse Document Frequency
,词频-逆文档频率)(
https://oreil.ly/kNYHr
)。
TF-IDF
反映了一个单词对文档的唯一性。
如果数组是按特定方式排序的(例如,按时间顺序),则用最后三项表示输入数
组。短于
3
的数组将用缺失值填充。
通过大量统计数据表示数组,例如数组长度、模式(最常见的项)、中位数、第
10
个百分位数、第
20
个百分位数等。
其中,计数
/
相对频率是最为常见的惯用语。请注意,这两个都是一个独热编码的泛
化,如果婴儿没有哥哥姐姐,则表示为
[0,0,0]
;如果婴儿有一个自然出生的哥哥姐
姐,则表示为
[0,1,0]
在了解了简单的数据表示之后,让我们讨论有助于数据表示的设计模式。
设计模式
1
:哈希特征
哈希特征(
Hashed Feature
)设计模式解决了与分类特征相关的三个可能问题:词汇
表不完整、基数导致的模型大小和冷启动。它通过将分类特征进行分组并接受数据
表示中的冲突权衡来解决这些问题。
问题
对分类输入变量进行独热编码需要事先了解词汇表。如果输入变量类似于一本书所
用的语言或预测交通水平的星期几,这就不是问题。
如果所讨论的分类变量类似于婴儿出生地的医院
hospital_id
或接生者的
individual_id
呢?像这样的分类变量会带来一些问题:
了解词汇需要从训练数据中提取。由于随机采样,训练数据可能不包含所有可能
的医院或医生。这个词汇表可能不完整。
分类变量具有很高的基数。我们拥有长度从数千到数百万的特征向量,而不是具 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

PyTorch深度学习

PyTorch深度学习

Posts & Telecom Press, Vishnu Subramanian
数据科学原理

数据科学原理

Posts & Telecom Press, Sinan Ozdemir
Rust程序设计

Rust程序设计

Jim Blandy, Jason Orendorff, Leonora F. S. Tindall

Publisher Resources

ISBN: 9787564196776