
数据表示设计模式
|
69
你给你不喜欢的东西打
1
星、
2
星还是
3
星,通常是与你的评论倾向有关,而不是评
论本身。尽管如此,在星级评级中保留更精细的粒度仍然很有用,这就是我们以两
种方式对其进行编码的原因。
此外,请考虑范围大于
1
到
5
的特征,例如评论者的家和餐馆之间的距离。如果有人
开车两个小时去餐馆,他们的评论可能比街对面的人更挑剔。在这种情况下,我们
可能会有离群值,因此将数字距离表示设置为
50
公里之类的阈值并包含单独的距离
分类表示都是有意义的。分类特征可以分为“州内”“国内”和“国外”。
文本的多模态表示
文本和图像都是非结构化的,比表格数据需要更多的转换。以各种格式表示它们可
以帮助我们的模型提取更多的模式。我们将在上一节中对文本模型的讨论的基础上,
研究表示文本数据的不同方法。然后,我们将介绍图像,并深入研究一些在
ML
模
型中表示图像数据的选项。
文本数据的多种表示方式。
鉴于文本数据的复杂性,有很多方法可以从中提取含义。
嵌入设计模式使模型能够将相似的词组合在一起,识别单词之间的关系,并理解文本
的句法成分。虽然通过单词嵌入表示文本最接近地反映了人类天生理解语言的方式,
但还有一些额外的文本表示方式可以最大限度地提高我们的模型执行给定预测任务的
能力。在本节中,我们将研究表示文本的词袋方法,以及从文本中提取表格特征。
为了演示文本数据表示,我们将引用一个数据集,它包含来自
Stack Overflow
注
11
的
数百万个问题和答案的文本,以及关于每个帖子的元数据。例如,以下查询将为我
们提供标记为“
keras ...