第 4 章 获取初始数据集 获取初始数据集
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
一旦 您制定了解决产品需求的计划,并构建了初步原型以验证您建议的工作流程和模型是合理的,那么现在就是深入研究您的数据集的时候了。我们将利用所发现的信息为建模决策提供依据。通常情况下,充分了解您的数据会带来最大的性能改进。
在本章中,我们将首先探讨有效判断数据集质量的方法。然后,我们将介绍将数据矢量化的方法,以及如何使用上述矢量化表示法更高效地标注和检测数据集。最后,我们将介绍这种检测应如何指导特征生成策略。
让我们从发现数据集和判断其质量开始。
迭代数据集
构建 ML 产品的最快方法是快速构建、评估和迭代模型。数据集本身就是模型成功的核心部分。这就是为什么数据收集、准备和标记应被视为一个迭代过程,就像建模一样。从您可以立即收集到的简单数据集开始,根据您所学到的知识不断改进数据集。
这种迭代数据的方法一开始可能会让人感到困惑。在 ML 研究中,通常是在标准数据集上报告性能,这些数据集被社区用作基准,因此是不可改变的。在传统的软件工程中,我们为程序编写确定性规则,因此我们将数据视为需要接收、处理和存储的东西。
ML 工程将工程和 ML 结合起来,以打造产品。因此,我们的数据集只是让我们能够构建产品的另一种工具。在 ML 工程中,选择初始数据集、定期更新数据集和扩充数据集往往是大部分工作。图 4-1 举例说明了科研与工业之间工作流程的这种差异。
图 4-1. 数据集在研究中是固定的,但在工业中却是产品的一部分
将数据视为产品的一部分,您可以(也应该)对其进行迭代、更改和改进,这对于行业新人来说往往是一个巨大的模式转变。不过,一旦你习惯了它,数据就会成为你开发新模型的最佳灵感来源,也会成为你在出现问题时寻找答案的第一站。
数据科学
我在 上看到,数据集的策划过程成为构建 ML 产品的主要障碍,次数多得数不清。部分原因是有关该主题的教育相对缺乏(大多数在线课程提供数据集,重点放在模型上),这导致许多从业者对这部分工作产生恐惧。
在玩有趣的模型之前,人们很容易认为处理数据是一件苦差事,但模型只是从现有数据中提取趋势和模式的一种方法。因此,确保我们使用的数据所展示的模式对模型具有足够的预测性(并检查其中是否包含明显的偏差),是数据科学家工作的基本组成部分(事实上,您可能已经注意到,这个角色的名称并不是模型科学家)。
本章将重点介绍这一过程,从收集初始数据集到检查和验证其对 ML 的适用性。让我们从高效探索数据集开始,判断其质量。
探索第一个数据集
那么 ,我们该如何去探索一个初始数据集呢?第一步当然是收集数据集。这是我看到实践者在寻找完美数据集时最常陷入困境的地方。请记住,我们的目标是获得一个简单的数据集来提取初步结果。就像在 ML 中做其他事情一样,先从简单的开始,然后再不断积累。
提高效率,从小事做起
对于大多数 ML 问题来说,更多的数据可以带来更好的模型,但这并不意味着您应该从尽可能大的数据集开始。在开始一个项目时,小数据集可以让您轻松检查和理解您的数据,以及如何更好地对其建模。您的目标应该是建立一个易于使用的初始数据集。只有在确定了策略后,才有必要扩大数据集的规模。
如果你所在的公司在集群中存储了数 ...