第 1 章 培训数据简介 训练数据简介
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
数据就在我们身边--视频、图像、文本、文档以及地理空间、多维数据等等。然而,这些原始数据对于有监督的机器学习(ML)和人工智能(AI),用处不大。我们该如何利用这些数据?如何记录我们的智能,以便通过 ML 和 AI 复制?答案就是训练数据的艺术--一门让原始数据变得有用的学问。
在本书中,你将学习到
-
全新的训练数据(人工智能数据)概念
-
训练数据的日常实践
-
如何提高训练数据的效率
-
如何改造您的团队,使其更加以 AI/ML 为中心
-
真实案例研究
在介绍其中一些概念之前,我们首先要了解其基础,本章将对此进行解读。
训练数据就是将原始数据塑造、改造、成型并消化成新的形式:从原始数据中创造新的意义,从而解决问题。这些创造和破坏行为是学科专业知识、业务需求、和技术要求的交叉点。这是一系列跨越多个领域的活动。
这些活动的核心是注释。注释可生成结构化数据,,供机器学习模型使用。如果没有注释,原始数据就会被认为是非结构化的,通常价值较低,而且往往不能用于监督学习。这就是现代机器学习用例(包括计算机视觉、自然语言处理和语音识别)需要训练数据的原因。
为了举例说明这一观点,让我们来详细考虑注释问题。当我们注释数据时,我们正在捕捉人类的知识。通常情况下,这一过程如下:图像、文本、视频、三维设计或音频等媒体与一组预定义选项(标签)一起呈现。人工审核媒体并确定最合适的答案,例如,宣布图像的某个区域为 "好 "或 "坏"。这种标签提供了应用机器学习概念所需的上下文(图 1-1)。
但我们是如何做到这一点的呢?我们是如何做到在正确的时间向正确的人展示正确的媒体元素和正确的预定义选项集的?在注释或知识捕获实际发生之前和之后有许多概念。总的来说,所有这些概念都是训练数据的艺术。
图 1-1. 训练数据流程
在本章中,我们将介绍什么是训练数据、为什么它很重要,并深入探讨许多关键概念,这些概念将构成本书其余部分的基础。
训练数据的目的
在不同的使用案例、问题和场景中,训练数据的目的各不相同。让我们来探讨一些最常见的问题,如使用训练数据能做什么?它最关心的是什么?人们使用训练数据的目的是什么?
利用训练数据能做什么?
训练数据是人工智能/人工智能系统的基础--是这些系统运行的支撑。
有了训练数据,您就可以构建和维护现代 ML 系统,例如创建下一代自动化、改进现有产品甚至创建全新产品的系统。
为了发挥最大作用,原始数据需要以 ML 程序可使用的方式进行升级和结构化。有了训练数据,您就可以创建和维护所需的新数据和结构(如注释和模式),使原始数据变得有用。通过这一创建和维护过程,您将获得优秀的训练数据,并朝着优秀的整体解决方案迈进。
在实践中,常见的用例都围绕着几个关键需求:
-
改进现有产品(如性能),即使 ML 目前不是其一部分
-
生产新产品,包括以有限或 "一次性 "方式运行的系统
-
研究与开发
训练数据超越了 ML 程序的所有部分:
-
训练模型?这需要训练数据。
-
想要提高性能?需要更高质量、不同或更大量的训练数据。
-
做出预测?这就是刚刚生成的未来训练数据。
在运行 ML 程序之前就需要训练数据;在运行过程中,训练数据会在输出和结果方面出现,甚至在之后的分析和维护中也会出现。此外,训练数据往往会长期存在。例如,在模型启动并运行后,维护训练数据是维护模型的重要部分。在研究环境中,单个训练数据集可能是不变的(如 ...