book

机器学习的训练数据

by Anthony Sarkis

July 2025

Beginner to intermediate

332 pages

3h 32m

Chinese

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

谁应该阅读本书？面向专业技术人员和工程师经理和总监主题专家和数据注释专家数据科学家我为什么写这本书本书的编排主题基础知识和入门概念和理论综合运用本书使用的约定O'Reilly 在线学习如何联系我们致谢
培训数据意图您能用训练数据做什么？训练数据最关心什么？培训数据机会业务转型培训数据效率工具熟练程度流程改进机会培训数据为何重要ML 应用正成为主流成功人工智能的基础训练数据将继续存在训练数据控制着 ML 程序新型用户野外训练数据是什么让训练数据变得困难？监督机器的艺术数据科学的新事物ML 程序生态系统以数据为中心的机器学习失败发展历史也会影响培训数据培训数据不是什么生成式人工智能人的调整就是人的监督概述
导言启动和运行安装任务设置注释器设置数据设置工作流程设置数据目录设置初始使用优化工具概述机器学习训练数据不断增加的工具选择人员、流程和数据嵌入式监督人机监督最终关注点的分离标准多种角色交付机器学习软件的范例利弊权衡成本安装与软件即服务开发系统规模安装选项注释接口建模集成多用户与单用户系统集成范围隐藏假设安全性开放源代码与封闭源代码历史开源标准认识到专用工具的必要性摘要
模式深入介绍标签和属性--它是什么？我们关心什么？标签简介属性介绍属性复杂性超过空间复杂性技术概述空间表示-在哪里？使用空间类型防止社会偏见类型的利弊权衡计算机视觉空间类型示例关系、序列、时间序列：何时？序列和关系何时指南和说明判断机器学习任务与训练数据的关系语义分割图像分类（标签）物体检测姿态估计任务与训练数据类型的关系一般概念实例概念复习随时间升级数据建模与训练数据之间的界限原始数据概念摘要
简介谁想要数据？电话游戏规划一个伟大的系统以训练数据为中心的方法原始数据存储参考或价值在自己的硬件上使用现成的专用培训数据工具数据存储：数据存储在哪里？外部参考连接原始介质（BLOB）--特定类型格式化和映射用户定义类型（复合文件）定义数据映射摄取向导组织数据和实用存储远程存储版本控制数据访问区分存储、摄取、导出和访问基于文件的导出数据流查询简介与生态系统集成安全性访问控制身份和授权设置权限示例签名 URL个人身份信息预标签更新数据摘要
简介技术与人之间的粘合剂为什么需要人工任务？以新的方式与非软件用户合作人类任务入门基础知识模式的持久力用户角色培训黄金标准培训任务分配概念需要定制界面吗？一般注释者需要使用多长时间？任务和项目结构质量保证注释者信任注释器是合作伙伴训练数据错误的常见原因任务审查循环分析注释指标示例数据探索模型使用模型调试人类数据集、模型和模型运行之间的区别将数据导入模型数据流数据流概述数据组织管道和流程直接注释业务流程集成属性标签深度监督现有数据交互式自动化示例：语义分割语义分割自动边界划分视频摘要
简介理论系统的实用性取决于其模式谁来监督数据很重要有意选择的数据是最好的使用历史数据训练数据就像代码围绕训练数据使用的表面假设人工监督不同于传统数据集一般概念数据相关性需要定性和定量评估迭代器优先级：标记什么迁移学习与数据集的关系（微调）每个样本的判断伦理与隐私考虑偏见偏见难以避免元数据防止丢失元数据培训/评价/测试是最重要的一环创建样本草莓采摘系统的简单模式几何表示法二进制分类手动创建第一个数据集升级分类红绿灯在哪里？维护行动净提升训练数据操作的系统成熟度水平应用集与研究集训练数据管理质量已完成任务新鲜度维护数据集元数据任务管理摘要
简介人工智能转型将日常工作视为注释以数据为中心的人工智能创意革命您可以创建新数据您可以改变收集的数据您可以改变数据的意义您可以创造！思考重大项目的步骤功能改进建立人工智能数据，确保人工智能的现在和未来任命一位领导者：人工智能数据总监人们对人工智能未来的新期望有时是建议和修正，有时是替换上游生产者和下游消费者训练数据的范围团队参与专职制作人和其他团队组织其他团队的制作者用例发现优秀用例评分标准根据评分标准评估用例使用案例的概念效果新的 "众包"：您自己的专家培训数据投资回报率的关键杠杆注释数据代表什么控制自己的培训数据的利弊权衡硬件需求常见的项目错误现代培训数据工具考虑学习曲线，而非完美需要新的培训和知识公司如何生产和消费数据应避免的陷阱：过早优化培训数据没有银弹培训数据文化新工程原则摘要
简介入门动机：何时使用这些方法？检查某种方法是针对模式的哪一部分设计的人们实际使用什么方法？我可以期待什么样的结果？常见困惑用户界面优化风险权衡利弊自动化的性质设置成本如何做好基准测试如何根据问题确定自动化范围纠正时间主题专家考虑如何堆叠自动化预标记标准预标记仅对部分数据进行预标记交互式注释自动化创建自己的技术设置说明什么是观察者？如何使用观察者交互式捕捉感兴趣的区域使用 GrabCut 交互式绘制方框到多边形全图模型预测示例示例：不同属性的人物检测质量保证自动化使用模型调试人类自动检查表示例特定领域的合理性检查数据发现：标注什么人类探索原始数据探索元数据探索添加基于预标记的元数据增强更好的模型胜过更好的增强增强还是不增强模拟和合成数据模拟仍需人工审核特定媒体哪些方法适用于哪些媒体？考虑因素特定媒体研究特定领域基于几何图形的标签启发式标签摘要
简介行业一家安全初创公司采用培训数据工具大型自动驾驶项目的质量保证大科技挑战保险科技初创公司的经验教训故事培训数据的学术方法Kaggle TSA 竞赛摘要

Content preview from 机器学习的训练数据

第 1 章培训数据简介训练数据简介

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

数据就在我们身边--视频、图像、文本、文档以及地理空间、多维数据等等。然而，这些原始数据对于有监督的机器学习（ML）和人工智能（AI），用处不大。我们该如何利用这些数据？如何记录我们的智能，以便通过 ML 和 AI 复制？答案就是训练数据的艺术--一门让原始数据变得有用的学问。

在本书中，你将学习到

全新的训练数据（人工智能数据）概念
训练数据的日常实践
如何提高训练数据的效率
如何改造您的团队，使其更加以 AI/ML 为中心
真实案例研究

在介绍其中一些概念之前，我们首先要了解其基础，本章将对此进行解读。

训练数据就是将原始数据塑造、改造、成型并消化成新的形式：从原始数据中创造新的意义，从而解决问题。这些创造和破坏行为是学科专业知识、业务需求、和技术要求的交叉点。这是一系列跨越多个领域的活动。

这些活动的核心是注释。注释可生成结构化数据，，供机器学习模型使用。如果没有注释，原始数据就会被认为是非结构化的，通常价值较低，而且往往不能用于监督学习。这就是现代机器学习用例（包括计算机视觉、自然语言处理和语音识别）需要训练数据的原因。

为了举例说明这一观点，让我们来详细考虑注释问题。当我们注释数据时，我们正在捕捉人类的知识。通常情况下，这一过程如下：图像、文本、视频、三维设计或音频等媒体与一组预定义选项（标签）一起呈现。人工审核媒体并确定最合适的答案，例如，宣布图像的某个区域为 "好 "或 "坏"。这种标签提供了应用机器学习概念所需的上下文（图 1-1）。

但我们是如何做到这一点的呢？我们是如何做到在正确的时间向正确的人展示正确的媒体元素和正确的预定义选项集的？在注释或知识捕获实际发生之前和之后有许多概念。总的来说，所有这些概念都是训练数据的艺术。

在本章中，我们将介绍什么是训练数据、为什么它很重要，并深入探讨许多关键概念，这些概念将构成本书其余部分的基础。

训练数据的目的

在不同的使用案例、问题和场景中，训练数据的目的各不相同。让我们来探讨一些最常见的问题，如使用训练数据能做什么？它最关心的是什么？人们使用训练数据的目的是什么？

利用训练数据能做什么？

训练数据是人工智能/人工智能系统的基础--是这些系统运行的支撑。

有了训练数据，您就可以构建和维护现代 ML 系统，例如创建下一代自动化、改进现有产品甚至创建全新产品的系统。

为了发挥最大作用，原始数据需要以 ML 程序可使用的方式进行升级和结构化。有了训练数据，您就可以创建和维护所需的新数据和结构（如注释和模式），使原始数据变得有用。通过这一创建和维护过程，您将获得优秀的训练数据，并朝着优秀的整体解决方案迈进。

在实践中，常见的用例都围绕着几个关键需求：

改进现有产品（如性能），即使 ML 目前不是其一部分
生产新产品，包括以有限或 "一次性 "方式运行的系统
研究与开发

训练数据超越了 ML 程序的所有部分：

训练模型？这需要训练数据。
想要提高性能？需要更高质量、不同或更大量的训练数据。
做出预测？这就是刚刚生成的未来训练数据。

在运行 ML 程序之前就需要训练数据；在运行过程中，训练数据会在输出和结果方面出现，甚至在之后的分析和维护中也会出现。此外，训练数据往往会长期存在。例如，在模型启动并运行后，维护训练数据是维护模型的重要部分。在研究环境中，单个训练数据集可能是不变的（如 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Publisher Resources

ISBN: 9798341662995

机器学习的训练数据

by Anthony Sarkis

第 1 章培训数据简介训练数据简介

图 1-1. 训练数据流程

训练数据的目的

利用训练数据能做什么？

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

雷达趋势观察：2025年7月

Python设计模式（第2版）

Python贝叶斯分析（第2版）

软件工程基础

Publisher Resources

第 1 章 培训数据简介 训练数据简介

图 1-1. 训练数据流程

训练数据的目的

利用训练数据能做什么？

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

雷达趋势观察：2025年7月

Python设计模式（第2版）

Python贝叶斯分析（第2版）

软件工程基础

Publisher Resources

第 1 章培训数据简介训练数据简介

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.