book

机器学习的训练数据

by Anthony Sarkis

July 2025

Beginner to intermediate

332 pages

3h 32m

Chinese

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

谁应该阅读本书？面向专业技术人员和工程师经理和总监主题专家和数据注释专家数据科学家我为什么写这本书本书的编排主题基础知识和入门概念和理论综合运用本书使用的约定O'Reilly 在线学习如何联系我们致谢
培训数据意图您能用训练数据做什么？训练数据最关心什么？培训数据机会业务转型培训数据效率工具熟练程度流程改进机会培训数据为何重要ML 应用正成为主流成功人工智能的基础训练数据将继续存在训练数据控制着 ML 程序新型用户野外训练数据是什么让训练数据变得困难？监督机器的艺术数据科学的新事物ML 程序生态系统以数据为中心的机器学习失败发展历史也会影响培训数据培训数据不是什么生成式人工智能人的调整就是人的监督概述
导言启动和运行安装任务设置注释器设置数据设置工作流程设置数据目录设置初始使用优化工具概述机器学习训练数据不断增加的工具选择人员、流程和数据嵌入式监督人机监督最终关注点的分离标准多种角色交付机器学习软件的范例利弊权衡成本安装与软件即服务开发系统规模安装选项注释接口建模集成多用户与单用户系统集成范围隐藏假设安全性开放源代码与封闭源代码历史开源标准认识到专用工具的必要性摘要
模式深入介绍标签和属性--它是什么？我们关心什么？标签简介属性介绍属性复杂性超过空间复杂性技术概述空间表示-在哪里？使用空间类型防止社会偏见类型的利弊权衡计算机视觉空间类型示例关系、序列、时间序列：何时？序列和关系何时指南和说明判断机器学习任务与训练数据的关系语义分割图像分类（标签）物体检测姿态估计任务与训练数据类型的关系一般概念实例概念复习随时间升级数据建模与训练数据之间的界限原始数据概念摘要
简介谁想要数据？电话游戏规划一个伟大的系统以训练数据为中心的方法原始数据存储参考或价值在自己的硬件上使用现成的专用培训数据工具数据存储：数据存储在哪里？外部参考连接原始介质（BLOB）--特定类型格式化和映射用户定义类型（复合文件）定义数据映射摄取向导组织数据和实用存储远程存储版本控制数据访问区分存储、摄取、导出和访问基于文件的导出数据流查询简介与生态系统集成安全性访问控制身份和授权设置权限示例签名 URL个人身份信息预标签更新数据摘要
简介技术与人之间的粘合剂为什么需要人工任务？以新的方式与非软件用户合作人类任务入门基础知识模式的持久力用户角色培训黄金标准培训任务分配概念需要定制界面吗？一般注释者需要使用多长时间？任务和项目结构质量保证注释者信任注释器是合作伙伴训练数据错误的常见原因任务审查循环分析注释指标示例数据探索模型使用模型调试人类数据集、模型和模型运行之间的区别将数据导入模型数据流数据流概述数据组织管道和流程直接注释业务流程集成属性标签深度监督现有数据交互式自动化示例：语义分割语义分割自动边界划分视频摘要
简介理论系统的实用性取决于其模式谁来监督数据很重要有意选择的数据是最好的使用历史数据训练数据就像代码围绕训练数据使用的表面假设人工监督不同于传统数据集一般概念数据相关性需要定性和定量评估迭代器优先级：标记什么迁移学习与数据集的关系（微调）每个样本的判断伦理与隐私考虑偏见偏见难以避免元数据防止丢失元数据培训/评价/测试是最重要的一环创建样本草莓采摘系统的简单模式几何表示法二进制分类手动创建第一个数据集升级分类红绿灯在哪里？维护行动净提升训练数据操作的系统成熟度水平应用集与研究集训练数据管理质量已完成任务新鲜度维护数据集元数据任务管理摘要
简介人工智能转型将日常工作视为注释以数据为中心的人工智能创意革命您可以创建新数据您可以改变收集的数据您可以改变数据的意义您可以创造！思考重大项目的步骤功能改进建立人工智能数据，确保人工智能的现在和未来任命一位领导者：人工智能数据总监人们对人工智能未来的新期望有时是建议和修正，有时是替换上游生产者和下游消费者训练数据的范围团队参与专职制作人和其他团队组织其他团队的制作者用例发现优秀用例评分标准根据评分标准评估用例使用案例的概念效果新的 "众包"：您自己的专家培训数据投资回报率的关键杠杆注释数据代表什么控制自己的培训数据的利弊权衡硬件需求常见的项目错误现代培训数据工具考虑学习曲线，而非完美需要新的培训和知识公司如何生产和消费数据应避免的陷阱：过早优化培训数据没有银弹培训数据文化新工程原则摘要
简介入门动机：何时使用这些方法？检查某种方法是针对模式的哪一部分设计的人们实际使用什么方法？我可以期待什么样的结果？常见困惑用户界面优化风险权衡利弊自动化的性质设置成本如何做好基准测试如何根据问题确定自动化范围纠正时间主题专家考虑如何堆叠自动化预标记标准预标记仅对部分数据进行预标记交互式注释自动化创建自己的技术设置说明什么是观察者？如何使用观察者交互式捕捉感兴趣的区域使用 GrabCut 交互式绘制方框到多边形全图模型预测示例示例：不同属性的人物检测质量保证自动化使用模型调试人类自动检查表示例特定领域的合理性检查数据发现：标注什么人类探索原始数据探索元数据探索添加基于预标记的元数据增强更好的模型胜过更好的增强增强还是不增强模拟和合成数据模拟仍需人工审核特定媒体哪些方法适用于哪些媒体？考虑因素特定媒体研究特定领域基于几何图形的标签启发式标签摘要
简介行业一家安全初创公司采用培训数据工具大型自动驾驶项目的质量保证大科技挑战保险科技初创公司的经验教训故事培训数据的学术方法Kaggle TSA 竞赛摘要

Content preview from 机器学习的训练数据

第 4 章数据工程数据工程

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

简介

在前几章中，我们向你介绍了抽象概念。现在，我们将从技术介绍出发，讨论实施细节和更多主观选择。我将向你展示我们如何在实践中运用训练数据的艺术，同时介绍如何扩展到更大的项目并优化性能。

数据摄取是第一步，也是最重要的一步。数据摄取的第一步是建立和使用训练数据记录系统（SoR）。SoR的一个例子就是培训数据数据库。

为什么数据摄取很难？原因很多。例如，训练数据是一个相对较新的概念，存在各种格式和通信挑战。数据的数量、种类和速度各不相同，而且缺乏行之有效的规范，因此有很多方法。

此外，还有很多概念，比如使用训练数据数据库，以及谁想在什么时候访问什么；即使是经验丰富的工程师也未必清楚。输入决策最终会决定查询、访问和导出方面的考虑因素。

本章内容包括

谁想使用数据以及何时使用数据
为什么数据格式和通信方法很重要；想想 "电话游戏"
将培训数据数据库作为记录系统的介绍
入门的技术基础
存储、特定媒体需求和版本管理
格式化和映射数据的商业考虑
数据访问、安全性和预标签数据

要实现数据驱动或以数据为中心的方法，需要工具、迭代和数据。迭代器越多，数据越多，就越需要伟大的组织来处理。

您可以按照这个顺序摄取数据、探索数据和注释数据。也可能从摄取直接到调试模型。在流式训练之后，您可能会摄取新的预测，然后调试这些预测，然后使用注释工作流。你越能依靠数据库完成繁重的工作，你自己需要做的事情就越少。

谁需要数据？

在深入探讨挑战和技术细节之前，我们先来了解一下目标和相关人员，并讨论数据工程如何为这些最终用户和系统提供服务。之后，我将从概念上阐述建立训练数据数据库的原因。我将通过展示没有训练数据的默认情况和有了训练数据的默认情况来说明对训练数据的需求。

为了便于讨论，我们可以将其分为几组：

标注者
数据科学家
ML 程序（机器对机器）
应用工程师
其他利益相关者

注释器

注释者需要在正确的时间获得正确的数据和正确的权限。这通常是在单个文件级别完成的，并由范围非常明确的请求驱动。权限和授权是重点。此外，还需要在适当的时间交付数据，但什么是 "适当的时间 "呢？一般来说，就是按需或在线访问。这是指通过任务系统等软件流程识别文件，并在快速响应时间内提供服务。

数据科学家

数据科学通常在数据集层面上研究数据。他们更重视查询能力、处理大量数据的能力以及格式化能力。理想情况下，数据科学家还能深入研究特定样本，并对不同方法的结果进行定量和定性比较。

ML 程序

ML 程序的发展路径与数据科学类似。不同之处包括权限方案（通常程序比单个数据科学家有更多的访问权限），以及浮出水面的内容和时间的清晰度（通常更注重整合和流程，而不是按需分析）。通常，ML 程序可以采用软件定义的集成或自动化。

应用工程师

应用工程师关注的是：如何将数据从应用中获取到训练数据数据库，以及如何将注释和监督嵌入到终端用户中。每秒查询次数（吞吐量）和数据量往往是他们最关心的问题。有时会有一种错误的假设，即从 "摄取 "团队或应用程序到数据科学家之间存在线性数据流。

其他利益相关者

对培训数据感兴趣的其他利益相关者可能是安全人员、DevMLOps 专业人员、备份系统工程师等。这些群体通常具有跨领域的关注点，并与其他用户和系统的需求交叉。例如，前面已经提到，安全人员关心最终用户的权限。安全人员还担心单个数据科学家不会成为关键故障的单点，例如，在他们的机器上拥有整个数据集或对远程数据集的访问权限过大。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Publisher Resources

ISBN: 9798341662995

机器学习的训练数据

by Anthony Sarkis

第 4 章数据工程数据工程

简介

谁需要数据？