第 5 章 工作流程 工作流程
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
导言
训练数据是利用数据创造人类意义。人类自然是其中的重要组成部分。在本章中,我将介绍训练数据的人类工作流程的具体内容。
首先,我将简要介绍工作流程如何成为技术与人之间的粘合剂。我将从人类任务的动机开始,进而讨论工作流程的核心主题:
开始
质量保证
分析和数据探索
数据流
直接注释
在"人类任务入门 "中,我将介绍一些基础知识,如模式为何会持续存在、用户角色、培训等。其次最需要了解的是质量保证(QA)。我将重点关注事情的结构层面,思考信任人类注释者的重要动机、标准审查循环以及常见的错误原因。
在您开始并完成一些基本的质量保证工作后,您将希望开始学习如何分析您的任务、数据集等。本节将介绍如何使用模型来调试数据,以及如何使用模型。
数据流是工作流程的关键部分,它使数据移动并呈现在人类面前,然后再传送到模型。
最后,我将对本章进行总结,深入探讨直接标注本身。这将涵盖业务流程整合、监督现有数据、交互式自动化等高层次概念,以及视频标注的详细示例。
技术与人之间的粘合剂
在数据工程和人类任务本身之间,有一个概念我将在此称为工作流。
工作流程是发生在技术数据连接和相关人类任务之间的所有定义和 "粘合剂"。
例如,数据工程可能会将水桶连接到训练数据平台。但您如何决定何时将数据提取到任务中?任务完成后又该如何处理?在人类任务完成之前和之后,好的工作流会将数据和流程推向正确的方向。
执行这些管理决策所需的代码、粘合剂通常由临时笔记、一次性脚本以及其他相当脆弱的人工制品和流程组成。而越来越多的中间步骤,如运行隐私过滤器、预标签、路由或排序数据,以及与第三方业务逻辑集成,则使问题更加复杂。
相反,一个好的工作流一般会以以下特征为目标:
明确定义流程,尽可能多地浮现各阶段之间的粘合代码
明确包含人工任务
明确的时间协议:哪些是人工操作,哪些是自动操作,以及两者之间的所有操作
明确定义的导出步骤,包括使用哪些数据集或数据片段(如数据查询
明确列出所有第三方步骤和集成,如网络钩子、培训系统、预标签等
有明确的系统边界或 "离开 "点,例如在连接到大型协调系统或模型培训系统时
足够灵活,管理员只需极少的 IT 支持就能对其进行重大更改(例如,从工作流中如何使用数据连接中抽象出数据连接)。
您可以在培训数据平台中定义部分或全部这些步骤。在这种情况下,工作流的时间安排可能会有内置选项。例如,您可以设置工作流程中的每个步骤在子步骤完成时完成、在整个步骤完成时完成、在预定义的计划中完成或仅在手动触发时完成。
当然,这种工作流程的具体实施细节在很大程度上取决于你的具体组织和工具选择。由于这种胶水的性质,它几乎在每种情况下都会有所不同。有鉴于此,关键是要意识到这种粘合剂和工作流程的存在,而且工作流程的骨架可以直接放在训练数据系统中。
在本章中,我将主要关注工作流程的任务部分(如图 5-1 所示),因为这是最关键和最明确的部分。我将简要回顾其他一些常见的工作流程步骤和 "粘合剂",这些都是实现工作流程所必需的。
图 5-1. 工作流程示例
在考虑系统中的工作流程时,有几个关键要点:
可以把工作流看作是培训数据中所有其他内容之间的粘合剂。 ...