第 2 章. 启动和运行
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
引言
当我们处理数据时,有许多工具可以帮助我们:我们有数据库来顺利存储数据,有网络服务器来顺利提供数据。现在,训练数据工具也能帮助我们顺利处理训练数据。
除了工具之外,对于数据库如何与应用程序的其他部分集成,也有既定的流程和预期。但训练数据呢?如何使用训练数据?在本章中,我将介绍一些关键注意事项,包括安装、注释设置、嵌入、最终用户、工作流程等。
需要注意的是,为什么我在前面提到要顺利使用训练数据。我之所以说 "顺利",是因为我不必使用数据库。我可以将数据写入文件,然后从中读取。为什么我需要 Postgres 这样的数据库来构建我的系统呢?这是因为 Postgres 带来了大量的功能,例如保证数据不会轻易损坏、数据可恢复、数据可高效查询等。训练数据工具也有类似的发展。
在本章中,我将介绍
-
如何启动和运行
-
训练数据工具的范围
-
使用训练数据工具的好处
-
权衡利弊
-
我们发展到今天的历史
大部分内容都集中在与当前工作相关的方面。我还会简要介绍一些历史,以说明这些工具为何重要。此外,我还将回答其他常见问题:
-
训练数据工具的关键概念领域是什么?
-
训练数据工具在你的堆栈中处于什么位置?
在我们深入探讨之前,有两个重要的主题需要提及,你会看到它们在本章中贯穿始终。
我经常使用工具这个词,即使它可能是一个更大的系统或平台。我所说的工具是指任何可以帮助你实现培训数据目标的技术。工具的使用是训练数据日常工作的一部分。在整本书中,我将抽象的概念通过工具转化为具体的实例。通过在高层次概念和具体实施示例之间跳转,你将获得更全面的了解。
实践出真知。像任何一门艺术一样,你必须掌握这门艺术的工具。对于培训数据,有多种工具选项需要熟悉和了解。我将讨论一些权衡问题,例如关于封闭源代码还是开放源代码以及部署选项,我们还将探讨一些流行的工具。
启动和运行
以下部分是让你的培训数据系统开始运行的最基本可行路线图。为方便起见,它分为几个部分。通常,这些任务可以交给不同的人去完成,而且许多任务可以同时进行。根据多种因素的影响,可能需要几个月的时间才能完全建立起来,因此在制定计划时应考虑到这一点。
如果您是从零开始,那么所有这些步骤都适用。如果你的团队已经进展顺利,那么这将为你提供一份检查清单,看看你现有的流程是否全面。
总体而言,启动任务包括以下内容:
-
安装
-
任务设置
-
注释器用户设置
-
数据摄取设置
-
数据目录设置
-
工作流设置
-
初始使用
-
优化
这些步骤将以信息丰富的基本方式进行介绍。随后,"权衡利弊 "将讨论其他实际考虑因素,如成本、安装选项、规模、范围和安全性。
如果这些看起来很多,那么这就是建立一个成功系统所需要的现实。
在大多数步骤中,都存在一定程度的交叉。例如,几乎所有步骤都可以通过用户界面/SDK/API 来完成。在适当的地方,我会提醒大家注意共同的偏好。
安装
培训数据安装和配置由技术人员或团队完成。
安装的主要问题包括
-
配置硬件(云或其他方式)
-
进行初始安装
-
配置初始安全项目,如身份提供商
-
选择存储选项
-
容量规划
-
运行维护,如更新
-
配置初始超级用户
大多数提供复杂的、影响收入的产品的团队都是自己安装的。这只是数据的重要程度及其与最终用户的深层联系所决定的。一般来说,数据设置比训练数据平台本身的安装更不稳定,因此数据设置将作为一个独立的部分,我们将在下一节介绍。现在,我们先从 ...