Skip to Content
机器学习的训练数据
book

机器学习的训练数据

by Anthony Sarkis
July 2025
Beginner to intermediate
332 pages
3h 32m
Chinese
O'Reilly Media, Inc.
Book available
Content preview from 机器学习的训练数据

第 2 章. 启动和运行

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com

引言

当我们处理数据时,有许多工具可以帮助我们:我们有数据库来顺利存储数据,有网络服务器来顺利提供数据。现在,训练数据工具也能帮助我们顺利处理训练数据。

除了工具之外,对于数据库如何与应用程序的其他部分集成,也有既定的流程和预期。但训练数据呢?如何使用训练数据?在本章中,我将介绍一些关键注意事项,包括安装、注释设置、嵌入、最终用户、工作流程等。

需要注意的是,为什么我在前面提到要顺利使用训练数据。我之所以说 "顺利",是因为我不必使用数据库。我可以将数据写入文件,然后从中读取。为什么我需要 Postgres 这样的数据库来构建我的系统呢?这是因为 Postgres 带来了大量的功能,例如保证数据不会轻易损坏、数据可恢复、数据可高效查询等。训练数据工具也有类似的发展。

在本章中,我将介绍

  • 如何启动和运行

  • 训练数据工具的范围

  • 使用训练数据工具的好处

  • 权衡利弊

  • 我们发展到今天的历史

大部分内容都集中在与当前工作相关的方面。我还会简要介绍一些历史,以说明这些工具为何重要。此外,我还将回答其他常见问题:

  • 训练数据工具的关键概念领域是什么?

  • 训练数据工具在你的堆栈中处于什么位置?

在我们深入探讨之前,有两个重要的主题需要提及,你会看到它们在本章中贯穿始终。

我经常使用工具这个词,即使它可能是一个更大的系统或平台。我所说的工具是指任何可以帮助你实现培训数据目标的技术。工具的使用是训练数据日常工作的一部分。在整本书中,我将抽象的概念通过工具转化为具体的实例。通过在高层次概念和具体实施示例之间跳转,你将获得更全面的了解。

实践出真知。像任何一门艺术一样,你必须掌握这门艺术的工具。对于培训数据,有多种工具选项需要熟悉和了解。我将讨论一些权衡问题,例如关于封闭源代码还是开放源代码以及部署选项,我们还将探讨一些流行的工具。

启动和运行

以下部分是让你的培训数据系统开始运行的最基本可行路线图。为方便起见,它分为几个部分。通常,这些任务可以交给不同的人去完成,而且许多任务可以同时进行。根据多种因素的影响,可能需要几个月的时间才能完全建立起来,因此在制定计划时应考虑到这一点。

如果您是从零开始,那么所有这些步骤都适用。如果你的团队已经进展顺利,那么这将为你提供一份检查清单,看看你现有的流程是否全面。

总体而言,启动任务包括以下内容:

  • 安装

  • 任务设置

  • 注释器用户设置

  • 数据摄取设置

  • 数据目录设置

  • 工作流设置

  • 初始使用

  • 优化

这些步骤将以信息丰富的基本方式进行介绍。随后,"权衡利弊 "将讨论其他实际考虑因素,如成本、安装选项、规模、范围和安全性。

如果这些看起来很多,那么这就是建立一个成功系统所需要的现实。

在大多数步骤中,都存在一定程度的交叉。例如,几乎所有步骤都可以通过用户界面/SDK/API 来完成。在适当的地方,我会提醒大家注意共同的偏好。

安装

培训数据安装和配置由技术人员或团队完成。

安装的主要问题包括

  • 配置硬件(云或其他方式)

  • 进行初始安装

  • 配置初始安全项目,如身份提供商

  • 选择存储选项

  • 容量规划

  • 运行维护,如更新

  • 配置初始超级用户

大多数提供复杂的、影响收入的产品的团队都是自己安装的。这只是数据的重要程度及其与最终用户的深层联系所决定的。一般来说,数据设置比训练数据平台本身的安装更不稳定,因此数据设置将作为一个独立的部分,我们将在下一节介绍。现在,我们先从 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

雷达趋势观察:2025年7月

雷达趋势观察:2025年7月

Mike Loukides
Python设计模式(第2版)

Python设计模式(第2版)

Posts & Telecom Press, Chetan Giridhar
Python贝叶斯分析(第2版)

Python贝叶斯分析(第2版)

Posts & Telecom Press, Osvaldo Martin
软件工程基础

软件工程基础

Nathaniel Schutta, Dan Vega

Publisher Resources

ISBN: 9798341662995