第 1 章. 模型部署与优化导论
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
在过去的十年里,人工智能系统已从离线研究原型演变为嵌入日常产品中的实时、面向用户的功能。 现代 AI 工作流涵盖了从数据收集、模型训练到部署、监控及持续迭代的完整生命周期,而随着 Deep Learning 和 LLMs 的兴起,这一生命周期的迭代速度已大幅加快。尽管训练日益强大的模型吸引了大量关注,但在生产环境中可靠且高效地部署这些模型已变得同样关键。
从本质上讲,模型服务是一个 旨在解决如何让终端用户、应用程序和系统访问 AI 模型的流程,它通过 API、Web 服务或集成工作流,对新的、未见过的数据生成 预测(称为推理)。
用一个简单的比喻来说,对于各类企业——无论其目标是向客户提供 AI 能力,还是提升运营效率——模型服务都是一种供应链。 除非能以合适的延迟、可靠性和成本特性交付给用户,否则经过训练的模型几乎没有商业价值。例如,亚马逊和 Netflix 利用模型服务在用户浏览时即时更新推荐内容;银行利用模型服务在网购结账时拦截欺诈交易;航空公司的聊天机器人则利用它提供即时航班更新和改签选项。如果这些公司的模型服务系统出现故障,业务将陷入停滞。
正如每家制造商都致力于构建高效且经济实惠的供应链,AI 企业也力求在生产环境中高效、有效地利用其模型和硬件。因此,选择正确的模型服务方案并对其进行优化至关重要:这直接关系到企业的生命线和运营成本。无论您担任何种角色,只要身处 AI 行业,了解模型服务相关知识都将使您受益匪浅。
作为在模型服务基础设施领域深耕十余年的技术领军者,我们曾与该领域的各类参与者合作:包括研究人员、开发者、高管、市场人员、客户以及学生。我们发现,人们初次尝试理解模型服务时,往往会感到畏难或不知所措。这主要有三个原因。首先,你应该已经具备深厚的模型训练知识。 其次,目前尚无一条清晰的学习路径,能够从入门教程直接过渡到管理世界级的模型服务系统。第三,市面上存在如此众多的框架、库、供应商及其他工程选项,使得选择何者采用变得困难。本书旨在通过提供一份结构化且实用的模型服务与优化指南来应对上述挑战——该指南既弥合了理论与实践之间的鸿沟,又能赋能读者做出明智的决策。
在本章中,我们将为您理解本书后续内容奠定基础。首先,我们将阐明模型服务的核心概念;随后,探讨为何稳健且经过优化的模型服务对实际应用至关重要;最后,我们将探讨模型服务的一般范式。读完本章,您将对模型服务与优化有一个全面的概述,为后续章节的实践内容做好准备。
模型的构成
从学术角度而言,机器学习(ML)模型是一种数学表示或算法,它能够从数据中学习模式,从而进行预测、决策或推断,而无需针对特定任务进行显式编程。
在工程和运营领域,我们更关注如何使用模型,而非如何训练模型。因此,大多数情况下,我们仅将模型视为黑箱——即由机器学习训练过程生成的(可执行)文件集合。
我们认为模型由三类文件组成:数据、架构和执行代码(见图 1-1):
- 模型数据
-
模型的数据包括其权重、偏置和配置。权重和偏置是模型在训练过程中学习到的内容,而模型配置则包含运行模型所需的元数据,例如嵌入向量和标签类别(针对分类模型)、
max_batch_size(针对批量推理)以及输入和输出张量。 - 模型架构
-
架构指机器学习模型的结构与设计。它定义了模型的组织方式,包括层的类型和数量、层与层之间的连接,以及模型执行的操作。架构决定了模型如何处理输入数据以产生输出预测或决策。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access