第 11 章. 部署 Transformer 模型
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
现在 ,既然你已经了解了各种Transformer模型,是时候让它们大显身手了。 在 GCP 或 AWS 等大多数主流云平台上,使用 vLLM 或 SGLang 等工具部署 Transformer 模型已变得十分简单。因此,本章不会重点介绍云部署的具体步骤,而是聚焦于我初次部署基于 Transformer 的应用程序时曾让我辗转难眠的几个关键问题,例如成本与数据控制、运行时工程、缓存行为、架构特有的限制以及基础设施策略。
基于此,影响应用程序架构的首要决策之一便是选择采用开源模型还是闭源模型。这一选择并非单纯的技术问题,它直接决定了贵组织在成本控制、弹性扩展、行为审计、模型定制以及保持长期独立性方面的能力。
此外,必须认识到部署转换器绝非仅仅是获取一个开源检查点并调用.generate 方法那么简单。在生产环境中,模型只是更大系统中的一个组件,该系统还包括路由、存储、监控、防护机制和基础设施。即使您选择了开源模型,这也并不自动意味着必须自托管。 大多数开源模型也可通过托管 Cloud API 访问,这允许用户在最终为成本效益或合规性而迁移至自托管部署之前,快速进行实验。
一旦确定了模型访问方式——封闭式 API、托管开源 API 还是完全自托管——下一步就是理解所部署的架构。不同的 Transformer 家族具有不同的运行时、内存和并发特性,这些特性会直接影响成本、延迟和运行行为。最后,您可能需要通过量化技术对其进行优化。
本章提供了一种系统化的思考方式来处理这些决策。以下列表作为一份简明路线图,适用于各类模态,并能帮助您有条不紊地将 Transformer 模型从构思阶段推进至生产环境:
-
定义任务、约束条件和模态。
-
选择合适的架构和模型家族。
-
决定采用开放式还是封闭式部署。
-
针对推理对模型进行优化(量化、剪枝、分片)。
-
设计推理运行时,包括缓存和推理模式。
-
集成监控、基准测试和防护机制。
-
选择并运维基础设施层。
在本章的剩余部分,我将引导您了解开放式与封闭式架构的选择,解释不同变压器架构中需要注意的事项,并向您展示如何针对实际生产环境优化模型。我们的目标是为您提供指导,助您顺利完成部署。
开源与闭源的选择
闭源的 模型提供强大的基准性能和即用性,但代价是缺乏透明度且依赖供应商。开源模型则具备可视性和控制权,但传统上需要具备基础设施经验才能部署。然而,这种区分已不再是二元对立。大多数开源模型可通过托管云API(如Together.ai、Novita. ai或Nebius)访问,使团队无需运行自己的GPU集群即可快速进行实验。
实际上,部署方式涵盖了通过专有API访问的完全闭源模型、通过托管Cloud服务商访问的开源模型,以及可让您完全掌控成本、合规性和优化的自托管开源模型。许多组织中,闭源模型与开源模型并存:闭源模型用于快速原型设计或广泛的通用任务,而开源模型则用于具有可扩展性、可审计且随时间演进的特定领域系统。 实际上,许多团队会先通过托管 Cloud 服务提供商使用开源模型,随后将需要直接访问数据的工作负载迁移至自托管环境。表 11-1提供了开源与闭源模型的对比指南 。
| Factor | 闭源模型 | 开源模型 |
|---|---|---|
创新速度 |
取决于供应商的发布周期;可立即访问 API |
全球研究推动快速迭代;通常可通过 ... |
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access