第 5 章. 提供 LLMs 服务时的挑战
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
在本书的前文中,我们已阐述了模型服务的核心概念,提供了多种用于部署机器学习模型的架构模式,并分析了大规模部署模型所涉及的权衡取舍。至此,我们希望您已对模型服务范式有了深入的理解,因为我们将迈入一个全新的领域。在本章中,我们将把焦点转向人工智能领域中发展最迅速的领域之一:针对服务场景优化LLMs。
自 2022 年末 ChatGPT 崛起以来,LLMs 彻底改变了 AI 在现实场景中的应用方式,从聊天机器人和代码生成,到高级推理和决策系统。然而,其庞大的规模、计算需求以及独特的服务要求,带来了远超传统模型服务技术所能应对的挑战。 从创新理念到被广泛采用的框架,针对LLMs进行优化以实现更快、更高效服务性能的领域,正以前所未有的速度发展。这可能令人望而生畏:任何不熟悉该领域的人都容易感到不知所措。例如:
-
阅读技术博客时,您可能会好奇:“这个 vLLM 框架究竟是什么?它仅在一年或两年内就广受欢迎,并已被广泛采用?”
-
阅读研究论文时,您可能会问:“FlashAttention 是如何工作的?我该如何在硬件层面对其进行优化以加速 LLM 推理?”
-
关注 AI 新闻时,您可能会遇到一个名为 MLA 的新术语,并产生疑问:“DeepSeek V3 模型在服务阶段的运行效率比其他注意力机制高出多少?”
在接下来的章节中,我们将向您介绍所有这些进展。但在深入探讨每项技术之前,我们需要建立扎实的基础认知,并逐步引导您从基础概念过渡到更复杂的技术。本章将前几章中涉及的所有服务概念、原则和范式,与后续章节将要涵盖的所有高级LLM优化技术有机地联系起来。
首先,您需要了解 LLM 服务的大局——它为何重要、硬件要求是什么,以及如何建立对模型优化的直觉。具体而言,我们将首先探讨为何高效地提供 LLM 服务对您的应用程序和业务的成功至关重要。 接下来,我们将探讨现代硬件在 LLM 服务中的作用,深入解析 GPU 等 AI 加速器,以理解其内存机制、计算能力及互连功能。随后我们将涵盖:
-
LLM 服务中的主要瓶颈及其缓解方案
-
加载 LLMs 进行服务时的限制
-
执行 LLMs 时的瓶颈,特别是预填充和解码阶段
-
为何模型服务会在不同阶段成为瓶颈
为探讨最后一点,我们将引入一个名为“算术强度”的新概念。
理解这些概念至关重要,因为若缺乏基础知识,优化 LLM 服务可能会沦为一场令人疲惫的试错实验。人们很容易在不知不觉中陷入局部最优解,或者虽然知道如何优化却不明白其原理。
读完本章后,您将具备在 LLM 优化领域游刃有余所需的直觉。后续章节将以此为基础,详细探讨各种技术手段,以提升性能、降低成本,并针对您应用程序在生产环境中的工作负载高效部署 LLMs。
优化 LLM 服务为何重要
前几章已介绍了 如何在将机器学习模型部署到生产环境时,确保其功能正常且设计合理。另一个关键方面是确保机器学习模型在生产环境中能够快速高效地运行。这对 LLMs 的部署尤为重要,因为它们需要硬件提供大量的计算能力和内存。
为更好地理解其影响,我们将关键因素归纳为三个方面:
-
用户体验
-
成本效益
-
可扩展性、峰值负载处理与可行性
用户体验
用户体验是任何产品成功的关键 ,且与模型响应延迟高度相关。 试想在 ChatGPT 中提问,却不得不等待超过 20 秒才能收到第一个令牌。这种延迟令人无法接受,客户在等待过程中很容易感到沮丧。如果我们能在保持相同硬件配置和总体吞吐量的前提下,优化服务性能将模型延迟从 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access