Skip to Content
LLM 服务和优化实践 (Chinese Edition)
book

LLM 服务和优化实践 (Chinese Edition)

by Chi Wang, Peiheng Hu
May 2026
Intermediate
374 pages
5h 3m
Chinese
O'Reilly Media, Inc.
Content preview from LLM 服务和优化实践 (Chinese Edition)

第 8 章. LLM 服务框架

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com

在前几章中,我们探讨了 LLM 服务的基础知识——系统设计、服务实现以及实用的优化技术。本章将转向基础层——即在实际生产环境中,采用不同优化技术来实现和执行模型推理的服务框架。 我们将探讨四种广泛采用的开源服务框架,您在实际应用中很可能遇到它们:LLM、TensorRT-LLM、SGLang 和 llama.cpp。它们各自拥有独特的理念、硬件占用空间和经过实战检验的技术,并拥有活跃的社区支持以及日益增长的生产环境应用。

鉴于 vLLM 是应用最广泛的框架,我们将对其进行深入剖析——包括其架构、初始化与模型执行流程、请求和令牌级调度,以及分层优化策略。理解 vLLM 的内部机制将使您对 LLM 框架的实际工作原理有更强的直觉,并有助于更轻松地评估其他框架的权衡取舍。

接下来,我们将通过简洁、以决策为导向的概述和简短示例,介绍其余的框架。本章最后将介绍我们用于比较服务框架的评估方法。

读完本章后,您将对 LLM 服务框架的定义、应用必要性、底层工作原理以及如何根据具体用例进行评估有扎实的掌握。在下一章中,我们将把优化技术和服务框架付诸实践——利用 vLLM 服务框架对 LLM 性能进行调优。

为何需要专门的LLM服务框架

在 LLM 时代之前,已经存在许多通用模型服务框架,例如 TensorFlow Serving、TorchServe,甚至像 NVIDIA Triton这样的通用推理平台。这些框架和平台最初是为图像识别和结构化数据推理等 Deep Learning 工作负载设计的。此类工作负载通常具有较短的输入长度、固定形状的张量以及可预测的延迟要求,其主要优化通常是批处理。

至此,读者应当清楚,LLMs的部署与传统机器学习模型(如图像分类器或推荐模型)的部署在根本上存在差异。LLM的部署与优化带来了一系列新的挑战,包括:

自回归生成

LLMs以单个令牌为单位生成输出。与图像模型不同,推理会话可能持续数秒甚至数分钟。

上下文长度激增

模型必须处理大小从几个令牌到数十万甚至上百万令牌不等的prompt。KV缓存内存管理因此成为关键瓶颈。

连续批处理

不同请求的输入和输出长度差异极大。静态批处理策略无法充分利用 GPU 资源。

流式处理需求

用户期望“首个令牌输出时间”(TTFT)控制在数百毫秒内,并能实现连续的令牌流式输出。

资源利用率

GPU 成本高昂。在大规模场景下,因片段化或空闲令牌而浪费 GPU 浮点运算能力是不可接受的。

为满足这些需求,一种新型框架类别——专用 LLM 服务框架( )应运而生,例如 vLLM、TensorRT-LLM 和 SGLang。 这些框架引入了分页键值对缓存、连续批处理、LLM 专用量化以及投机性解码(前几章已讨论)等创新技术,以应对 LLMs 的独特挑战。借助这些 LLM 服务框架,我们可以从现代加速器中榨取更高的吞吐量并降低延迟,从而实现更出色的效率——这也正是它们成为 LLM 服务主流选择的原因。

vLLM

vLLM是 上最受欢迎的 LLM 服务开源框架之一。它在开源社区和企业团队中都得到了迅速采用,因为它解决了大规模运行 LLMs 时的痛点:长 prompt、高内存需求以及需要同时服务大量用户。

从核心机制来看,vLLM引入了分页键值对缓存,并将其与连续批处理相结合,这两项创新显著提升了吞吐量并降低了延迟。它还支持量化、推测性解码、流式响应以及多GPU和分布式执行等功能。这些能力使其适用于广泛的场景,例如交互式聊天机器人和RAG系统、批量文本生成、多租户服务以及实时应用。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

企业级Java开发中的应用人工智能 (Chinese Edition)

企业级Java开发中的应用人工智能 (Chinese Edition)

Alex Soto Bueno, Markus Eisele, Natale Vinto

Publisher Resources

ISBN: 0642572383695