book

LLM 服务和优化实践 (Chinese Edition)

Name: LLM 服务和优化实践 (Chinese Edition)
ISBN: 0642572383695

by Chi Wang, Peiheng Hu

May 2026

Intermediate

374 pages

5h 3m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

前言
为何要进行LLM的部署与优化？本书的目标本书适合哪些读者本书不涵盖的内容本书的结构如何使用本书您需要准备什么本书采用的约定如何使用代码示例O’Reilly 在线学习联系我们致谢
1. 模型服务与优化简介
模型的构成模型架构模型数据模型执行代码模型生命周期：从训练到服务什么是模型服务？为何要学习模型服务？为何要优化模型服务（特别是针对LLMs）？示例：利用模型服务框架（vLLM）提升LLM的吞吐量模型服务范式设备端（边缘）服务单模型服务多模型服务模型服务平台总结
2. 大型语言模型服务
透视Transformer的内部机制LLM的演进Transformer 的自回归特性仅解码器Transformer架构通过计算注意力机制捕获令牌上下文执行LLM生成：分步指南运行 Qwen 模型逐行模型预测启用 KV 缓存以提升性能预填充与解码阶段使用服务框架运行 LLM 使用 vLLM 提供 LLM（Qwen）服务性能对比：vLLM 与 Hugging Face TransformersLLM 流式服务基础LLM 批处理服务基础总结
3. 模型服务系统设计：深度解析
从零开始构建在线LLM服务设计目标服务架构实现单次生成请求处理批处理流式处理与批处理使用 vLLM 进行批量服务单模型LLM服务的通用设计单模型服务的要求总体设计从零开始构建多模型服务设计目标服务架构核心实现使用 NVIDIA Triton 作为模型服务器多模型服务设计中的权衡挑战一种成本优化的多模型设计一种延迟优化的多模型设计总结
4. 模型服务最佳实践
代理化环境中的模型服务定义代理一个示例知识代理代理的设计代理的内部工作流代理的自主性检索增强生成（RAG）缓存增强生成（CAG）代理如何使用模型服务企业系统中的LLM服务：概述公共API层资源管理层模型选择与编排层分布式服务层核心推理层模型优化层模型层基于开源技术栈的构建实现公共 API实现模型选择实现模型服务端点基于Cloud服务商进行构建选项 1：完全托管的基础模型服务选项 2：一键式基础模型部署选项 3：自带模型选项 4：自带代码选项 5：自带服务镜像选项 6：构建您自己的服务基础设施方案对比自建还是采购？策略解析为何了解构建方法大有裨益——即使您不打算亲自构建我们的选择策略LLM服务中的性能评估延迟指标吞吐量指标性能测量的最佳实践摘要
5. LLMs服务中的挑战
为何优化 LLM 服务至关重要用户体验成本效益可扩展性、峰值负载处理及可行性加速器芯片在LLM服务中的作用解读 GPU 规格热门 GPU 规格对比LLM模型加载中的瓶颈模型加载过程模型大小估算估算KV缓存大小LLM模型执行中的瓶颈GPU 计算和内存带宽的限制矩阵乘法中的算术强度将算术密集度分析应用于LLM的预填充和解码阶段其他 AI 加速器与趋势摘要
6. 必备的LLM优化技术
请求批处理与调度层面的优化为什么实时服务中需要批处理？在线推理中的动态批处理LLM在线推理的连续批处理基于分块预填充的连续批处理注意力机制的扩展与内核优化可扩展的注意力机制核融合与自定义注意力核模型压缩量化知识蒸馏剪枝前缀缓存基数注意力应用场景最佳实践扩展前缀缓存摘要
7. 高级LLM优化技术
预测性解码详细步骤调优与使用实践：推测性解码多GPU和多节点推理数据并行张量并行与流水线并行专家级并行预填充-解码解聚整体架构KV缓存传输何时使用高级键值对缓存长上下文服务成本与延迟计算自托管LLMsLMCache 实践摘要
8. LLM服务框架
为何我们需要专门的LLM服务框架vLLMvLLM 的架构模型初始化工作流（带多进程工作进程）生成请求执行工作流调度器深度解析vLLM的分层优化策略TensorRT-LLMSGLangLlama.cpp选择合适的框架总结
9. LLM 优化实践
LLM 服务优化方案利用 vLLM 优化 Qwen3-14B 服务步骤 1：检测 GPU 硬件步骤 2：生成基准测试流量步骤 3：定义评估指标步骤 4：配置模型服务服务器步骤 5：使用 vLLM 对 Qwen3 模型进行基准测试步骤 6：使用 vLLM 对量化版 Qwen3 模型进行基准测试步骤 7：应用其他优化技术步骤 8：使用分布式服务对 Qwen3 模型进行基准测试常见的优化权衡摘要

10. LLM服务领域的最新进展
语义缓存性能剖析策略多模态服务多模态输入处理架构与系统影响边缘AI：驱动因素与使能技术专用低功耗硬件模型压缩与优化异构计算考虑热效应的调度边缘-Cloud混合计算多LoRA服务强化学习中的模型服务强化学习中的LLM服务强化学习服务中的确定性总结
目录
关于作者

Content preview from LLM 服务和优化实践 (Chinese Edition)

第9章. LLM 优化实践

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

优化是一个动态目标：在不同的环境中，“最佳”策略会发生变化。由于资源有限，您无法对每种选项进行穷举测试。为了帮助您针对自身领域高效优化，我们精心挑选了一些真实案例，展示关键因素——硬件配置、模型选择、内存和键值缓存行为、分布式服务以及流量模式——如何影响服务性能，以及如何衡量和解读这些差异。这种理解将赋予您直觉，助您在约束条件下找到最佳服务配置。

在本章的实践环节中，我们将把前几章所学内容付诸实践。以开源的 Qwen3-14B 模型配合 vLLM 作为示例，我们将带您逐步完成一个实用的 LLM 服务优化流程，并展示如何实现服务架构的横向和纵向扩展。

我们将从一份简明的优化计划开始，并按部就班地执行——包括环境搭建、评估工作负载准备、实验运行、在单GPU和多GPU配置上部署模型、结果分析，以及应用前文介绍的技术。最后，我们将总结一套基于自身实战经验的经验教训和权衡建议，这些内容可作为您未来优化工作的指导原则。

读完本章后，您将清晰了解 LLM 服务优化的实际操作流程，并有信心根据自身用例和流量模式对 LLM 进行优化。

实验代码

您可以在 ch09 文件夹中。由于本实验需要高性能 GPU（如 NVIDIA L40S），某些情况下还需多 GPU 硬件，因此许多读者可能无法获取必要的计算资源。

为了让本章内容更易于理解，我们准备了一个Jupyter 笔记本，其中不仅包含完整的实验代码，还包含每个优化步骤的输出结果——即使您不亲自运行实验，也能跟随流程并查看结果。

LLM 服务优化方案

在本练习中，我们将重点放在在线模型服务环境中优化Qwen/Qwen3-14B 模型的令牌吞吐量 （）上。具体而言，我们的目标是最大化单个模型实例的服务吞吐量——在给定时间范围内处理尽可能多的令牌。更高的令牌吞吐量直接意味着更低的服务成本，因为处理的令牌数量是大多数 LLM 定价模型的基础。这一优化目标与现实世界中 LLM 服务场景的常见目标相一致：即在单位时间内实现尽可能高的令牌处理效率。

吞吐量与延迟之间的权衡

在许多情况下，优化技术能够同时提升吞吐量和降低延迟——例如，通过减少冗余计算或提高批处理效率。然而，对于某些流量模式而言，峰值吞吐量和最小延迟是本质上相互冲突的目标。

原因在于，更高的吞吐量通常依赖于对请求进行批处理或排队以更好地利用硬件资源，这会引入等待时间，从而增加单次请求的延迟。相反，纯粹为了最低延迟而进行优化，通常意味着在并行度降低的情况下立即处理请求，这会导致资源利用率不足和整体吞吐量降低。

在实际应用中，我们通常优先提升吞吐量，同时将延迟控制在可接受范围内，以确保在不牺牲用户体验的前提下提高效率。在本章中，尽管我们的重点是吞吐量优化，但当响应速度比效率更关键时，我们也会讨论一些更侧重低延迟的技术（例如分布式服务）。

以下是我们在下一节中将执行的高级优化计划。无论您是与我们同步执行这些步骤，还是在 Jupyter 笔记本中跟随操作，本练习都将为您提供基准测试的实践经验，并帮助您通过比较不同的优化技术和配置，理解它们对服务性能的影响：

1. 评估硬件: 首先，我们将回顾硬件配置，并确定对服务性能影响最大的关键 GPU 规格——例如 GPU 内存大小、带宽、计算能力以及 NVLink 互连。了解这些因素将有助于您在后续阶段更准确地解读基准测试结果。
2. 生成基准测试流量: 接下来，我们将设计具有代表性的基准测试流量，以模拟实际的请求模式。我们将探讨通常用于缓存评估的输入数据类型、请求长度分布以及重复设置。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 0642572383695

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design