book

LLM 服务和优化实践 (Chinese Edition)

Name: LLM 服务和优化实践 (Chinese Edition)
ISBN: 0642572383695

by Chi Wang, Peiheng Hu

May 2026

Intermediate

374 pages

5h 3m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

前言
为何要进行LLM的部署与优化？本书的目标本书适合哪些读者本书不涵盖的内容本书的结构如何使用本书您需要准备什么本书采用的约定如何使用代码示例O’Reilly 在线学习联系我们致谢
1. 模型服务与优化简介
模型的构成模型架构模型数据模型执行代码模型生命周期：从训练到服务什么是模型服务？为何要学习模型服务？为何要优化模型服务（特别是针对LLMs）？示例：利用模型服务框架（vLLM）提升LLM的吞吐量模型服务范式设备端（边缘）服务单模型服务多模型服务模型服务平台总结
2. 大型语言模型服务
透视Transformer的内部机制LLM的演进Transformer 的自回归特性仅解码器Transformer架构通过计算注意力机制捕获令牌上下文执行LLM生成：分步指南运行 Qwen 模型逐行模型预测启用 KV 缓存以提升性能预填充与解码阶段使用服务框架运行 LLM 使用 vLLM 提供 LLM（Qwen）服务性能对比：vLLM 与 Hugging Face TransformersLLM 流式服务基础LLM 批处理服务基础总结
3. 模型服务系统设计：深度解析
从零开始构建在线LLM服务设计目标服务架构实现单次生成请求处理批处理流式处理与批处理使用 vLLM 进行批量服务单模型LLM服务的通用设计单模型服务的要求总体设计从零开始构建多模型服务设计目标服务架构核心实现使用 NVIDIA Triton 作为模型服务器多模型服务设计中的权衡挑战一种成本优化的多模型设计一种延迟优化的多模型设计总结
4. 模型服务最佳实践
代理化环境中的模型服务定义代理一个示例知识代理代理的设计代理的内部工作流代理的自主性检索增强生成（RAG）缓存增强生成（CAG）代理如何使用模型服务企业系统中的LLM服务：概述公共API层资源管理层模型选择与编排层分布式服务层核心推理层模型优化层模型层基于开源技术栈的构建实现公共 API实现模型选择实现模型服务端点基于Cloud服务商进行构建选项 1：完全托管的基础模型服务选项 2：一键式基础模型部署选项 3：自带模型选项 4：自带代码选项 5：自带服务镜像选项 6：构建您自己的服务基础设施方案对比自建还是采购？策略解析为何了解构建方法大有裨益——即使您不打算亲自构建我们的选择策略LLM服务中的性能评估延迟指标吞吐量指标性能测量的最佳实践摘要
5. LLMs服务中的挑战
为何优化 LLM 服务至关重要用户体验成本效益可扩展性、峰值负载处理及可行性加速器芯片在LLM服务中的作用解读 GPU 规格热门 GPU 规格对比LLM模型加载中的瓶颈模型加载过程模型大小估算估算KV缓存大小LLM模型执行中的瓶颈GPU 计算和内存带宽的限制矩阵乘法中的算术强度将算术密集度分析应用于LLM的预填充和解码阶段其他 AI 加速器与趋势摘要
6. 必备的LLM优化技术
请求批处理与调度层面的优化为什么实时服务中需要批处理？在线推理中的动态批处理LLM在线推理的连续批处理基于分块预填充的连续批处理注意力机制的扩展与内核优化可扩展的注意力机制核融合与自定义注意力核模型压缩量化知识蒸馏剪枝前缀缓存基数注意力应用场景最佳实践扩展前缀缓存摘要
7. 高级LLM优化技术
预测性解码详细步骤调优与使用实践：推测性解码多GPU和多节点推理数据并行张量并行与流水线并行专家级并行预填充-解码解聚整体架构KV缓存传输何时使用高级键值对缓存长上下文服务成本与延迟计算自托管LLMsLMCache 实践摘要
8. LLM服务框架
为何我们需要专门的LLM服务框架vLLMvLLM 的架构模型初始化工作流（带多进程工作进程）生成请求执行工作流调度器深度解析vLLM的分层优化策略TensorRT-LLMSGLangLlama.cpp选择合适的框架总结
9. LLM 优化实践
LLM 服务优化方案利用 vLLM 优化 Qwen3-14B 服务步骤 1：检测 GPU 硬件步骤 2：生成基准测试流量步骤 3：定义评估指标步骤 4：配置模型服务服务器步骤 5：使用 vLLM 对 Qwen3 模型进行基准测试步骤 6：使用 vLLM 对量化版 Qwen3 模型进行基准测试步骤 7：应用其他优化技术步骤 8：使用分布式服务对 Qwen3 模型进行基准测试常见的优化权衡摘要

10. LLM服务领域的最新进展
语义缓存性能剖析策略多模态服务多模态输入处理架构与系统影响边缘AI：驱动因素与使能技术专用低功耗硬件模型压缩与优化异构计算考虑热效应的调度边缘-Cloud混合计算多LoRA服务强化学习中的模型服务强化学习中的LLM服务强化学习服务中的确定性总结
目录
关于作者

Content preview from LLM 服务和优化实践 (Chinese Edition)

第 3 章. 模型服务系统设计：深度解析

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

在第 1 章中，我们介绍了主要模型服务范式，概述了常见的架构模式及其权衡取舍。在第 2 章中，我们探讨了 LLMs 如何在模型层面上进行推理并生成文本。本章将这些基础知识与生产工程实践相结合：探讨如何组织代码和基础设施，以构建适用于单模型和多模型场景的完整服务系统。

模型服务是一个快速发展的领域，目前已有数百种开源服务框架和商业解决方案可供选择。评估、采用并定制合适的解决方案可能会让人感到不知所措。与其从特定的框架入手，本章更侧重于从第一性原理出发建立直觉。通过理解服务系统在根本层面的结构，您将更有能力对任何框架或托管服务进行理性分析。

为此，我们将开发两个简化但具有代表性的服务系统：一个用于单模型 LLM 服务，另一个用于多模型服务。这些实现经过刻意简化——并非旨在取代 Triton 或 vLLM 等生产级框架——但它们捕捉了定义现实世界系统的核心组件和架构决策。通过这些示例，您将看到批处理、流式处理、路由、隔离和资源管理在实践中如何协同工作。

我们将首先构建一个支持批处理和流式处理的单模型 LLM 服务系统。在此基础上，我们将探讨通用单模型服务设计模式及其实际限制。随后，我们将扩展这些思路来构建多模型服务系统，并最终对两种常见的架构变体进行深入比较：一种侧重成本效率，另一种侧重延迟和可扩展性。

读完本章后，您将能够自信地分析单模型和多模型服务系统内部的运作机制。更重要的是，您将能够评估、调整并扩展开源或基于Cloud的服务解决方案，以满足您在性能、成本和运维方面的具体需求。

本章代码

您可以在本章配套的 GitHub 代码库中找到完整的示例代码。我们已为演示目的选取并简化了代码的关键部分。如需完整的实现细节和准确的上下文，请参阅完整的代码库。此外，请参阅 README 文件，了解在本地运行演示服务的分步说明。

从零开始构建在线 LLM 服务

vLLM 和 Triton 等现代 LLM 服务框架（）抽象化了托管 LLMs 涉及的大部分复杂性。然而，这些抽象同时也掩盖了重要的架构权衡。为了有效评估性能、成本和可扩展性，在依赖框架之前，理解服务系统的核心机制至关重要。

在本节中，我们将构建一个简化的在线单模型 LLM 服务系统。其目标并非取代生产环境中的服务框架，而是揭示这些框架所自动化的基础组件：LLM 服务的请求处理、批处理、流式处理、调度以及资源管理。

我们将从一个最简的生成服务开始，然后逐步添加批处理和流式处理功能。最后，我们将通过展示 vLLM 如何在实践中处理批处理来总结。通过理解这两种方法，您将能够更好地分析单模型服务架构、评估框架选择，并在实际系统中做出明智的设计权衡。

本书后续章节，特别是第8章，我们将深入探讨vLLM，并了解它如何以高度优化且具有可扩展性的方式解决这些相同挑战。

设计目标

在本练习中，您将构建这一模型服务，该服务在启动时加载单个 LLM，并支持批处理和流式处理的并发生成请求。虽然本示例为便于演示而刻意简化，仅适用于可在 CPU 上运行的单个 LLM 模型，但它涵盖了所有必要组件，未来可通过先进的模型优化技术扩展为多节点、通用化的生产级系统。

我们的方法并非构建一个复杂的、生产就绪的服务，而是实现核心组件，以帮助您理解 LLM 服务中的以下关键方面：

Web API 如何设计以处理生成请求——包括批处理和流式处理
典型的 LLM 请求处理工作流是什么样子的 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 0642572383695

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business