Skip to Content
LLM 服务和优化实践 (Chinese Edition)
book

LLM 服务和优化实践 (Chinese Edition)

by Chi Wang, Peiheng Hu
May 2026
Intermediate
374 pages
5h 3m
Chinese
O'Reilly Media, Inc.
Content preview from LLM 服务和优化实践 (Chinese Edition)

第 10 章. LLM 服务的新进展

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com

若您已阅读至此,恭喜您完成了从理解模型服务范式到掌握如何针对不同用例高效部署LLMs的完整学习之旅。

本章将重点介绍 LLM 服务领域中的一些新兴进展,并为你在新理念和技术快速演进的背景下继续学习提供指引。其中一些理念足以写成整本书,而该领域的进展正日新月异。能够见证并参与智能推理系统的演进,这是一个令人振奋的时代。 本书的目标是介绍主要理念和框架,使您在读完本书后,能够将我们所涵盖的核心基础知识与正在塑造下一代 LLM 服务系统的全新理念相结合。

在本章中,我们将探讨:

  • 语义缓存与路由:作为更智能的语义感知请求分发的高级机制

  • 性能剖析,用于精细化的性能调优

  • 多模态服务:随着基于文本的 LLMs 扩展至视觉语言模型(VLMs)及其他模态

  • 边缘服务,为终端设备提供低延迟、保护隐私的推理能力

  • Multi-LoRA,支持个性化微调模型的可扩展性、高效部署

  • LLM 服务系统作为强化学习推理的骨干

语义缓存

第 7 章中,我们讨论了数据并行性:在模型服务端点后方,存在多个模型副本( )用于处理外部流量,前方则有一个路由层负责负载均衡。随着我们进行前缀缓存以及基于 KV 缓存利用率的负载均衡,路由的需求变得愈发关键。

服务系统正日益具备语义感知能力,并在整个生态系统的更高层次上运行。语义感知路由、缓存和检索不再仅基于精确的prompt和一组模型副本,而是利用嵌入和向量搜索来识别具有相同意图的prompt。由此,这一顶层的语义路由层能够实现更多的缓存命中,并在模型端点层面(而非仅在模型副本层面)做出更明智的决策,包括何时启用模型推理、代理工具过滤以及模型选择,如图 10-1 所示。

Diagram illustrating endpoint-level routing versus replica-level routing with a router directing to model endpoints A and B and their respective model instances.
图 10-1. 端点级 路由与副本级路由的对比

使用语义路由的首要且最简单的理由是,当prompt相似时避免调用LLM。例如,“从西雅图飞往夏威夷需要多长时间?”也可以问成“告诉我从西雅图飞往夏威夷需要多少小时。” 在这种情况下,再次调用LLM(尤其是外部LLM)实属过度设计:既浪费资金,又会引入不必要的延迟。语义缓存可以通过识别这些查询的相似性并存储先前查询结果来解决此问题,从而避免额外调用LLM。

其次,即使对于没有缓存响应的新prompt,也并非所有问题都需要调用大型模型或启用推理功能。语义路由器可以调用轻量级编码器模型(如ModernBERT),快速判断一个prompt是否足够复杂,从而决定是否需要调用最先进的模型和/或启用推理功能。

越来越多的企业意识到,参数规模在80亿至320亿左右、针对特定任务进行微调的小型语言模型(SLM),其性能可与巨型通用LLMs媲美甚至更胜一筹,且在服务水平协议(SLA)和服务水平目标(SLO)控制方面具有更高的可靠性和更低的延迟。在此场景下,语义路由器能够理解查询内容,并将请求路由至合适的模型端点。

最后,在代理环境中,路由服务可承担超越将请求转发至模型端点的更多功能。例如,路由服务可执行一级工具过滤,以避免将模型暴露给所有可用工具。 这越来越常通过模型上下文协议(MCP)实现,该协议要求工具以结构化模式、权限和元数据的形式进行注册。路由器根据用户请求,仅选择相关工具,并将可用工具中的一小部分传递给模型,从而降低prompt开销、改善延迟,并减少意外使用工具的风险。路由服务还充当安全、策略和合规性检查的中央执行点。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

企业级Java开发中的应用人工智能 (Chinese Edition)

企业级Java开发中的应用人工智能 (Chinese Edition)

Alex Soto Bueno, Markus Eisele, Natale Vinto

Publisher Resources

ISBN: 0642572383695