Skip to Content
LLM 服务和优化实践 (Chinese Edition)
book

LLM 服务和优化实践 (Chinese Edition)

by Chi Wang, Peiheng Hu
May 2026
Intermediate
374 pages
5h 3m
Chinese
O'Reilly Media, Inc.
Content preview from LLM 服务和优化实践 (Chinese Edition)

前言

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com

大型语言模型(LLMs)在极短的时间内,从研究中的奇观演变为生产关键的基础设施——这与互联网革命如出一辙。一个由智能体主导的世界正在到来,从许多方面来看,它已经到来:新一波“令牌化”浪潮中,越来越多的应用程序是构建在LLM基础设施之上,而非传统的API和服务之上。

短短几年间,人们对OpenAI等公共LLM提供商的态度已从“只需调用API”演变为“我们需要自己的模型”,进而转变为“我们需要高效、安全且大规模地运行这些模型”。如今,企业需要对LLMs拥有更强的掌控力——无论是数据治理、故障排查、性能评估、合规性还是成本管理。 许多团队发现,生成式人工智能(GenAI)最困难的部分并非训练模型或搭建聊天界面,而是其中的所有环节:以可接受的成本搭建模型服务并进行优化,以满足业务目标。

我们近距离观察到了这一差距。我们目睹过出色的原型在真实流量下崩溃,或在一周内就耗尽了GPU预算。 我们看到许多组织虽渴望重构 LLMs 的关键用例,却因担心公共 API 成本和数据安全而止步不前。我们也看到一些团队希望将 LLMs 深度嵌入核心产品,却被其复杂性所困扰:如何权衡延迟、吞吐量和成本,或者如何在公共供应商、模型服务库、Cloud 端点或其他自管服务之间做出选择。

与此同时,关于LLM部署与优化的知识分散在博客文章、研究论文、框架文档以及非正式的生产实战经验中。该领域每周甚至每月都在演进;很难跟上,更难知道从何入手。缺失的是一套系统化的基础:一份实用的端到端资源,帮助您理解核心理念,从而在生态系统变化时持续探索。

这正是我们着手撰写的这本书。

为何要探讨 LLM 服务与优化?

乍看之下,LLM 服务似乎是经典机器学习部署后的下一步。 但实际上,LLMs 是独特的存在。它们带来了根本不同的挑战,涉及全新的运行机制、经济模型和风险——正因如此,它们理应拥有独立的学科体系。

传统的机器学习(ML)模型通常是无状态、有界且可预测的。您发送一个输入,运行一个固定的计算图,然后得到一个结果。延迟稳定,内存需求明确,而扩展通常只需增加更多副本。

LLMs 在所有关键方面都截然不同。它们是自回归且具有状态的,在逐步生成令牌的同时,会不断积累对话记忆。它们在预填充和解码这两个截然不同的阶段运行,对硬件的要求各不相同,且需要巨大的 GPU 内存和带宽。性能不再是“模型单次运行的速度有多快”,而是如何在不破坏延迟预期的情况下,并行调度数千个可变长度的对话。

使用场景也截然不同。经典的基于机器学习的排序、分类或风险评分通常支持后台决策。但LLMs直接嵌入交互式用户体验中:对话助手、推理系统、检索增强生成(RAG)管道以及自主代理。延迟对用户而言是可见的。流式处理不可或缺。可靠性决定着信任。服务不再是产品背后的基础设施;它就是产品体验本身。

相应的,其对业务的影响也更大。当 LLM 系统变慢、故障或行为不可预测时,整个工作流都会停滞。代理停止行动,员工失去信心,客户流失。准确性、防护措施和可观测性并非纸上谈兵——它们关乎运营、财务,有时甚至涉及法律问题。

此外还有成本问题。在经典机器学习中,推理通常成本低廉,许多情况下甚至完全不需要 GPU。 而在 LLMs 中,推理已成为主要成本。GPU 内存变得至关重要。低效的调度会直接转化为金钱的浪费。纯 API 方案在规模化后成本高昂,但许多团队因不知如何平衡吞吐量、延迟和成本,而对自建部署望而却步。

最后,服务模式本身也是全新的。连续批处理、令牌调度器、键值(KV)缓存管理、量化策略、模型路由,以及检索、推理和工具执行的混合管道,在上一代机器学习系统中根本不存在。团队通常知道 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

企业级Java开发中的应用人工智能 (Chinese Edition)

企业级Java开发中的应用人工智能 (Chinese Edition)

Alex Soto Bueno, Markus Eisele, Natale Vinto

Publisher Resources

ISBN: 0642572383695