Skip to Content
LLM 服务和优化实践 (Chinese Edition)
book

LLM 服务和优化实践 (Chinese Edition)

by Chi Wang, Peiheng Hu
May 2026
Intermediate
374 pages
5h 3m
Chinese
O'Reilly Media, Inc.
Content preview from LLM 服务和优化实践 (Chinese Edition)

第 2 章. 大型 语言模型服务

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com

在上一章中,我们介绍了模型的概念、 模型服务以及常见的服务范式。在本章中,我们将重点转向LLMs服务所涉及的具体挑战和技术。

对于初涉模型服务领域的人来说,现代服务系统的极度复杂性是最大的障碍之一。随着模型架构、训练算法和工具的快速演进再加上监控、扩展、安全、CI/CD 管道以及服务依赖关系等生产基础设施的多层架构,初学者很快就会感到不知所措结果是,许多工程师和研究人员在尚未掌握核心原理之前就因陷入系统细节而迷失了方向。

为解决这一问题,我们的方法是从基础开始。我们将从部署 LLM 所需的最低限度代码入手,并在此基础上逐步构建。这有助于建立一个关于令牌生成机制的坚实心智模型,并理解为何 LLM 部署会带来独特的挑战。以此为基础,在后续章节中,我们将逐步扩展到系统架构、性能优化方法和基础设施选择等更高级的主题。在本章中,我们将从以下内容开始:

  • LLMs的基本架构,包括词标生成过程和注意力机制

  • 通过实操代码示例了解推理过程中的底层运作机制

  • LLM 服务背后的核心概念,例如预填充、解码以及键值 (KV) 缓存复用

  • 为何理解这些基础知识对于诊断瓶颈和提升性能至关重要

随后,我们将过渡到使用现代服务框架——vLLM——来演示如何提升模型服务效率。接下来,借助 vLLM,我们将介绍流式处理和批处理等关键服务方法,这些方法对于实现生产级性能至关重要。

本章是本书的基础篇章。我们的目标是帮助您掌握分析 LLM 服务系统所需的实践理解和直觉。您将清晰了解其行为、局限性及优化机会,为后续章节奠定基础——在后续章节中,我们将深入探讨系统设计、可扩展性以及高级服务优化策略。

在本章中,我们将 提供实操示例,以帮助巩固每个概念。请放心——无需深厚的数学知识。由于我们专注于服务而非训练,因此已将数学概念抽象为直观的解释,让您能够专注于工程视角。

在下一章中,我们将运用本章所学内容,演示如何将其整合到实际的 Web 服务中,并涵盖关键的设计决策和原则。

透视Transformer的运作机制

在本节中,我们将介绍 ——Transformer模型背后的核心概念,特别是从模型服务角度出发。我们不会深入探讨训练算法或学术理论,而是采用自上而下的概念化方法:从LLMs的发展历史开始,逐步讲解LLM生成过程、模型架构、Transformer模块,最后深入解析注意力机制。

LLM 演变

LLMs的演变 不仅仅是一段历史趣闻——它为模型设计选择、架构模式和执行行为提供了关键洞见,这些对于推理和优化工作流至关重要。

语言模型已从基本的规则驱动系统演进为能够生成连贯且符合上下文的文本的复杂神经网络。这一进步得益于模型架构的进步、大规模文本数据集的可用性以及计算能力的提升。图 2-1概述了语言模型的发展历程。

2000年代末,随着 Deep Learning 的出现,自然语言处理(NLP)迎来了转折点(为简明起见,此处我们将略过早期的基于规则的方法和n-gram 模型)。2013年,谷歌的Mikolov等人提出的Word2Vec实现了重大突破,该方法在连续空间中引入了词汇的密集向量表示。这些嵌入捕捉了词语之间的语义关系,极大地提升了该领域理解语言的能力。

图 2-1. 语言模型的发展历程 来源

为了有效建模语言的序列性 ,循环神经网络(RNNs)在2013年开始流行。RNNs能够捕捉时间依赖性和上下文信息,使其非常适合情感分析和文本生成等任务。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

企业级Java开发中的应用人工智能 (Chinese Edition)

企业级Java开发中的应用人工智能 (Chinese Edition)

Alex Soto Bueno, Markus Eisele, Natale Vinto

Publisher Resources

ISBN: 0642572383695