book

图解大模型 : 生成式AI 原理与实战

Name: 图解大模型 : 生成式AI 原理与实战
ISBN: 9787115670830

by Jay Alammar, Maarten Grootendorst

May 2025

Intermediate to advanced

382 pages

10h 33m

Chinese

Posts & Telecom Press

Read now

Unlock full access

封面
封底
扉页
版权
版权声明
O'Reilly Media, Inc.介绍
目录 (1/2)
目录 (2/2)
对本书的赞誉
译者序

配套阅读：大模型面试题156
第1章：LLM简介第2章：词元和嵌入
第3章：LLM的内部机制
第4章：文本分类
第5章：文本聚类和主题建模
第6章：提示工程
第7章：高级文本生成技术与工具
中文版序
前言
以直观理解为先的理念
基础知识要求
本书结构第一部分：理解语言模型第二部分：使用预训练语言模型
第三部分：训练和微调语言模型
硬件和软件要求
API密钥
本书使用的约定
代码示例的使用
O’Reilly在线学习平台（O’Reilly Online Learning）
联系我们
致谢
Jay致谢
Maarten致谢
第一部分理解语言模型
第1章大语言模型简介
1.1 什么是语言人工智能
1.2 语言人工智能的近期发展史1.2.1 将语言表示为词袋模型1.2.2 用密集向量嵌入获得更好的表示
1.2.3 嵌入的类型
1.2.4 使用注意力机制编解码上下文1.2.5 “Attention Is All You Need”
1.2.6 表示模型：仅编码器模型
1.2.7 生成模型：仅解码器模型
1.2.8 生成式AI元年
1.3 “LLM”定义的演变
1.4 LLM的训练范式
1.5 LLM的应用
1.6 开发和使用负责任的LLM
1.7 有限的资源就够了
1.8 与LLM交互1.8.1 专有模型1.8.2 开源模型1.8.3 开源框架
1.9 生成你的第一段文本
1.10 小结
第2章词元和嵌入
2.1 LLM的分词 (1/4)
2.1.1 分词器如何处理语言模型的输入2.1.2 下载和运行LLM2.1.3 分词器如何分解文本
2.1 LLM的分词 (2/4)
2.1.4 词级、子词级、字符级与字节级分词2.1.5 比较训练好的LLM分词器
2.1 LLM的分词 (3/4)
2.1 LLM的分词 (4/4)
2.1.6 分词器属性
2.2 词元嵌入
2.2.1 语言模型为其分词器的词表保存嵌入2.2.2 使用语言模型创建上下文相关的词嵌入
2.3 文本嵌入（用于句子和整篇文档）
2.4 LLM之外的词嵌入
2.4.1 使用预训练词嵌入2.4.2 word2vec算法与对比训练
2.5 推荐系统中的嵌入
2.5.1 基于嵌入的歌曲推荐2.5.2 训练歌曲嵌入模型
2.6 小结
第3章 LLM的内部机制
3.1 Transformer模型概述 (1/4)
3.1.1 已训练Transformer LLM的输入和输出3.1.2 前向传播的组成3.1.3 从概率分布中选择单个词元（采样/解码）
3.1 Transformer模型概述 (2/4)
3.1.4 并行词元处理和上下文长度3.1.5 通过缓存键−值加速生成过程3.1.6 Transformer块的内部结构
3.1 Transformer模型概述 (3/4)
3.1 Transformer模型概述 (4/4)
3.2 Transformer架构的最新改进 (1/2)
3.2.1 更高效的注意力机制3.2.2 Transformer块
3.2 Transformer架构的最新改进 (2/2)
3.2.3 位置嵌入
3.2.4 其他架构实验和改进
3.3 小结
第二部分使用预训练语言模型
第4章文本分类
4.1 电影评论的情感分析
4.2 使用表示模型进行文本分类
4.3 模型选择
4.4 使用特定任务模型
4.5 利用嵌入向量的分类任务 (1/2)
4.5.1 监督分类4.5.2 没有标注数据怎么办
4.5 利用嵌入向量的分类任务 (2/2)
4.6 使用生成模型进行文本分类 (1/2)
4.6.1 使用文本到文本迁移Transformer
4.6 使用生成模型进行文本分类 (2/2)
4.6.2 使用ChatGPT进行分类
4.7 小结
第5章文本聚类和主题建模
5.1 ArXiv文章：计算与语言
5.2 文本聚类的通用流程 (1/2)
5.2.1 嵌入文档5.2.2 嵌入向量降维5.2.3 对降维后的嵌入向量进行聚类5.2.4 检查生成的簇
5.2 文本聚类的通用流程 (2/2)
5.3 从文本聚类到主题建模 (1/4)
5.3.1 BERTopic：一个模块化主题建模框架
5.3 从文本聚类到主题建模 (2/4)
5.3.2 添加特殊的“乐高积木块”
5.3 从文本聚类到主题建模 (3/4)
5.3.3 文本生成的“乐高积木块”
5.3 从文本聚类到主题建模 (4/4)
5.4 小结
第6章提示工程
6.1 使用文本生成模型6.1.1 选择文本生成模型6.1.2 加载文本生成模型6.1.3 控制模型输出
6.2 提示工程简介
6.2.1 提示词的基本要素6.2.2 基于指令的提示词
6.3 高级提示工程 (1/2)
6.3.1 提示词的潜在复杂性6.3.2 上下文学习：提供示例6.3.3 链式提示：分解问题
6.3 高级提示工程 (2/2)
6.4 使用生成模型进行推理 (1/2)
6.4.1 思维链：先思考再回答6.4.2 自洽性：采样输出
6.4 使用生成模型进行推理 (2/2)
6.4.3 思维树：探索中间步骤
6.5 输出验证 (1/2)
6.5.1 提供示例6.5.2 语法：约束采样
6.5 输出验证 (2/2)
6.6 小结
第7章高级文本生成技术与工具
7.1 模型输入/输出：基于LangChain加载量化模型
7.2 链：扩展LLM的能力 (1/2)
7.2.1 链式架构的关键节点：提示词模板7.2.2 多提示词链式架构
7.2 链：扩展LLM的能力 (2/2)
7.3 记忆：构建LLM的对话回溯能力 (1/2)
7.3.1 对话缓冲区7.3.2 窗口式对话缓冲区7.3.3 对话摘要
7.3 记忆：构建LLM的对话回溯能力 (2/2)
7.4 智能体：构建LLM系统
7.4.1 智能体的核心机制：递进式推理7.4.2 LangChain中的ReAct实现
7.5 小结
第8章语义搜索与检索增强生成
8.1 语义搜索与RAG技术全景
8.2 语言模型驱动的语义搜索实践 (1/4)
8.2.1 稠密检索
8.2 语言模型驱动的语义搜索实践 (2/4)
8.2 语言模型驱动的语义搜索实践 (3/4)
8.2.2 重排序8.2.3 检索评估指标体系
8.2 语言模型驱动的语义搜索实践 (4/4)
8.3 RAG (1/2)
8.3.1 从搜索到RAG8.3.2 示例：使用LLM API进行基于知识的生成8.3.3 示例：使用本地模型的RAG8.3.4 高级RAG技术
8.3 RAG (2/2)
8.3.5 RAG效果评估
8.4 小结
第9章多模态LLM
9.1 视觉Transformer
9.2 多模态嵌入模型 (1/2)
9.2.1 CLIP：构建跨模态桥梁9.2.2 CLIP的跨模态嵌入生成机制9.2.3 OpenCLIP
9.2 多模态嵌入模型 (2/2)
9.3 让文本生成模型具备多模态能力 (1/3)
9.3.1 BLIP-2：跨越模态鸿沟9.3.2 多模态输入预处理
9.3 让文本生成模型具备多模态能力 (2/3)
9.3.3 用例1：图像描述9.3.4 用例2：基于聊天的多模态提示词
9.3 让文本生成模型具备多模态能力 (3/3)
9.4 小结
第三部分训练和微调语言模型
第10章构建文本嵌入模型
10.1 嵌入模型
10.2 什么是对比学习
10.3 SBERT
10.4 构建嵌入模型 (1/3)
10.4.1 生成对比样本10.4.2 训练模型10.4.3 深入评估
10.4 构建嵌入模型 (2/3)
10.4.4 损失函数
10.4 构建嵌入模型 (3/3)
10.5 微调嵌入模型 (1/2)
10.5.1 监督学习10.5.2 增强型SBERT
10.5 微调嵌入模型 (2/2)
10.6 无监督学习
10.6.1 基于Transformer的序列去噪自编码器10.6.2 使用TSDAE进行领域适配
10.7 小结
第11章为分类任务微调表示模型
11.1 监督分类11.1.1 微调预训练的BERT模型11.1.2 冻结层
11.2 少样本分类 (1/2)
11.2.1 SetFit：少样本场景下的高效微调方案11.2.2 少样本分类的微调
11.2 少样本分类 (2/2)
11.3 基于掩码语言建模的继续预训练
11.4 命名实体识别 (1/2)
11.4.1 数据准备
11.4 命名实体识别 (2/2)
11.4.2 命名实体识别的微调
11.5 小结
第12章微调生成模型
12.1 LLM训练三步走：预训练、监督微调和偏好调优
12.2 监督微调 (1/2)
12.2.1 全量微调12.2.2 参数高效微调
12.2 监督微调 (2/2)
12.3 使用QLoRA进行指令微调
12.3.1 模板化指令数据12.3.2 模型量化12.3.3 LoRA配置12.3.4 训练配置12.3.5 训练
12.3.6 合并权重
12.4 评估生成模型12.4.1 词级指标12.4.2 基准测试12.4.3 排行榜12.4.4 自动评估12.4.5 人工评估
12.5 偏好调优、对齐
12.6 使用奖励模型实现偏好评估自动化 (1/2)
12.6.1 奖励模型的输入和输出12.6.2 训练奖励模型
12.6 使用奖励模型实现偏好评估自动化 (2/2)
12.6.3 训练无奖励模型
12.7 使用DPO进行偏好调优
12.7.1 对齐数据的模板化12.7.2 模型量化12.7.3 训练配置12.7.4 训练
12.8 小结
附录A 图解DeepSeek-R1 (1/3)
附录A 图解DeepSeek-R1 (2/3)
附录A 图解DeepSeek-R1 (3/3)
后记
作者简介
封面简介

Content preview from 图解大模型 : 生成式AI 原理与实战

文本分类

｜

113

precision recall f1-score support

Negative review 0.87 0.97 0.92 533

Positive review 0.96 0.86 0.91 533

accuracy 0.91 1066

macro avg 0.92 0.91 0.91 1066

weighted avg 0.92 0.91 0.91 1066

0.91

的

分数让我们得以看到

GPT-3.5

模型性能的冰山一角。就是这个模型让生成式

走向了大众。然而，由于我们不知道模型是用什么数据训练的，因此无法轻易使用这类指

标来评估模型。就我们所知，它可能在我们所用的数据集上训练过！

在第

章中，我们将探索如何在更通用的任务上评估开源模型和专有模型。

4.7

　小结

在本章中，我们讨论了执行各种分类任务的技术：从对整个模型进行微调，到完全不进行

微调。对文本数据进行分类并不像表面上看起来那么简单，且有大量创新的技术可以应用。

在本章中，我们探索了使用生成模型和表示模型进行文本分类。我们的目标是根据输入文

本分配标签或类别，用于对评论的情感进行分类。

我们探索了两种类型的表示模型：特定任务模型和嵌入模型。特定任务模型是在大型数据

集上专门针对情感分析进行预训练的，它表明预训练模型对文档分类而言是一种很好的技

术。嵌入模型用于生成通用嵌入向量，我们将其作为训练分类器的输入。

同样，我们探索了两种类型的生成模型：开源的编码器

解码器模型（

FLAN-T5

）和专有

的仅解码器模型（ ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9787115670830

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

图解大模型 : 生成式AI 原理与实战

by Jay Alammar, Maarten Grootendorst

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

More than 5,000 organizations count on O’Reilly

Julian F.

Addison B.

Amir M.

Mark W.

You might also like

大模型应用开发极简入门 : 基于GPT-4 和ChatGPT（第2版）

码农的零门槛AI课：基于fastai与PyTorch的深度学习

生成式人工智能可视化

金融人工智能：用Python实现AI量化交易

Publisher Resources