book

AI工程

Name: AI工程
Author: Chip Huyen
ISBN: 0642572267506

by Chip Huyen

October 2025

Beginner to intermediate

534 pages

6h 18m

Chinese

O'Reilly Media, Inc.

Audio summary available

Read now

Unlock full access

序言
本书内容本书不是什么本书适用对象本书导航本书使用的约定使用代码示例O'Reilly 在线学习如何联系我们致谢
1.使用基础模型构建人工智能应用简介
人工智能工程的崛起从语言模型到大型语言模型从大型语言模型到基础模型从基础模型到人工智能工程基础模型用例编码图像和视频制作写作教育对话机器人信息聚合数据组织工作流自动化规划人工智能应用用例评估设定预期里程碑规划维护人工智能工程堆栈人工智能堆栈的三个层次人工智能工程与 ML 工程人工智能工程与全栈工程概述
2.了解基础模型
训练数据多语言模型特定领域模型建模模型架构模型规模培训后监督微调偏好微调采样取样基础采样策略测试时间计算结构化输出人工智能的概率本质摘要
3.评估方法
评估基础模型的挑战了解语言建模指标熵交叉熵每字符比特数和每字节比特数复杂性复杂性解释和使用案例精确评估功能正确性与参考数据的相似性测量嵌入简介人工智能作为法官为何将人工智能用作法官？如何将人工智能用作法官人工智能作为法官的局限性哪些模型可以充当法官？通过比较评估对模型进行排序比较评估的挑战比较评估的未来摘要
4.评估人工智能系统
评估标准特定领域的能力生成能力遵循指令的能力成本与延迟模型选择模型选择工作流程模型构建与购买浏览公共基准设计您的评估管道步骤 1.评估系统中的所有组件步骤 2.创建评估指南步骤 3.确定评估方法和数据摘要
5.prompt 工程
提示简介情境学习：零镜头和少镜头系统提示和用户提示情境长度和情境效率提示工程最佳实践编写清晰明确的指令提供充分的语境将复杂任务分解为较简单的子任务给模型思考的时间迭代提示器评估提示工程工具组织和版本提示防御性提示工程专有提示和反向提示工程越狱和提示注入信息提取防范提示攻击摘要
6.RAG 与代理
RAGRAG 架构检索算法检索优化文本之外的 RAG代理代理概述工具规划代理失败模式和评估记忆摘要
7.微调
微调概述何时进行微调进行微调的原因不进行微调的原因微调与 RAG内存瓶颈反向传播和可训练参数记忆数学数值表示量化微调技术参数高效微调模型合并与多任务微调微调策略摘要
8.数据集工程
数据整理数据质量数据覆盖率数据数量数据采集与注释数据扩充与合成为什么要进行数据合成传统数据合成技术人工智能驱动的数据合成模型蒸馏数据处理检查数据重复数据清理和过滤数据格式化数据摘要
9.推理优化
了解推理优化推理概述推理性能指标人工智能加速器推理优化模型优化推理服务优化概要

10.人工智能工程架构和用户反馈
人工智能工程架构步骤 1.增强语境步骤 2.设置防护栏步骤 3.添加路由器和网关模型步骤 4.使用缓存降低延迟步骤 5.添加代理模式监控和可观测性人工智能管道协调用户反馈提取对话反馈反馈设计反馈限制概述
后记
索引
关于作者

Content preview from AI工程

第 4 章评估人工智能系统评估人工智能系统

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

一个模型只有在达到预期目的时才是有用的。您需要根据自己的应用情况对模型进行评估。第 3 章讨论了自动评估的不同方法。本章将讨论如何使用这些方法为您的应用评估模型。

本章包括三个部分。首先讨论您可能用于评估应用程序的标准，以及如何定义和计算这些标准。例如，很多人担心人工智能会捏造事实--如何检测事实的一致性？如何衡量数学、科学、推理和总结等特定领域的能力？

第二部分侧重于模型选择。由于可供选择的基础模型越来越多，要为自己的应用选择合适的模型可能会感到力不从心。为了按照不同的标准评估这些模型，已经推出了数以千计的基准。这些基准可信吗？如何选择使用哪些基准？汇总多个基准的公共排行榜如何？

模型领域充斥着各种专有模型和开源模型。许多团队需要反复考察的一个问题是，是托管自己的模型还是使用模型 API。随着建立在开源模型之上的模型 API 服务的推出，这个问题变得更加微妙。

最后一部分将讨论开发一个评估管道，它可以长期指导您的应用程序的开发。这一部分汇集了我们在全书中学到的评估具体应用的技术。

评估标准

从未部署过的应用程序和已部署但无人知晓其是否有效的应用程序，哪个更糟糕？当我在会议上问到这个问题时，大多数人都说是后者。已部署但无法评估的应用程序更糟糕。它的维护成本很高，但如果你想把它撤下来，成本可能会更高。

不幸的是，人工智能应用程序的投资回报令人怀疑，这种情况很常见。出现这种情况不仅是因为应用程序难以评估，还因为应用程序开发人员无法了解应用程序的使用情况。一家二手车行的 ML 工程师告诉我，他的团队建立了一个模型，根据车主提供的规格来预测汽车的价值。模型部署一年后，他们的用户似乎很喜欢这个功能，但他不知道模型的预测是否准确。在 ChatGPT 热潮兴起之初，各公司纷纷部署客户支持聊天机器人。他们中的许多人仍不确定这些聊天机器人对用户体验是有帮助还是有伤害。

在投入时间、金钱和资源构建应用程序之前，了解如何对该应用程序进行评估非常重要。我称这种方法为评估驱动开发。这个名字的灵感来源于软件工程中的测试驱动开发，指的是在编写代码之前先编写测试的方法。在人工智能工程中，评估驱动开发指的是在构建之前定义评估标准。

评估驱动的开发

虽然有些公司追逐最新的炒作，但明智的商业决策仍然是基于投资回报，而不是炒作。要部署应用程序，就必须证明其价值。因此，生产中最常见的企业应用是那些有明确评估标准的应用：

推荐系统之所以常见，是因为其成功与否可以通过参与率或购买率的提高来评估。¹
欺诈检测系统的成功与否可以通过防止欺诈节省了多少资金来衡量。
编码是一种常见的生成式人工智能用例，因为与其他生成任务不同，生成的代码可以通过功能正确性进行评估。
尽管基础模型是开放式的，但它们的许多用例都是封闭式的，例如意图分类、情感分析、下一步行动预测等。评估分类任务要比评估开放式任务容易得多。

虽然从业务角度来看，以评估为导向的开发方法是合理的，但只关注结果可以衡量的应用程序，就好比在灯柱下（晚上）寻找丢失的钥匙。这样做比较容易，但并不意味着我们就能找到钥匙。我们可能会错过许多可能改变游戏规则的应用，因为没有简单的评估方法。

我认为，评估是人工智能应用的最大瓶颈。能够建立可靠的评估管道将开启许多新的应用。

因此，一个人工智能应用程序应该从一个特定于该应用程序的评估标准列表开始。一般来说，可以将标准分为以下几类：特定领域能力、生成能力、指令跟踪能力以及成本和延迟。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 0642572267506

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

AI工程

by Chip Huyen

第 4 章评估人工智能系统评估人工智能系统

评估标准

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.