book

设计机器学习系统

Name: 设计机器学习系统
Author: Chip Huyen
ISBN: 9798341656659

by Chip Huyen

May 2025

Beginner to intermediate

388 pages

4h 42m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

序言
本书适合人群本书不是什么本书导航GitHub 存储库和社区本书使用的约定使用代码示例O'Reilly 在线学习如何联系我们致谢
1.机器学习系统概述
何时使用机器学习机器学习使用案例了解机器学习系统研究与生产中的机器学习机器学习系统与传统软件摘要
2.机器学习系统设计入门
业务和 ML 目标对 ML 系统的要求可靠性可扩展性可维护性适应性迭代过程构建 ML 问题ML 任务类型目标函数思维与数据摘要
3.数据工程基础
数据来源数据格式JSON行主格式与列主格式文本与二进制格式数据模型关系模式NoSQL结构化数据与非结构化数据数据存储引擎和处理事务处理和分析处理ETL：提取、转换和加载数据流模式通过数据库传递数据通过服务传递数据实时传输数据批处理与流式处理摘要
4.训练数据
取样非概率抽样简单随机抽样分层抽样加权取样水库取样重要性取样标签手工标签天然标签处理缺少标签的问题阶级失衡阶级失衡的挑战处理阶级失衡数据扩充简单的标签保护变换扰动数据综合摘要
5.特征工程
学习功能与设计功能常见功能工程操作处理缺失值缩放离散化分类特征编码特色穿越离散和连续位置嵌入数据泄漏数据泄漏的常见原因检测数据泄漏良好的工程特性功能重要性特征泛化摘要
6.模型开发和离线评估
模型开发与培训评估 ML 模型合奏实验跟踪和版本管理分布式培训AutoML模型离线评估基线评估方法摘要
7.模型部署和预测服务
机器学习部署误区误区 1：一次只能部署一两个 ML 模型误区 2：如果我们什么都不做，模型性能就会保持不变误区 3：您不需要经常更新模型误区 4：大多数 ML 工程师无需担心规模问题批量预测与在线预测从批量预测到在线预测统一批处理管道和流管道压缩模型低库因式分解知识提炼修剪量化云上和边缘的 ML为边缘设备编译和优化模型浏览器中的 ML摘要
8.数据分发和监测
ML 系统故障的原因软件系统故障多语言失效数据分布转移数据分布偏移的类型一般数据分布转移检测数据分布变化应对数据分布变化监测和可观测性特定于 ML 的指标监测工具箱可观察性摘要
9.在生产中不断学习和测试
持续学习无状态再培训与有状态培训为什么要持续学习？持续学习的挑战持续学习的四个阶段多久更新一次模型生产测试影子部署A/B 测试金丝雀发布交错实验强盗摘要

10.MLOps 的基础设施和工具
存储和计算公共云与私有数据中心开发环境开发环境设置标准化开发环境从开发到生产容器资源管理Cron、调度器和协调器数据科学工作流程管理ML 平台模型部署模型商店特色商店建造与购买摘要
11.机器学习的人性一面
用户体验确保用户体验的一致性与 "基本正确 "的预测作斗争顺利失败团队结构跨职能团队协作端到端数据科学家负责任的人工智能不负责任的人工智能：案例研究负责任的人工智能框架摘要
后记
索引
关于作者

Content preview from 设计机器学习系统

第 7 章模型部署和预测服务模型部署和预测服务

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

在第 4章至第 6 章中，我们讨论了开发 ML 模型的注意事项，从创建训练数据、提取特征、开发模型到制定评估模型的指标。如图 7-1 所示，这些考虑因素构成了模型的逻辑--即如何从原始数据转化为 ML 模型的指令。开发这一逻辑既需要 ML 知识，也需要学科专业知识。在许多公司，这是流程的一部分，由 ML 或数据科学团队完成。

在本章中，我们将讨论迭代过程的另一个部分：部署模型。"部署 "是一个宽泛的术语，一般指使模型运行并可访问。在模型开发过程中，模型通常在开发环境中运行。¹要部署模型，就必须离开开发环境。模型可以部署到暂存环境中进行测试，也可以部署到生产环境中供最终用户使用。在本章中，我们将重点讨论将模型部署到生产环境的问题。

在我们继续讨论之前，我想强调，生产是一个范围。对于某些团队来说，生产意味着在笔记本中生成漂亮的图表，向业务团队展示。而对于其他团队来说，生产意味着让你的模型每天为数百万用户正常运行。如果您的工作属于第一种情况，那么您的生产环境与开发环境类似，本章与您的关系不大。如果您的工作更接近第二种情况，请继续阅读。

我曾在网上看到过这样一句话：如果你忽略了所有困难的部分，部署工作就会变得很简单。如果你想部署一个模型给你的朋友们玩，你所要做的就是用 Flask 或 FastAPI 将你的预测函数封装在一个 POST 请求端点中，将这个预测函数运行所需的依赖关系放在一个容器中、²并将您的模型及其相关容器推送到 AWS 或 GCP 等云服务，以公开该端点：

# Example of how to use FastAPI to turn your predict function 
# into a POST endpoint
@app.route('/predict', methods=['POST'])
def predict():
    X = request.get_json()['X']
    y = MODEL.predict(X).tolist()
    return json.dumps({'y': y}), 200

您可以在下游应用程序中使用该暴露端点：例如，当应用程序收到用户的预测请求时，该请求会被发送到暴露端点，而暴露端点会返回预测结果。如果你熟悉必要的工具，你可以在一小时内完成功能部署。我的学生经过 10 周的课程学习后，都能部署一个 ML 应用程序作为他们的最终项目，尽管很少有人有过部署经验。³

困难的部分包括：以毫秒级的延迟和 99% 的正常运行时间向数百万用户提供模型；设置基础架构，以便在出现问题时立即通知正确的人员；找出问题所在；以及无缝部署更新以修复问题。

在许多公司，部署模型的责任由开发这些模型的人承担。在其他许多公司，一旦模型准备好部署，就会将其导出并移交给另一个团队进行部署。然而，这种职责分离会造成跨团队沟通的高开销，并使模型更新缓慢。如果出现问题，也很难进行调试。我们将在第 11 章详细讨论团队结构。

备注

导出模型是指将模型转换成另一个应用程序可以使用的格式。有人将这一过程称为 "序列化"。⁴您可以导出模型的两个部分：模型定义和模型参数值。模型定义定义了模型的结构，例如有多少个隐藏层，每层有多少个单元。参数值提供了这些单元和层的值。通常，这两部分是一起输出的。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341656659

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

设计机器学习系统

by Chip Huyen

第 7 章模型部署和预测服务模型部署和预测服务

图 7-1. 构成 ML 模型逻辑的不同方面

备注

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.