Skip to Content
设计机器学习系统
book

设计机器学习系统

by Chip Huyen
May 2025
Beginner to intermediate
388 pages
4h 42m
Chinese
O'Reilly Media, Inc.
Content preview from 设计机器学习系统

第 10 章 MLOps 的基础设施和工具

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com

第 4章至第 6 章中,我们讨论了开发人工智能系统的逻辑。在第 7章至第9 章中,我们讨论了部署、监控和持续更新 ML 系统的注意事项。到目前为止,我们一直假定,人工智能从业人员可以使用他们所需的所有工具和基础设施来实现这一逻辑和执行这些注意事项。然而,这种假设远非事实。许多数据科学家告诉我,他们知道应该为他们的 ML 系统做哪些正确的事情,但他们做不到,因为他们的基础设施没有设置成能够让他们这样做的方式。

ML 系统是复杂的。系统越复杂,就越能从良好的基础设施中受益。基础设施如果设置得当,可以帮助实现流程自动化,减少对专业知识和工程时间的需求。这反过来又能加快 ML 应用程序的开发和交付,减少错误的表面积,并实现新的用例。但是,如果基础架构设置不当,使用起来会很痛苦,更换起来也很昂贵。在本章中,我们将讨论如何为 ML 系统正确设置基础架构。

在我们深入探讨之前,,每家公司对基础设施的需求都不尽相同,这一点很重要。您所需的基础设施取决于您开发的应用程序的数量以及应用程序的专业化程度。有的公司将 ML 用于临时业务分析,例如预测明年的新用户数量,并在季度计划会议上介绍。这些公司可能不需要投资任何基础设施--Jupyter Notebooks、Python 和 Pandas 将是他们最好的朋友。如果你只有一个简单的 ML 用例,比如一个用于对象检测的 Android 应用程序来向你的朋友展示,你可能也不需要任何基础架构--你只需要一个兼容 Android 的 ML 框架,比如 TensorFlow Lite。

在另一端,有一些公司从事具有独特要求的应用工作。例如,自动驾驶汽车有独特的准确性和延迟要求--算法必须能够在几毫秒内做出反应,其准确性必须近乎完美,因为错误的预测可能导致严重事故。同样,谷歌搜索也有独特的规模要求,因为大多数公司不会像谷歌那样每秒处理 63,000 次搜索查询,也就是每小时处理 2.34 亿次搜索查询。1这些公司很可能需要开发自己高度专业化的基础设施。谷歌为搜索开发了很大一部分内部基础设施;特斯拉和 Waymo 等自动驾驶汽车公司也是如此。2常见的情况是,部分专用基础设施后来被公开,并被其他公司采用。例如,谷歌将其内部云基础设施扩展到公共领域,形成了谷歌云平台(Google Cloud Platform)

处于中间位置的是大多数公司,这些公司将 ML 用于多种常见应用--欺诈检测模型、价格优化模型、客户流失预测模型、推荐系统等--且规模合理。"合理规模 "指的是那些每天处理的数据量在千兆字节和万兆字节之间的公司,而不是指那些每天处理 PB 级数据的公司。他们的数据科学团队可能由 10 到数百名工程师组成。3这类公司可能包括从 20 人初创公司到 Zillow 规模的任何公司,但不包括 FAAAM 规模的公司。4例如,早在 2018 年,Uber 每天要向其数据湖添加数十 TB 的数据,而 Zillow 最大的数据集每天要带来 2 TB 的未压缩数据。5相比之下,即使是在 2014 年,Facebook 每天也要产生4 PB 的数据。6

处于中间位置的公司可能会受益于日益标准化的通用 ML 基础架构(见图 10-1)。在本书中,我们将重点介绍在合理规模下绝大多数 ML 应用的基础架构。

图 10-1. 不同生产规模的企业对基础设施的要求

为了根据您的需求建立正确的基础设施 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

生成式AI在软件开发中的应用

生成式AI在软件开发中的应用

Sergio Pereira
Python机器学习基础教程

Python机器学习基础教程

Andreas C. Müller, Sarah Guido
生成式人工智能设计模式

生成式人工智能设计模式

Valliappa Lakshmanan, Hannes Hapke

Publisher Resources

ISBN: 9798341656659