Skip to Content
可靠的机器学习
book

可靠的机器学习

by Cathy Chen, Niall Richard Murphy, Kranti Parisa, D. Sculley, Todd Underwood
May 2025
Beginner to intermediate
410 pages
4h 14m
Chinese
O'Reilly Media, Inc.
Content preview from 可靠的机器学习

第 9 章 模型的监测和可观测性 模型的监测和可观测性

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com

生产系统管理介于艺术和科学之间。将 ML 的复杂性添加到这门混合学科中,它看起来就不像是一门科学,而更像是一门艺术了。我们今天所做的在很大程度上是一个前沿领域,而不是一个定义明确的空间。尽管如此,本章还是概述了我们对如何监控、观察和预警 ML 生产系统的了解,并提出了在自己的组织内开展实践的建议。

什么是生产监控?

本章介绍如何监控正在进行 ML 的系统,而不是使用 ML 来监控系统。后者有时被称为AIOps;我们将重点讨论前者。

说到这里,让我们撇开 ML 的复杂性,笼统地谈谈生产监控,这样我们就能更容易地理解--还有什么比定义更容易理解的呢?监控,最基本的是提供有关系统运行情况的数据;这些数据以某种合理的方式可存储、可访问、可显示。可观察性是 软件的一个属性,这意味着在正确编写的情况下,发出的监控数据(通常以某种方式扩展或扩充,带有标签或标记)可用于正确推断系统的行为。1

你为什么会关心?原因有很多。最重要的是,监控可以让你弄清楚你的系统是否真的在工作。如果你是自愿购买并阅读本书的,那么你可能已经明白这一点有多么重要。不亚于 DevOps 运动创始人之一安德鲁-克莱-谢弗(Andrew Clay Shafer)的一位名人写道:"如果系统瘫痪,软件就没有价值"。如果你不认为这很重要,或者你理解这些论点但不相信它们,我们鼓励你阅读詹姆斯-特恩布尔(James Turnbull)的《监控的艺术》(2016)。不过,在本章的其余部分,我们假定你理解需要监控(和预警)系统状态,而需要讨论的是如何最好地做到这一点。

当然,情况远不止如此。首先,系统的表现通常并不像布尔值那样,要么完全向上,要么完全向下;一般来说,系统的表现可能在从极好到非常糟糕的范围内的任何地方。监控显然需要能够处理这种情况,并正确反映现实。

监控本身非常重要,但监控的一个分支也绝对重要:警报。一个有用的简化说法是,当事情出错时,人类会收到警报来解决这些问题。因此,在本段中,警报既要定义"事情出错 "的条件,又要能够可靠地通知负责人员事情不对--例如,分页。这是帮助 "捍卫用户体验 "的关键技术。

对于长期趋势分析、容量规划和对服务范围的总体了解而言,监测虽然不那么紧迫,但仍然至关重要。您可以使用此类监控数据来回答以下问题:我的服务是否具有成本效益?是否存在任何不明显的性能悬崖?是否存在数据分布漂移?例如,服务延迟与周末和工作周的用户行为有何关系?如果没有监控和可观察性,就无法真正回答所有这些问题。

它看起来像什么?

正如我们所提到的,要进行监控,,必须有一个监控系统以及要监控的系统(这里称为目标系统)。如今, 目标系统会发出度量值--通常是一系列数字,并带有标识名称--然后由监控系统收集并以各种方式进行转换,通常是通过聚合(产生 总和或跨多个实例或机器的速率)或装饰(在相同数据上添加事件细节等)。这些汇总的指标可用于系统分析、调试和前面提到的警报

一个具体的例子是,一个网络服务器有一个关于它收到的请求总数的指标;这个指标有一个名称--比如,在本例中,server.requests_total 。(当然,它可以是任何请求/响应架构,比如 ML 模型!)监控系统将获取这些指标,通常是通过 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

构建数据集成解决方案

构建数据集成解决方案

Jay Borthen
Changemakers

Changemakers

Maria Giuduce, Christopher Ireland
AI工程

AI工程

Chip Huyen
Trivergence

Trivergence

Bob Tapscott

Publisher Resources

ISBN: 9798341659254