Skip to Content
寻求 SRE
book

寻求 SRE

by David N. Blank-Edelman
July 2025
Intermediate to advanced
590 pages
6h 21m
Chinese
O'Reilly Media, Inc.
Content preview from 寻求 SRE

第 18 章 面向 SRE 的机器学习简介

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com

为什么要在 SRE 中使用机器学习?

用简单明了的话来说:因为它有意义,而且主要是因为我们(现在)可以这样做。

从根本上说,SRE 就是让软件工程师设计运维功能。1

本章基于我在维也纳 DrupalCon 上的演讲。在这里,我们将针对一些 SRE 开放性问题探索一些机器学习解决方案:

  • 我们该如何将那些只会产生劳累、没有人愿意做的重复性工作自动化呢?

  • 我们如何查看数据并预览系统未来会发生什么?

  • 如何强化 "将软件工程应用于运营功能"?

运营流程自动化是我们追求的重要目标。随着人工智能(AI)和机器学习技术的发展,我们可以自动化的任务也越来越多。如果我们保留历史数据,以程序化的方式对新事物做出反应,我们就能提前解决问题,因为系统会提醒我们将要发生什么,而不是让人手动分析过去的结果并试图预览未来。

我刚刚发现 AE35 设备有故障。它将在 72 小时内出现 100% 故障。

HAL 9000,《2001:太空漫游

这样,我们就有机会将时间用于更多的创新任务和功能开发。虽然这肯定不是一朝一夕就能实现的,但最近我们已经看到机器和人类工作之间的界限越来越细。通过机器学习和自动化带来的进步,我们可以提高团队和企业的生产力。

我试图让本章尽可能简单,因为它面向的读者是那些希望学习一些基础知识,了解如何探索和改进关键系统的自动化响应,并降低人工操作工作水平的人。本章的目的不是要深入探讨机器学习(请参阅本章末尾的参考文献),而只是让你了解开始使用这些技术有多么容易。因此,我会先介绍人工智能实现的基础知识,然后给出一些使用机器学习技术、行为分析、统计以及该领域特定工具的示例。

我的公司为什么以及如何参与其中?

一些大中型公司正在采用人工智能和机器学习技术,因为它可以通过揭示未知因素来增强人类对复杂交互和数据集的理解。这可以避免本可以避免的辛劳,还可以释放资源,使其更具创新性和创造性,为企业带来价值。这就是 SRE 的工作。

机器学习可帮助解决的一些 SRE 问题

按理说,我们可以利用自动处理例程和仔细观察所有过往事件的技术,推断出流程和服务的再生策略,从而解决 SRE 遇到的所有问题。但这一天还没有到来,我们现在只能通过研究以人工智能形式巧妙进入我们工作的创新自动化形式来预见这样的前景。

在我的日常工作中,我们有数千个实例在运行,为大量的生产站点提供支持。它们正在生成从多个数据中心传输过来的数十 PB 的数据以及相应的日志和指标。虽然一开始可能会让人难以承受,但我们仍在不断实现自动化,并努力寻找让机器为我们完成工作的方法。尽管如此,还是存在一定数量的警报,如果不加以控制,可能会失控。

下面列出了一些我们希望解决的操作难题,以改进 SRE 功能:

  • 自动降噪,过滤特定数据流

  • 通过异常检测查找异常值--例如,集群故障。

  • 围绕 "情况 "而非单个警报自动执行工作流。

  • 根据行为模式自动进行票单分类。

  • 对服务水平进行短期预测,对容量规划进行长期预测。

除此以外,还有其他现有的解决方案--例如,用于文本分析的垃圾邮件过滤、情感分析和信息提取。

所有这些都希望通过让机器完成其工作来减少人类的辛劳和警报。

应用人工智能的觉醒

作为企业的高级网站可靠性工程师,我倾向于寻找长期解决方案,让机器为我们工作,这是实现持久自动化的最佳途径。

这是一个仍在进行中的调查故事。除了要花费大量的时间和精力收集服务器数据、整理数据和处理数据外,还有许多复杂的软件选项(见 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

设计数据密集型应用程序

设计数据密集型应用程序

Martin Kleppmann
云数据湖

云数据湖

Rukmani Gopalan
软件工程基础

软件工程基础

Nathaniel Schutta, Dan Vega

Publisher Resources

ISBN: 9798341663169