Skip to Content
构建机器学习管道
book

构建机器学习管道

by Hannes Hapke, Catherine Nelson
May 2025
Intermediate to advanced
366 pages
4h 36m
Chinese
O'Reilly Media, Inc.
Content preview from 构建机器学习管道

第 1 章 导言 导言

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com

在第一章中,我们将介绍机器学习管道,并概述构建管道的所有步骤。我们将解释将机器学习模型从实验转变为强大的生产系统需要发生的事情。我们还将介绍我们的示例项目,我们将在本书的其余部分使用该示例项目来演示我们所描述的原则。

为什么选择机器学习管道?

机器学习管道的主要优势在于模型生命周期步骤的自动化。 当新的训练数据可用时,应触发一个工作流程,其中包括数据验证、预处理、模型训练、分析和部署。我们观察到有太多的数据科学团队手动完成这些步骤,这不仅成本高昂,而且也是错误的根源。让我们来详细介绍一下机器学习管道的好处:

能够专注于新模式,而不是维护现有模式

自动化机器学习管道将把数据科学家从维护现有模型中解放出来。我们注意到,有太多的数据科学家将他们的时间花在了维护以前开发的模型上。他们手动运行脚本对训练数据进行预处理,编写一次性部署脚本,或者手动调整模型。自动化管道允许数据科学家开发新的模型,这是他们工作的乐趣所在。最终,这将提高工作满意度,并在竞争激烈的就业市场中留住人才。

预防虫子

自动化管道可以防止出现错误。我们将在后面的章节中看到,新创建的模型将与一组版本化数据绑定,预处理步骤将与已开发的模型绑定。这意味着,如果收集到新数据,就会生成新模型。如果更新了预处理步骤,训练数据就会失效,并生成新的模型。在人工机器学习工作流程中,常见的错误源是在模型训练完成后更改了预处理步骤。在这种情况下,我们会使用与训练模型时不同的处理指令来部署模型。这些错误可能真的很难调试,因为模型推理仍然是可能的,只是不正确而已。有了自动化工作流程,这些错误就可以避免了。

有用的文件线索

实验跟踪和模型发布管理会生成模型更改的书面记录。实验将记录模型超参数的变化、使用的数据集以及由此产生的模型指标(如损失或准确度)。模型发布管理将记录最终选择和部署的模型。如果数据科学团队需要重新创建模型或跟踪模型的性能,这种纸质跟踪尤其有价值。

标准化

标准化的机器学习管道可改善数据科学团队的体验。由于采用了标准化设置,数据科学家可以快速入职或跨团队工作,并找到相同的开发环境。这就提高了效率,减少了在新项目上的设置时间。建立机器学习管道的时间投入还能提高留任率。

管道的商业案例

实施自动化机器学习管道将为数据科学团队带来三个关键影响:

  • 新型模型的开发时间更长

  • 简化更新现有模型的流程

  • 减少复制模型的时间

所有这些方面都将降低数据科学项目的成本。此外,自动化机器学习管道也将降低成本:

  • 帮助检测数据集或训练模型中的潜在偏差。发现偏见可以防止与模型交互的人受到伤害。例如,亚马逊机器学习驱动的简历筛选器被发现对女性存在偏见。

  • 通过实验跟踪和模型发布管理)创建纸质跟踪,以便在出现有关数据保护法律(如欧洲的《通用数据保护条例》(GDPR))的问题时提供帮助。

  • 释放数据科学家的开发时间,提高他们的工作满意度。

何时考虑机器学习管道

机器学习管道具有多种优势,但并非每个数据科学项目都需要管道。 有时,数据科学家只是想用一个新模型做实验,研究一个新的模型架构,或者重现最近发表的一篇文章。在这些情况下,管道不会有用。但是,一旦模型有了用户(例如在应用程序中使用),它就需要不断更新和微调。在这种情况下,我们又回到了之前讨论的持续更新模型和减轻数据科学家这些任务负担的场景中。

随着机器学习项目的发展,管道也变得越来越重要。如果数据集或资源需求较大,我们所讨论的方法可以轻松实现基础设施扩展。如果重复性很重要,那么机器学习管道的自动化和审计跟踪功能就能提供重复性。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

What Successful Brick-and-Mortar Retailers Get Right

What Successful Brick-and-Mortar Retailers Get Right

Rob Angell
Search Marketing

Search Marketing

Kelly Cutler
What Successful Project Managers Do

What Successful Project Managers Do

W. Scott Cameron, Jeffrey S. Russell, Edward J. Hoffman, Alexander Laufer

Publisher Resources

ISBN: 9798341659292