Skip to Content
学习 AutoML (Chinese Edition)
book

学习 AutoML (Chinese Edition)

by Kerem Tomak
April 2026
Intermediate
586 pages
7h 41m
Chinese
O'Reilly Media, Inc.
Content preview from 学习 AutoML (Chinese Edition)

第五部分:案例 研究

第 1 章中,我分享了曾经需要我的团队花费数月才能完成的机器学习项目,如今通过自动化技术,仅需几天甚至几小时即可完成。在第 2 章中,我们追溯了 AutoML 从学术原型到企业级平台的演变历程,见证了 AutoGluon 和 Vertex AI 等工具如何改变了技术可能性的边界。第 3 章则揭示了其背后的复杂管道架构——正是自动特征工程、超参数优化以及集成学习方法,才使得这种加速成为可能。

然而,理解AutoML的工作原理与将其成功部署到生产环境之间存在一道鸿沟——这是我通过惨痛教训才领悟到的。

三年前,我受邀前往一家大型金融机构,试图挽救一个欺诈检测项目。数据科学团队在 Jupyter 笔记本中构建了一个完美的模型——98.7% 的准确率、优雅的集成架构、令人印象深刻的交叉验证分数。所有人都兴奋不已。随后,他们将其部署到了生产环境中。

不到48小时,系统就将47,000笔合法交易误判为欺诈。客服部门不堪重负。欺诈运营团队被误报淹没。而该模型的实际欺诈检测率呢?仅为惨淡的73%,远低于它本应取代的基于规则的系统。该项目距离被叫停仅剩几天时间。

问题出在哪里?

该模型是在随机打乱的数据上训练的,而非按时间顺序排列的数据,这导致了数据泄漏,从而虚高了离线性能。那些在批处理中表现优异的特征,在实时决策所需的100毫秒时间窗口内无法计算。 在欺诈率仅为0.08%的情况下,98.7%的准确率指标毫无意义——他们本应优化PR-AUC而非准确率。而且,没有人针对模型漂移或自动重新训练做出规划。

“在Jupyter上运行正常”与“在生产环境中运行正常”之间的鸿沟,又吞噬了一名牺牲者。

生产环境中的 AutoML 现实

贯穿全书,我们探讨了AutoML的承诺:让机器学习普惠大众、加速开发进程、并自动化繁琐任务。这些都是事实。但生产环境会带来教科书鲜少提及的限制。

不容妥协的时间限制

那个欺诈检测系统?它必须在 100 毫秒内返回预测结果——不是 150 毫秒,也不是 200 毫秒。一旦错过这个时限,交易就会超时。客户体验将因此受损。AutoML 的自动超参数调优固然出色,但如果生成的集成模型运行速度过慢而无法投入生产,这一切便毫无意义。

教程中从未提及的数据质量问题

我们练习时使用的 UCI 数据集干净、完整且一致。而生产数据呢?由于客户屏蔽了指纹识别,其中 15% 的设备 ID 缺失。时间戳横跨 47 个时区,且夏令时处理不一致。其中还包含准确率仅为 60% 的欺诈标签,因为调查有时过于草率。

警告

AutoML无法修复劣质数据——它只会更快地学习错误的模式。数据质量验证并非可选项;它是每个成功生产系统的基石。

压倒准确率的业务约束

当我问“你们的成功指标是什么?”时,团队通常会回答“准确率”或“AUC”。但企业并非以AUC为优化目标——它们追求的是利润。在欺诈检测中,一次误报的调查成本为50美元;而一次漏报则会导致500美元的欺诈损失。针对这种成本结构的最优阈值,与能最大化F1分数的阈值截然不同。 AutoML 能提供出色的模型,但您必须根据正确的业务目标对其进行配置。

要求透明度的监管要求

当客户对被拒交易提出异议时,仅说“模型预测了欺诈”是不够的。您需要解释原因:哪些特征起到了作用、作用程度如何、影响方向如何。您需要 SHAP 值、审计日志,以及能满足合规团队要求的文档。

AutoML 的黑箱集成模型虽然强大,但可解释性并非可选项——而是必备条件。本节中的每个案例研究都包含基于 SHAP 的解释系统。

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

向量数据库 (Chinese Edition)

向量数据库 (Chinese Edition)

Nitin Borwankar

Publisher Resources

ISBN: 0642572369361