Skip to Content
学习 AutoML (Chinese Edition)
book

学习 AutoML (Chinese Edition)

by Kerem Tomak
April 2026
Intermediate
586 pages
7h 41m
Chinese
O'Reilly Media, Inc.
Content preview from 学习 AutoML (Chinese Edition)

第 12 章. 基于 Apache Airflow 的数据 管道自动化

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com

即使是最先进的AutoML模型,其效果也取决于为其提供数据的管道质量。我在一个医疗保健分析项目中获得了这方面的直接经验:在开发阶段,我们的AutoML系统表现卓越,在150个常见诊断代码子集的ICD代码预测中,前三位准确率高达87%。然而,当部署到生产环境后,性能在第一个月内就骤降至仅72%。 罪魁祸首根本不在模型本身。我们的数据管道由定时脚本和人工干预构建而成,不仅输送过时数据、遗漏关键更新,还时常出现记录重复。AutoML系统完全按照设计要求在运作——即在数据中寻找规律——但数据本身从根本上就不可靠。

ICD-10包含超过70,000个编码,这使得全编码预测极具挑战性。生产系统通常专注于针对其用例相关最常见编码的Top-N准确率。

这一经验凝练出一个关键洞见,并构成了本章的核心:AutoML 使模型构建变得大众化,但同时也提高了对数据管道可靠性的要求。当业务分析师和领域专家能够以极少的编码工作创建生产级模型时,瓶颈便从模型开发转移到了数据基础设施上。那些掌握了 AutoML 却未掌握数据管道的组织,只不过是将问题推到了上游。

Apache Airflow 已成为协调复杂数据工作流的领先标准,但了解现有工具的整体格局同样重要。表 12-1展示了各平台的独特优势 。

表 12-1. 工作流 编排平台对比
工具 主要优势 最适合
Apache Airflow 成熟的生态系统、广泛的集成、庞大的社区 涉及多样化数据源的复杂企业工作流
Prefect 符合 Python 风格的 API、混合执行模型、动态工作流 偏好更现代的 Python 原生体验的团队
Dagster 软件定义的资产、强类型、机器学习专用功能 高度关注机器学习且具备资产中心化思维的数据团队
Mage 可视化管道构建器、实时管道 希望采用支持流处理的低代码方案的团队
Netflix Maestro Java后端,超大规模,经Netflix验证 需要集成 Java 生态系统的企业

在本章中,我们将重点关注 Airflow,因为它被广泛采用、文档详尽,并且在 AutoML 部署方面有着良好的记录。然而,我们讨论的架构模式——验证门、幂等操作、增量处理——无论您选择哪种编排工具都适用。

Airflow 的有向无环图(DAG)模型既具备处理机器学习数据管道动态、迭代特性的灵活性,又能满足生产系统对可靠性和可观测性的要求。在我为金融、医疗和零售机构实施 AutoML 系统的过程中,Airflow 始终证明了自己是将实验性 AutoML 转化为生产就绪型 AI 系统的关键纽带。

本章中的所有代码示例均已在 AutoGluon 1.4.0 版本上经过测试和验证。如需完整的实现、详细输出、实验变体以及其他高级技术,请参阅配套的 Jupyter 笔记本Chapter12.ipynb

理解 AutoML 的数据管道要求

传统的机器学习管道是为这样一个世界设计的:数据科学家手动构建特征并仔细调整单个模型。AutoML 从根本上改变了这些要求。当系统能够自动工程化特征、探索数千种模型配置并持续适应新数据时,支持它们的数据管道也必须相应地进化。

最显著的变化在于数据流速与模型适应性之间的关系。传统机器学习系统通常处理相对静态的数据集,模型重训练按季度或月度计划进行。相比之下,AutoML系统能够且应当更频繁地进行适应——利用其自动化能力,以跟上不断演变的数据模式。这给数据管道的可靠性和时效性带来了前所未有的要求。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

向量数据库 (Chinese Edition)

向量数据库 (Chinese Edition)

Nitin Borwankar

Publisher Resources

ISBN: 0642572369361