book

学习 AutoML (Chinese Edition)

Name: 学习 AutoML (Chinese Edition)
Author: Kerem Tomak
ISBN: 0642572369361

by Kerem Tomak

April 2026

Intermediate

586 pages

7h 41m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

托马斯·H·达文波特序言
格雷戈里·惠勒序言
前言
我为何撰写此书本书适合哪些读者本书的结构第一部分：AutoML 基础第二部分：AutoML 核心技术第三部分：适用于不同数据类型的 AutoML第四部分：生产环境与 MLOps第五部分：案例研究针对不同目标的阅读策略实践学习方法本书采用的约定代码示例的使用O’Reilly 在线学习如何联系我们致谢
I. AutoML的基础
1. 什么是自动化机器学习？
对机器学习解决方案日益增长的需求解决数据科学人才短缺问题让 AI 开发普惠大众机器学习领域中的AutoML开源 AutoML 库企业级AutoML平台主流框架对比谁应该使用 AutoML？跨行业的AutoML：重塑业务流程金融医疗与生命科学零售与电子商务制造业其他行业分层用例模型克服障碍：AutoML面临的持续挑战可解释性（“黑箱”问题）定制化需求与自动化数据质量依赖性与鲁棒性计算成本与资源消耗解决偏见与公平性可扩展性与效率展望未来：塑造AutoML的未来趋势与大型语言模型（LLMs）及基础模型的协同作用新一代神经网络架构搜索（NAS）多模态可解释人工智能（MXAI）的成熟度通过低代码/无代码实现持续普及向边缘计算和联邦学习的扩展总结
2. AutoML的兴起与现状
早期自动化（2010年前）：奠定基础特征选择超参数搜索元学习研究早期方法的局限性第一代（2010–2015）：解决CASH问题Auto-WEKA (2013)Hyperopt (2013)SMAC（基于序列模型的算法配置）第一代的影响与遗产第二代（2015–2020）：解决易用性与企业应用问题Auto-sklearn (2015)PyCaret (2020)TPOT（基于树的管道优化工具）（2016）H2O AutoMLGoogle Cloud AutoML（现已并入 Vertex AI）第二代技术的影响与传承第三代（2020年至今）：解决多模态与MLOps问题AutoGluon（亚马逊）Google Vertex AIMLJAR 和 AWS SageMaker Autopilot第三代核心能力LLM 辅助的 AutoML 的兴起总结
3. 理解 AutoML 管道
自动化机器学习的架构数据预处理数据质量评估与清洗缺失数据处理策略数据验证与完整性检查特征工程多层次特征生成领域特定特征工程特征选择与剪枝表征学习集成超参数优化高级搜索策略多精度优化配置空间设计预算感知优化神经网络架构搜索搜索空间工程效率技术考虑硬件的架构搜索架构迁移与元学习模型选择、集成与堆叠基于多样性的集成构建高级堆叠技术动态集成模型选择资源感知型集成优化模型部署与监控生产就绪性考量可扩展性与性能优化模型监控与维护可解释性与可说明性管道集成与优化跨阶段优化策略资源分配与管理反馈机制与持续学习挑战与未来方向可扩展性与效率鲁棒性与可靠性普及化与可及性民主化的双刃剑摘要
第二章 AutoML 核心技术
4. 自动数据预处理与特征工程
工作数据集：RetailMart 电子商务平台智能数据剖析与质量评估智能数据类型处理与转换日期时间特征提取文本预处理管道自动化特征工程传统特征工程自动化高级特征学习技术智能特征选择与维度管理复杂与多模态数据预处理可投入生产的预处理管道总结
5. 超参数优化
超参数优化的挑战计算成本的挑战敏感度问题实际应用影响网格搜索与随机搜索：奠定基础网格搜索：系统化但受限随机搜索：一种出人意料地有效的替代方案实际比较现代实现何时使用哪种方法两种方法的局限性贝叶斯优化：从经验中学习核心洞见代理模型获取函数现实世界中的成功案例现代工具与实现AWS SageMaker 自动模型调优高级技术实际考量局限性与挑战早期停止与调度：更聪明地工作，而非更努力核心洞见连续减半：一种锦标赛方法Hyperband：资源分配的自动化异步连续减半（ASHA）基于种群的训练：训练过程中的进化层冻结：一种新型保真度维度实际实现实际应用结果与贝叶斯优化相结合何时早期终止效果最佳注意事项多精度优化：超越简单的提前终止多保真度范式高级多保真度方法实际应用案例研究：利用多保真度HPO优化个人投资组合背景与问题定义数据集与特征多保真度策略的实现实现资源管理与结果关键见解与实践考量早停机制的有效性模型类型的性能模式资源分配策略生产部署注意事项对个人从业者的启示何时使用多保真度优化摘要

6. 神经网络架构搜索（NAS）
理解神经网络架构搜索NAS的三大支柱搜索空间设计：界定边界约束的艺术搜索空间的类型任务特定考量新兴的专用搜索空间多目标搜索空间效率与发现的平衡NAS-Bench革命搜索策略：在草堆中寻找针搜索策略的演变选择搜索策略：实践视角强化学习：最初的方法进化算法：受自然启发的搜索可微分NAS：变革者基于梯度的方法与高级技术混合方法：兼收并蓄选择合适的策略性能评估：效率至上弥合评估差距训练瓶颈多保真度评估：减少训练，提升学习效果单次架构搜索：一次训练，多次评估学习曲线外推零成本代理模型：即时架构评估代理模型：学习预测性能结合多种方法以实现最高效率高效非线性优化（NAS）：实现实用化效率革命构建生产就绪的NAS系统权重共享：高效NAS的基础一次性网络：解耦训练与部署渐进式搜索策略硬件感知优化适用于 NAS 发现架构的生产部署工具用于快速过滤的零成本代理实用实现指南实际应用与工具现实世界中的 NAS：集成与部署AutoKeras：简单至上NNI：企业级 NASRay Tune + Optuna：灵活且强大行业成功案例从笔记本到生产环境：下一步行动摘要
第三章适用于不同数据类型的AutoML
7. 适用于表格数据的 AutoGluon
配置 AutoGluon 及运行环境安装选项平台特定说明设置开发环境性能考量Cloud环境建议为表格数据选择合适的AutoML框架TabularPredictor 基础加载和探索数据基本模型训练理解 TabularPredictor 的输出不同的预测方法二分类与多分类二元分类详解多分类回归任务回归与分类的区别解读回归性能自定义基本行为AutoGluon 的自动数据处理自动特征类型检测缺失值的处理分类编码高级自定义自定义超参数高级集成配置特征工程控制训练过程优化模型可解释性与调试可解释性工具特殊数据场景的处理何时使用高级自定义项目：泰坦尼克号生还率预测项目概述与业务背景数据探索与理解AutoGluon 基准模型针对泰坦尼克号的自定义特征工程泰坦尼克号模型解释性能评估与比较模型部署准备项目总结与业务影响本项目的扩展数据管道的一致性生产环境中模型的监控与维护监控实践AutoGluon 的监控工具总结
8. 文本与自然语言处理的 AutoML
AutoGluon 的 MultiModalPredictor 用于文本处理为何选择 MultiModalPredictor？底层模型架构实际应用表现构建文本分类模型您的首个文本分类模型理解模型选择超参数优化指南高级文本处理能力超越分类：高级自然语言处理任务Transformer 革命及其未来领域特定考量针对不同用例的模型选择追求最高准确率的应用平衡型应用高吞吐量应用实际应用与性能行业案例研究性能洞察生产部署注意事项针对部署场景的模型选择托管服务与自定义模型使用 SageMaker 部署自定义模型监控与维护性能与运维监控数据漂移检测重新训练与持续改进实践项目：新闻文章分类总结
9. 基于 AutoGluon 的时间序列预测
理解时间序列的挑战TimeSeriesPredictor入门指南基础模型与零样本预测Chronos-Bolt 架构零样本预测的实际影响处理复杂的多序列场景高级功能：协变量回归器协变量回归模型的实现协变量集成对业务的影响模型选择与超参数优化模型库预设配置自定义超参数配置评估与验证策略回测与时间感知验证业务相关指标生产部署与Cloud集成AWS 部署选项模型更新与监控实践项目：零售需求预测数据预处理与探索利用高级功能进行模型训练业务影响分析未来方向与新兴功能总结
10. 基于 AutoGluon 的计算机视觉
了解 AutoGluon 的计算机视觉能力自定义模型与托管服务之间的选择使用 SageMaker Ground Truth 构建训练数据集MultiModalPredictor 的优势基础模型集成现代计算机视觉架构任务类别与应用配置 AutoGluon 用于计算机视觉安装与环境配置硬件考量验证与基本配置使用 MultiModalPredictor 进行图像分类您的第一个图像分类模型了解数据格式与预处理模型架构选择与预设高级分类技术基于 AutoGluon 的目标检测理解目标检测基础目标检测设置增强的物体检测能力高级目标检测应用多模态计算机视觉应用图像与表格数据的结合图像与文本的集成真实世界计算机视觉项目：电子商务产品自动分类项目：电子商务产品自动分类数据准备与探索构建多模态分类系统性能分析与模型可解释性与电子商务系统的集成性能优化与最佳实践硬件优化策略模型监控与维护生产部署注意事项模型版本控制与更新SageMaker 端点部署SageMaker 无服务器推理：实现经济高效的部署AWS Panorama 用于边缘部署可扩展批处理服务总结
第四章生产环境与MLOps
11. 与 MLOps 工具的工作流集成
了解 AutoML 与 MLOps 的集成现状规模扩展的挑战可重复性至关重要实验追踪与模型管理分层实验组织构建产物管理策略使用 Kubeflow 进行工作流编排设计支持 AutoML 的管道资源管理与优化生产环境部署模式自动化验证与质量保证动态交付基础设施运维监控与维护监控与治理AutoML 特定的监控要求治理与合规框架集成挑战与解决方案构建产物激增的挑战确保自动化系统的可重现性连接技术领域与业务领域最佳实践与实施指南构建渐进式能力对齐与预期管理风险管理与并行系统可观测性作为基础组织学习与适应总结
12. 基于 Apache Airflow 的数据管道自动化
理解 AutoML 的数据管道要求机器学习工作流的 Airflow 架构核心组件Airflow 关键术语为 AutoML 数据摄取设计 DAG实践案例：完整的 AutoML 数据摄取 DAGDAG 的初始化和配置理解补救行为用于并行处理的动态任务映射特征工程管道与特征存储库处理延迟到达的数据数据契约与模式演进监控与数据质量门槛企业级 AutoML 的 Airflow 扩展运营卓越与最佳实践总结
13. AutoML 的部署与持续交付
AutoML部署面临的独特挑战机器学习的持续集成影子部署验证持续部署管道自动化模型的测试策略合约测试基于属性的测试变形测试对抗性测试模型打包与容器化实践案例：部署成人收入预测模型模型服务基础设施生产环境中的监控与可观测性Prometheus–Grafana 监控栈使用 Evidently 进行漂移检测安全与合规性考量输入净化与拒绝服务（DoS）防护对抗性攻击防御持续学习与反馈循环总结
V. 案例研究
14. 案例研究 1：金融服务——GlobalBank 的实时欺诈检测
业务问题与背景成功标准数据管道与预处理数据管道架构生产数据管道的注意事项特征工程1. 时间特征：欺诈行为具有规律性2. 速度特征：欺诈行为动作迅速3. 行为偏差：识别异常行为4. 商户风险评分5. 设备可信度特征影响总结使用 AutoGluon 进行模型开发成本敏感学习的样本权重AutoGluon 配置为何选择 PR-AUC 而不是 ROC-AUC？模型训练结果模型评估与可解释性寻找最优阈值基于SHAP的模型可解释性部署架构FastAPI 推理服务优雅降级策略监控与维护基于PSI的漂移检测自动化重新训练管道模型更新的 A/B 测试成果与经验教训性能指标业务影响关键经验合理的分工总结
15. 案例研究 2：零售业——全渠道需求预测
业务问题与背景规模化挑战警钟项目目标数据挑战：多源数据集成销售点数据电子商务数据库存数据营销与促销数据天气数据外部信号数据管道架构关键数据决策特征工程：捕捉需求驱动因素与业务对齐的指标时间特征（基线）全渠道行为特征（高影响力）天气驱动的需求（品类特定）促销特征（复杂交互）事件驱动型需求SKU特定属性模型开发：AutoGluon 用于大规模时间序列分析自动机器学习方法为何选择表格式 AutoML 处理时间序列？训练策略：基于时间的分割多期预测AutoGluon 配置关键配置决策处理数据稀疏性（长尾 SKU）训练基础设施评估：优先业务指标而非模型指标模型性能（按预测时限划分的 MAPE）加权平均 MAPE（与业务对齐）业务影响指标按类别划分的表现促销预测准确度预测偏差分析部署：生产环境预测管道销售管道架构技术栈预测交付监控：确保预测准确漂移检测业务成果与经验教训量化业务影响（上线后12个月）意外收益关键成功因素我们下次会采取的不同做法对您需求预测项目的启示AutoML在需求预测中的优势总结
16. 案例研究 3：医疗保健——患者再入院预测
业务挑战最棘手的限制：公平性现状项目目标数据挑战与HIPAA合规数据源与集成缺失数据模式数据质量问题特征工程：结构化与非结构化数据类别 1：人口统计学和社会决定因素（42 个特征）类别 2：临床复杂性与合并症（68 个特征）类别 3：就诊历史（53 个特征）类别 4：本次就诊特征（87 个特征）类别 5：临床记录嵌入（64 个特征）类别 6：时间与交互特征（33 个特征）模型开发：关注公平性的自动机器学习公平性挑战公平性指标定义基线模型：标准AutoGluon（无公平性约束）方法 1：移除受保护属性方法 2：对抗去偏见方法 3（最终方案）：带重新加权的公平感知集成模型最终模型配置评估：性能与公平性指标模型性能（总体）按种族划分的公平性指标按年龄组划分的公平性特征重要性（按SHAP排序的前20名）业务指标部署：临床工作流集成实时预测架构电子健康记录集成（Epic）临床决策支持警报护理管理工作流临床医生培训与变革管理临床医生的可解释性监管考量监控：模型漂移与公平性三层监测策略再培训计划业务成果与经验教训临床结果实践中的公平性意想不到的益处关键成功因素我们今后将采取的不同做法对您再入院项目的启示AutoML在医疗领域的卓越表现生产级AutoML蓝图：全面整合生产级 AutoML 的通用模式生产就绪检查清单结语摘要
后记：悄然发生的 AutoML 革命
兑现最初的承诺我们构建的基础基础模型的颠覆从自动化到自主化代理式AutoML的真实面貌新的技能缺口为何你所学的一切依然重要无人解答的治理难题前路何方结语
索引
关于作者

Content preview from 学习 AutoML (Chinese Edition)

格雷戈里·惠勒序言

自动化机器学习以各种形式存在已逾十年。算法已臻成熟，框架功能强大，Cloud平台更是为争夺业务展开激烈竞争。然而，大多数组织仍难以将笔记本电脑上那个前景可期的模型，转化为临床医生、监管机构或金融分析师能够信赖的系统。弥合验证分数与赢得信任之间的鸿沟，正是本书的核心目标。这本该早些问世。

这一鸿沟之所以长期存在，是因为生产环境中的机器学习并非建模问题的“升级版”，而是完全不同的问题。笔记本电脑上的模型解决的是统计学问题。而投入生产的模型则需向利益相关者、监管机构，以及其影响到的患者或客户负责。它必须接受漂移监测、公平性审计，向那些从未听说过梯度提升（gradient boosting）且对此不感兴趣的人进行解释，并由非开发团队进行维护。这些工作无一涉及算法层面。严格来说，其中大部分甚至不属于技术范畴。然而迄今为止，自动机器学习（AutoML）领域的文献几乎完全将其视为技术问题来撰写。

Kerem Tomak 为这一领域带来了罕见的综合经验。他不仅构建过生产系统，在自家公司利用 AutoML 开发过产品，还曾与分析及人工智能领域的领军人物合作，并将这些概念传授给从数据科学研究生到技术负责人乃至高管层的各类受众。他以一位长期深耕棘手问题的人士身份撰写本书，深知哪些问题至关重要、哪些可以舍弃，更重要的是，哪些问题往往被教科书所忽视。本书由此形成了一套完整的体系：从原始数据开始，经超参数优化与神经网络架构搜索，进而延伸至Airflow DAG、Kubeflow管道、机器学习持续集成与持续交付（CI/CD），直至生产环境中的监控与漂移检测。凯雷姆深知，将模型投入生产并非故事的终点，而仅仅是新的开始。

书末的三个案例研究将所有内容融会贯通。一家银行在百毫秒延迟限制下处理每日五千万笔交易；一家零售商需预测数百家门店和数万种SKU的需求；一个医院系统在遵守HIPAA合规要求的同时，需预测患者再入院率并确保算法在不同人口统计群体间的公平性。这些绝非简单的示例，而是能够检验你是否已足够深入地理解AutoML，从而能够负责任地部署它的关键问题。

医疗保健案例研究尤其值得关注。Tomak 带领读者逐步探索了三种消除偏见的方法——移除受保护属性、对抗性去偏见，以及最终采用具有事后校准功能的公平感知集成模型——并具体展示了为何那些简单粗暴的解决方案会失败。书中清晰且实用地论证了：即使从特征集移除种族属性，也无法防止通过邮政编码和保险类型产生的代理歧视，这一论证将令你印象深刻。在受监管的行业中，知晓代理歧视存在与掌握如何在生产管道中检测并缓解它之间的差距，正是学术论文与实际部署系统之间的本质区别。

无论您是希望深化实施技能的数据科学家、正在构建首个数据管道的领域专家，还是负责将 AutoML 投入生产的工程师，您都将在此找到一份既尊重问题难度又尊重读者智慧的指南。我很高兴 Kerem 撰写了这本书，也很高兴您即将阅读它。

格雷戈里·惠勒

计算科学与哲学教授

法兰克福金融与管理学院

2026年2月

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 0642572369361

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

学习 AutoML (Chinese Edition)

by Kerem Tomak

格雷戈里·惠勒序言

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.