book

学习 AutoML (Chinese Edition)

Name: 学习 AutoML (Chinese Edition)
Author: Kerem Tomak
ISBN: 0642572369361

by Kerem Tomak

April 2026

Intermediate

586 pages

7h 41m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

托马斯·H·达文波特序言
格雷戈里·惠勒序言
前言
我为何撰写此书本书适合哪些读者本书的结构第一部分：AutoML 基础第二部分：AutoML 核心技术第三部分：适用于不同数据类型的 AutoML第四部分：生产环境与 MLOps第五部分：案例研究针对不同目标的阅读策略实践学习方法本书采用的约定代码示例的使用O’Reilly 在线学习如何联系我们致谢
I. AutoML的基础
1. 什么是自动化机器学习？
对机器学习解决方案日益增长的需求解决数据科学人才短缺问题让 AI 开发普惠大众机器学习领域中的AutoML开源 AutoML 库企业级AutoML平台主流框架对比谁应该使用 AutoML？跨行业的AutoML：重塑业务流程金融医疗与生命科学零售与电子商务制造业其他行业分层用例模型克服障碍：AutoML面临的持续挑战可解释性（“黑箱”问题）定制化需求与自动化数据质量依赖性与鲁棒性计算成本与资源消耗解决偏见与公平性可扩展性与效率展望未来：塑造AutoML的未来趋势与大型语言模型（LLMs）及基础模型的协同作用新一代神经网络架构搜索（NAS）多模态可解释人工智能（MXAI）的成熟度通过低代码/无代码实现持续普及向边缘计算和联邦学习的扩展总结
2. AutoML的兴起与现状
早期自动化（2010年前）：奠定基础特征选择超参数搜索元学习研究早期方法的局限性第一代（2010–2015）：解决CASH问题Auto-WEKA (2013)Hyperopt (2013)SMAC（基于序列模型的算法配置）第一代的影响与遗产第二代（2015–2020）：解决易用性与企业应用问题Auto-sklearn (2015)PyCaret (2020)TPOT（基于树的管道优化工具）（2016）H2O AutoMLGoogle Cloud AutoML（现已并入 Vertex AI）第二代技术的影响与传承第三代（2020年至今）：解决多模态与MLOps问题AutoGluon（亚马逊）Google Vertex AIMLJAR 和 AWS SageMaker Autopilot第三代核心能力LLM 辅助的 AutoML 的兴起总结
3. 理解 AutoML 管道
自动化机器学习的架构数据预处理数据质量评估与清洗缺失数据处理策略数据验证与完整性检查特征工程多层次特征生成领域特定特征工程特征选择与剪枝表征学习集成超参数优化高级搜索策略多精度优化配置空间设计预算感知优化神经网络架构搜索搜索空间工程效率技术考虑硬件的架构搜索架构迁移与元学习模型选择、集成与堆叠基于多样性的集成构建高级堆叠技术动态集成模型选择资源感知型集成优化模型部署与监控生产就绪性考量可扩展性与性能优化模型监控与维护可解释性与可说明性管道集成与优化跨阶段优化策略资源分配与管理反馈机制与持续学习挑战与未来方向可扩展性与效率鲁棒性与可靠性普及化与可及性民主化的双刃剑摘要
第二章 AutoML 核心技术
4. 自动数据预处理与特征工程
工作数据集：RetailMart 电子商务平台智能数据剖析与质量评估智能数据类型处理与转换日期时间特征提取文本预处理管道自动化特征工程传统特征工程自动化高级特征学习技术智能特征选择与维度管理复杂与多模态数据预处理可投入生产的预处理管道总结
5. 超参数优化
超参数优化的挑战计算成本的挑战敏感度问题实际应用影响网格搜索与随机搜索：奠定基础网格搜索：系统化但受限随机搜索：一种出人意料地有效的替代方案实际比较现代实现何时使用哪种方法两种方法的局限性贝叶斯优化：从经验中学习核心洞见代理模型获取函数现实世界中的成功案例现代工具与实现AWS SageMaker 自动模型调优高级技术实际考量局限性与挑战早期停止与调度：更聪明地工作，而非更努力核心洞见连续减半：一种锦标赛方法Hyperband：资源分配的自动化异步连续减半（ASHA）基于种群的训练：训练过程中的进化层冻结：一种新型保真度维度实际实现实际应用结果与贝叶斯优化相结合何时早期终止效果最佳注意事项多精度优化：超越简单的提前终止多保真度范式高级多保真度方法实际应用案例研究：利用多保真度HPO优化个人投资组合背景与问题定义数据集与特征多保真度策略的实现实现资源管理与结果关键见解与实践考量早停机制的有效性模型类型的性能模式资源分配策略生产部署注意事项对个人从业者的启示何时使用多保真度优化摘要

6. 神经网络架构搜索（NAS）
理解神经网络架构搜索NAS的三大支柱搜索空间设计：界定边界约束的艺术搜索空间的类型任务特定考量新兴的专用搜索空间多目标搜索空间效率与发现的平衡NAS-Bench革命搜索策略：在草堆中寻找针搜索策略的演变选择搜索策略：实践视角强化学习：最初的方法进化算法：受自然启发的搜索可微分NAS：变革者基于梯度的方法与高级技术混合方法：兼收并蓄选择合适的策略性能评估：效率至上弥合评估差距训练瓶颈多保真度评估：减少训练，提升学习效果单次架构搜索：一次训练，多次评估学习曲线外推零成本代理模型：即时架构评估代理模型：学习预测性能结合多种方法以实现最高效率高效非线性优化（NAS）：实现实用化效率革命构建生产就绪的NAS系统权重共享：高效NAS的基础一次性网络：解耦训练与部署渐进式搜索策略硬件感知优化适用于 NAS 发现架构的生产部署工具用于快速过滤的零成本代理实用实现指南实际应用与工具现实世界中的 NAS：集成与部署AutoKeras：简单至上NNI：企业级 NASRay Tune + Optuna：灵活且强大行业成功案例从笔记本到生产环境：下一步行动摘要
第三章适用于不同数据类型的AutoML
7. 适用于表格数据的 AutoGluon
配置 AutoGluon 及运行环境安装选项平台特定说明设置开发环境性能考量Cloud环境建议为表格数据选择合适的AutoML框架TabularPredictor 基础加载和探索数据基本模型训练理解 TabularPredictor 的输出不同的预测方法二分类与多分类二元分类详解多分类回归任务回归与分类的区别解读回归性能自定义基本行为AutoGluon 的自动数据处理自动特征类型检测缺失值的处理分类编码高级自定义自定义超参数高级集成配置特征工程控制训练过程优化模型可解释性与调试可解释性工具特殊数据场景的处理何时使用高级自定义项目：泰坦尼克号生还率预测项目概述与业务背景数据探索与理解AutoGluon 基准模型针对泰坦尼克号的自定义特征工程泰坦尼克号模型解释性能评估与比较模型部署准备项目总结与业务影响本项目的扩展数据管道的一致性生产环境中模型的监控与维护监控实践AutoGluon 的监控工具总结
8. 文本与自然语言处理的 AutoML
AutoGluon 的 MultiModalPredictor 用于文本处理为何选择 MultiModalPredictor？底层模型架构实际应用表现构建文本分类模型您的首个文本分类模型理解模型选择超参数优化指南高级文本处理能力超越分类：高级自然语言处理任务Transformer 革命及其未来领域特定考量针对不同用例的模型选择追求最高准确率的应用平衡型应用高吞吐量应用实际应用与性能行业案例研究性能洞察生产部署注意事项针对部署场景的模型选择托管服务与自定义模型使用 SageMaker 部署自定义模型监控与维护性能与运维监控数据漂移检测重新训练与持续改进实践项目：新闻文章分类总结
9. 基于 AutoGluon 的时间序列预测
理解时间序列的挑战TimeSeriesPredictor入门指南基础模型与零样本预测Chronos-Bolt 架构零样本预测的实际影响处理复杂的多序列场景高级功能：协变量回归器协变量回归模型的实现协变量集成对业务的影响模型选择与超参数优化模型库预设配置自定义超参数配置评估与验证策略回测与时间感知验证业务相关指标生产部署与Cloud集成AWS 部署选项模型更新与监控实践项目：零售需求预测数据预处理与探索利用高级功能进行模型训练业务影响分析未来方向与新兴功能总结
10. 基于 AutoGluon 的计算机视觉
了解 AutoGluon 的计算机视觉能力自定义模型与托管服务之间的选择使用 SageMaker Ground Truth 构建训练数据集MultiModalPredictor 的优势基础模型集成现代计算机视觉架构任务类别与应用配置 AutoGluon 用于计算机视觉安装与环境配置硬件考量验证与基本配置使用 MultiModalPredictor 进行图像分类您的第一个图像分类模型了解数据格式与预处理模型架构选择与预设高级分类技术基于 AutoGluon 的目标检测理解目标检测基础目标检测设置增强的物体检测能力高级目标检测应用多模态计算机视觉应用图像与表格数据的结合图像与文本的集成真实世界计算机视觉项目：电子商务产品自动分类项目：电子商务产品自动分类数据准备与探索构建多模态分类系统性能分析与模型可解释性与电子商务系统的集成性能优化与最佳实践硬件优化策略模型监控与维护生产部署注意事项模型版本控制与更新SageMaker 端点部署SageMaker 无服务器推理：实现经济高效的部署AWS Panorama 用于边缘部署可扩展批处理服务总结
第四章生产环境与MLOps
11. 与 MLOps 工具的工作流集成
了解 AutoML 与 MLOps 的集成现状规模扩展的挑战可重复性至关重要实验追踪与模型管理分层实验组织构建产物管理策略使用 Kubeflow 进行工作流编排设计支持 AutoML 的管道资源管理与优化生产环境部署模式自动化验证与质量保证动态交付基础设施运维监控与维护监控与治理AutoML 特定的监控要求治理与合规框架集成挑战与解决方案构建产物激增的挑战确保自动化系统的可重现性连接技术领域与业务领域最佳实践与实施指南构建渐进式能力对齐与预期管理风险管理与并行系统可观测性作为基础组织学习与适应总结
12. 基于 Apache Airflow 的数据管道自动化
理解 AutoML 的数据管道要求机器学习工作流的 Airflow 架构核心组件Airflow 关键术语为 AutoML 数据摄取设计 DAG实践案例：完整的 AutoML 数据摄取 DAGDAG 的初始化和配置理解补救行为用于并行处理的动态任务映射特征工程管道与特征存储库处理延迟到达的数据数据契约与模式演进监控与数据质量门槛企业级 AutoML 的 Airflow 扩展运营卓越与最佳实践总结
13. AutoML 的部署与持续交付
AutoML部署面临的独特挑战机器学习的持续集成影子部署验证持续部署管道自动化模型的测试策略合约测试基于属性的测试变形测试对抗性测试模型打包与容器化实践案例：部署成人收入预测模型模型服务基础设施生产环境中的监控与可观测性Prometheus–Grafana 监控栈使用 Evidently 进行漂移检测安全与合规性考量输入净化与拒绝服务（DoS）防护对抗性攻击防御持续学习与反馈循环总结
V. 案例研究
14. 案例研究 1：金融服务——GlobalBank 的实时欺诈检测
业务问题与背景成功标准数据管道与预处理数据管道架构生产数据管道的注意事项特征工程1. 时间特征：欺诈行为具有规律性2. 速度特征：欺诈行为动作迅速3. 行为偏差：识别异常行为4. 商户风险评分5. 设备可信度特征影响总结使用 AutoGluon 进行模型开发成本敏感学习的样本权重AutoGluon 配置为何选择 PR-AUC 而不是 ROC-AUC？模型训练结果模型评估与可解释性寻找最优阈值基于SHAP的模型可解释性部署架构FastAPI 推理服务优雅降级策略监控与维护基于PSI的漂移检测自动化重新训练管道模型更新的 A/B 测试成果与经验教训性能指标业务影响关键经验合理的分工总结
15. 案例研究 2：零售业——全渠道需求预测
业务问题与背景规模化挑战警钟项目目标数据挑战：多源数据集成销售点数据电子商务数据库存数据营销与促销数据天气数据外部信号数据管道架构关键数据决策特征工程：捕捉需求驱动因素与业务对齐的指标时间特征（基线）全渠道行为特征（高影响力）天气驱动的需求（品类特定）促销特征（复杂交互）事件驱动型需求SKU特定属性模型开发：AutoGluon 用于大规模时间序列分析自动机器学习方法为何选择表格式 AutoML 处理时间序列？训练策略：基于时间的分割多期预测AutoGluon 配置关键配置决策处理数据稀疏性（长尾 SKU）训练基础设施评估：优先业务指标而非模型指标模型性能（按预测时限划分的 MAPE）加权平均 MAPE（与业务对齐）业务影响指标按类别划分的表现促销预测准确度预测偏差分析部署：生产环境预测管道销售管道架构技术栈预测交付监控：确保预测准确漂移检测业务成果与经验教训量化业务影响（上线后12个月）意外收益关键成功因素我们下次会采取的不同做法对您需求预测项目的启示AutoML在需求预测中的优势总结
16. 案例研究 3：医疗保健——患者再入院预测
业务挑战最棘手的限制：公平性现状项目目标数据挑战与HIPAA合规数据源与集成缺失数据模式数据质量问题特征工程：结构化与非结构化数据类别 1：人口统计学和社会决定因素（42 个特征）类别 2：临床复杂性与合并症（68 个特征）类别 3：就诊历史（53 个特征）类别 4：本次就诊特征（87 个特征）类别 5：临床记录嵌入（64 个特征）类别 6：时间与交互特征（33 个特征）模型开发：关注公平性的自动机器学习公平性挑战公平性指标定义基线模型：标准AutoGluon（无公平性约束）方法 1：移除受保护属性方法 2：对抗去偏见方法 3（最终方案）：带重新加权的公平感知集成模型最终模型配置评估：性能与公平性指标模型性能（总体）按种族划分的公平性指标按年龄组划分的公平性特征重要性（按SHAP排序的前20名）业务指标部署：临床工作流集成实时预测架构电子健康记录集成（Epic）临床决策支持警报护理管理工作流临床医生培训与变革管理临床医生的可解释性监管考量监控：模型漂移与公平性三层监测策略再培训计划业务成果与经验教训临床结果实践中的公平性意想不到的益处关键成功因素我们今后将采取的不同做法对您再入院项目的启示AutoML在医疗领域的卓越表现生产级AutoML蓝图：全面整合生产级 AutoML 的通用模式生产就绪检查清单结语摘要
后记：悄然发生的 AutoML 革命
兑现最初的承诺我们构建的基础基础模型的颠覆从自动化到自主化代理式AutoML的真实面貌新的技能缺口为何你所学的一切依然重要无人解答的治理难题前路何方结语
索引
关于作者

Content preview from 学习 AutoML (Chinese Edition)

托马斯·H·达文波特序言

自动机器学习是一个难以撰写的课题。从宏观层面来看，这个概念相对容易理解——“如果计算机能自动构建一个能很好拟合我的数据并做出精准预测的统计模型，那该多好啊？”——但若要从组织和技术两个角度进行详细探讨，却颇具难度。事实上，大多数AutoML专家都拥有深厚的技术背景和倾向，却往往无法真正探讨其组织和经济层面的影响。

本书的独特之处在于，它巧妙地兼顾了这两个视角。作者凯雷姆·托马克（Kerem Tomak）是一位拥有深厚数据科学背景的高级商业高管，他成功地架起了AutoML这两个不同领域的桥梁。尽管如此，我建议您根据自身的专业背景和对该主题的理解，参考他的建议来选择本书中适合阅读的章节。

尽管该主题涉及需要衔接的两个领域，但此刻正是撰写和阅读AutoML相关书籍的激动人心的时刻。专业数据科学家们曾因认为自己能“手动”构建出更优秀的模型而对AutoML持怀疑态度，如今却已开始拥抱这项技术——特别是在模型探索的早期阶段。

在非专业人士中，也出现了一系列令人振奋的新技术进展。一些AutoML程序原本就通过点选式界面和与商业智能程序的集成，让业余爱好者也能轻松上手。但如今，生成式AI不仅催生了“直觉编程”，更催生了“直觉数据科学”。正如托马克在书中指出的，利用语言模型prompt来创建机器学习模型，只是推动数据科学和机器学习进一步普及的漫长技术发展历程中的最新一步。如今，非技术用户只需向语言模型发出简短prompt、上传数据集，便能迅速获得不仅符合数据的预测模型，还包括特征工程处理、缺失值的最佳处理方案、多种算法的探索，甚至还有几页关于管理者如何利用模型结果以实现最大效益的指导。

本书并未过多关注基于生成式人工智能的机器学习，因为该技术尚处于早期阶段，且prompt的细微差异便可能导致截然不同的结果。不过，托马克在书中多处探讨了这一重要议题：业余爱好者何时适合进行数据科学工作，何时又必须由专业人士来处理。虽然他在AutoML项目中重点探讨的技术比生成式AI的prompt稍难掌握，但这些技术不仅比以往的机器学习程序更精准，而且使用起来也简单得多。

你还应注意，本书探讨的是基于机器学习的更传统类型的人工智能。从技术角度讲，生成式人工智能确实属于机器学习的一种形式。但本书关注的是我称之为“分析型人工智能”的领域——即开发利用结构化数值数据来预测其他数值数据的机器学习模型。这种类型的人工智能出现的时间远早于生成式人工智能。如果您拿起了这本书，想必已经知道这一领域虽然在大众中知名度不高，但依然颇具人气且至关重要。事实上，我最近的研究表明，当今大多数组织从分析型人工智能中获得的经济价值往往高于生成式人工智能。而当组织利用AutoML来创建和管理机器学习模型时，分析型人工智能的价值将成倍增长。况且，关于生成式人工智能的书籍已不胜枚举。

因此，我希望您能阅读此书，进而借助AutoML加速并普及您个人及所在组织对机器学习的应用。您还能随着时间的推移有效管理生成的模型，确保它们始终能准确预测您期望的结果。在该领域，没有比Kerem Tomak更出色的指南了，他汇集了您成为AutoML专家所需的所有知识。

托马斯·H·达文波特

巴布森学院杰出教授、麻省理工学院数字经济计划研究员

《全情投入AI》、《与AI共舞》、《代理AI》

及《数据分析制胜》的作者或合著者

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 0642572369361

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

学习 AutoML (Chinese Edition)

by Kerem Tomak

托马斯·H·达文波特序言

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.