格雷戈里·惠勒 序言
自动化机器学习以各种形式存在已逾十年。算法已臻成熟,框架功能强大,Cloud平台更是为争夺业务展开激烈竞争。然而,大多数组织仍难以将笔记本电脑上那个前景可期的模型,转化为临床医生、监管机构或金融分析师能够信赖的系统。弥合验证分数与赢得信任之间的鸿沟,正是本书的核心目标。这本该早些问世。
这一鸿沟之所以长期存在,是因为生产环境中的机器学习并非建模问题的“升级版”,而是完全不同的问题。笔记本电脑上的模型解决的是统计学问题。 而投入生产的模型则需向利益相关者、监管机构,以及其影响到的患者或客户负责。它必须接受漂移监测、公平性审计,向那些从未听说过梯度提升(gradient boosting)且对此不感兴趣的人进行解释,并由非开发团队进行维护。这些工作无一涉及算法层面。严格来说,其中大部分甚至不属于技术范畴。然而迄今为止,自动机器学习(AutoML)领域的文献几乎完全将其视为技术问题来撰写。
Kerem Tomak 为这一领域带来了罕见的综合经验。他不仅构建过生产系统,在自家公司利用 AutoML 开发过产品,还曾与分析及人工智能领域的领军人物合作,并将这些概念传授给从数据科学研究生到技术负责人乃至高管层的各类受众。他以一位长期深耕棘手问题的人士身份撰写本书,深知哪些问题至关重要、哪些可以舍弃,更重要的是,哪些问题往往被教科书所忽视。 本书由此形成了一套完整的体系:从原始数据开始,经超参数优化与神经网络架构搜索,进而延伸至Airflow DAG、Kubeflow管道、机器学习持续集成与持续交付(CI/CD),直至生产环境中的监控与漂移检测。凯雷姆深知,将模型投入生产并非故事的终点,而仅仅是新的开始。
书末的三个案例研究将所有内容融会贯通。一家银行在百毫秒延迟限制下处理每日五千万笔交易;一家零售商需预测数百家门店和数万种SKU的需求;一个医院系统在遵守HIPAA合规要求的同时,需预测患者再入院率并确保算法在不同人口统计群体间的公平性。这些绝非简单的示例,而是能够检验你是否已足够深入地理解AutoML,从而能够负责任地部署它的关键问题。
医疗保健案例研究尤其值得关注。Tomak 带领读者逐步探索了三种消除偏见的方法——移除受保护属性、对抗性去偏见,以及最终采用具有事后校准功能的公平感知集成模型——并具体展示了为何那些简单粗暴的解决方案会失败。书中清晰且实用地论证了:即使从特征集移除种族属性,也无法防止通过邮政编码和保险类型产生的代理歧视,这一论证将令你印象深刻。 在受监管的行业中,知晓代理歧视存在与掌握如何在生产管道中检测并缓解它之间的差距,正是学术论文与实际部署系统之间的本质区别。
无论您是希望深化实施技能的数据科学家、正在构建首个数据管道的领域专家,还是负责将 AutoML 投入生产的工程师,您都将在此找到一份既尊重问题难度又尊重读者智慧的指南。我很高兴 Kerem 撰写了这本书,也很高兴您即将阅读它。
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access