第 5 章. 开发生产模型
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
开发 ML 模型不再局限于实验室实验和研究论文。它关系到现实世界的应用,也就是生产。这就是为什么建立高性能模型是开发生产模型的核心所在。
生产第一的思维模式可以确保模型真正投入生产并回答实际业务案例。否则,由于团队之间缺乏协作、技术差异或其他类型的摩擦,模型会在整个 ML 管道中被卡住。
本章重点介绍如何构建最佳模型。它详细介绍了在生产之前在整个 ML 管道中实施和运行模型的所有步骤和流程。这包括大规模运行、跟踪和比较 ML 作业、自动化、训练和 ML;测试;资源管理等等。它详细介绍了各种方法论、工具和途径,并附有可供参考的代码示例。
在按照本章结尾的步骤进行操作和尝试练习时,请注意整个 MLOps 流程,以及如何将您的工作与您或其他团队成员正在采取的其他步骤整合在一起并实现自动化。在采取这些步骤时,要牢记 "生产第一 "的原则,这样才能确保 ML 模型的可靠性、稳定性和性能。
AutoML
建立最佳 ML 模型是一个依靠数据科学经验和直觉的迭代过程。数据科学家会尝试各种策略,如从数据中创建新特征、选择合适的算法以及选择最佳模型参数,以获得最佳预测模型。
自动机器学习(或 AutoML)试图从数据和模型目标中自动推断出可能的处理任务和实验,这些任务和实验应按顺序进行测试和运行,直到获得最佳模型结果。AutoML 可以减少数据科学家的工作量,让经验不足的人也能快速高效地开发出高性能的 ML 模型。不过,这可能会导致使用更多的计算资源。
AutoML 平台和工具旨在通过自动化重复而复杂的任务,简化构建 ML 模型的流程。
AutoML 的主要组件包括
- 数据预处理
-
数据清理、缺失值归因、分类变量编码和特征缩放等任务,为数据建模做好准备。
- 功能工程
-
自动 生成和选择相关特征或特征变换,以提高模型性能。
- 机型选择
-
针对给定的数据集和问题,探索和选择合适的算法或模型。这可能包括尝试各种类型的模型(如决策树、神经网络或 SVM)并评估其性能。
- 超参数调整
-
为模型选择最佳超参数。这可能涉及网格搜索、随机搜索、贝叶斯优化或其他优化算法等技术。
- 组合方法
-
结合多个模型的预测结果,提高整体性能。
- 模型评估
-
使用准确率、精确度、召回率、F1 分数等指标,帮助用户评估模型的有效性。
- 管道建设
-
构建从数据预处理到模型部署的端到端流水线 ,使用户能够生成生产就绪的工作流。
- 可解释性和可说明性
-
为模型预测提供解释,帮助用户理解和解释模型是如何做出决定的。
DataRobot 公司成立于 2012 年,是 AutoML 领域的先驱之一。2017/2018 年,其他公司接踵而至:拥有无人驾驶人工智能平台的 H2O 和拥有Cloud AutoML 等技术的谷歌。随后很快扩展到其他云提供商:Azure Machine Learning Studio AutoML;SageMakerAutopilot;以及Auto-sklearn、Auto-Keras、基于树的管道优化工具(TPOT)、MLBox、AutoGluon、AutoWEKA 和Ludwig 等一系列开源项目。
AutoML 的一些优点包括
- 效率
-
自动执行特征选择和超参数调整等重复性任务。
- 无障碍环境
-
友好的用户界面使非专家也能使用机器学习。
- 成本效益
-
减少对专业人才的需求,使成本更低。
- 提高准确性
-
得益于先进的自动模型调整算法。
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access