第 3 章 机器学习库和框架 机器学习库和框架
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
本章介绍可简化 ML 模型开发的机器学习 (ML) 框架。通常情况下,您需要了解数学、统计学和 ML 的基本工作原理,才能构建和训练 ML 管道。这些框架可以自动完成许多耗时的 ML 工作流程任务,如特征选择、算法选择、代码编写、管道开发、性能调优和模型部署。
无代码 AutoML
想象一下,你是一家公用事业公司的业务分析师。有一个项目要求你帮助公司开发针对高电能消耗社区的营销和推广计划。数据采用逗号分隔值(CSV) 文件格式。
您没有 ML 背景,也没有任何编程知识,但团队领导让您承担这个项目,因为您对 ML 以及如何在组织中应用 ML 表达了兴趣。虽然您没有编码经验,但您所做的少量研究得出了一些看法:
-
对于像您这样的非代码编写者,有一些带有图形用户界面(GUI)的自动化无代码ML 框架,您可以使用它来构建和训练 ML 模型,而无需编写一行代码。
-
对于轻量级程序员来说,有低代码ML 框架,只需编写少量代码就能构建和训练 ML 模型。
-
对于经验丰富的编码员来说,有一些 ML 库可以灵活控制 ML 工作流程每个阶段的编码。
根据公用事业营销推广项目和用例中的数据,您确定目标是根据多个变量预测总千瓦时 (kWh):邮编、月份、年份和客户类别(住宅、商业、工业和农业)。
假设您需要快速获得基线预测。这是 AutoML 的一个绝佳用例。基于图形用户界面的 AutoML 框架最容易使用。图 3-1显示了典型的 AutoML 无代码工作流程的高级概览,您可以将其用于您的业务用例。本示例使用Google 的Vertex AI,这是一个帮助您构建、部署和扩展 ML 模型的 ML 平台。总的来说,Google AutoML、Microsoft Azure AutoML 和 AWSSageMaker AutoML 都是功能强大的 AutoML 解决方案,可以帮助您在不编写任何代码的情况下构建和部署 ML 模型。最适合您的解决方案取决于您的具体需求和要求。
图 3-1. 典型的 Vertex AI AutoML 无代码工作流程。
由于文件格式是 CSV,因此您选择了表格选项卡。鉴于总千瓦时是输出,也是您要预测的数值,您注意到这是一个回归任务--由于您有多个变量的列名(或标签),所以这是一个有监督的ML 问题。没有标签的数据需要无监督 ML 任务,如聚类。图 3-2显示选择回归/分类作为目标。
备注
Vertex AI 可让您为表格数据创建以下模型类型:
- 二元分类模型
- 这些模型预测二元结果(两类中的一类)。这种类型适用于 "是 "或 "否 "的问题。
- 多类分类模型
- 这些模型从三个或更多离散类别中预测一个类别。使用这种类型进行分类。
- 回归模型
- 这些模型预测的是连续值。使用这种类型来预测销售额。
- 预测模型
- 这些模型预测一系列数值。使用这种类型来预测每日需求。