第 1 章. 数据如何驱动机器学习决策
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
本章探讨了数据在企业中的作用及其对业务决策的影响。您还将了解机器学习 (ML) 工作流程的组成部分。您可能已经看到许多书籍、文章、视频和博客在讨论 ML 工作流程时都以收集数据为开端。但是,在收集数据之前,您需要了解要收集什么样的数据。只有知道您需要解决什么样的问题或做出什么样的决策,才能实现这种 数据理解。
然后,可以利用业务案例/问题定义和数据理解来制定无代码或低代码 ML 战略。无代码或低代码 ML 项目战略方法有几个优点/好处。如导言中所述,无代码 AutoML 方法可让任何具备专业领域知识且没有编码经验的人快速开发 ML 模型,而无需编写一行代码。这是开发 ML 应用程序的一种快速高效的方法。低代码方法使那些具有一定编码经验或深厚编码经验的人能够快速开发 ML 应用程序,因为基本代码是自动生成的,而且可以添加任何额外的自定义代码。但是,任何 ML 项目都必须从定义目标、用例或问题开始。
目标或用例是什么?
企业、教育机构、政府机构和从业人员面临着许多反映 ML 实际应用案例的决策。例如
-
如何提高患者对糖尿病网络应用的参与度?
-
如何提高学生对课程调查的反馈率?
-
如何提高检测针对公司网络的网络攻击的速度?
-
我们能否减少进入电子邮件服务器的垃圾邮件数量?
-
如何减少制造生产线的停机时间?
-
如何提高客户保留率?
-
如何降低客户流失率?
在上述每个示例中,都必须检查大量数据源,以确定哪种 ML 解决方案最适合解决问题或帮助决策。让我们用一个非常简单的例子来说明降低客户流失率或损失率的用例。流失预测是指识别最有可能离开您的服务或产品的客户。这个问题属于监督学习的分类问题,有两个类别:"流失-是 "类和 "流失-否 "类。
从数据源的角度来看,您可能需要检查客户档案信息(姓名、地址、年龄、职称、就业声明)、购买信息(购买和账单历史)、互动信息(客户与您的产品(数字和实体)的互动体验)、您的客户服务团队或数字支持服务。客户信息的常用数据源包括客户关系管理系统、系统电子商务分析服务和客户反馈。从本质上讲,客户 "接触 "的一切数据点都应作为数据源加以跟踪和捕捉。
您必须做出的决策的性质与您为做出该决策而需要收集的数据直接相关--这些数据需要写成一份问题陈述。假设你在一家生产雨伞的公司负责市场营销,业务目标是提高销售额。如果降低现有雨伞的售价,你能预测会卖出多少把雨伞吗?图 1-1显示了该选项需要考虑的数据元素。
图 1-1. 影响降价策略以提高销售额的数据元素。
从这个数据驱动的商业图例中,您可以看到,您的商业目标(提高销售额)有了一个新的维度。您现在意识到,要理解产品降价,除了售价之外,还需要其他数据维度。您需要了解特定地区的雨季、人口密度,以及您的库存是否足以满足降价需求,从而提高销售额 。您还需要查看历史数据和实时数据。历史数据通常被称为 批量数据,而实时数据采集通常被称为流数据。有了这些额外的维度,业务目标突然变成了一个非常复杂的问题,因为可能需要这些额外的列。对于任何组织而言,表面上可能存在数十个离散的数据源,而每个数据源都需要一定的技能来理解它们之间的关系。