第 5 章. 使用 AutoML 检测欺诈交易
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
在本章中,您将建立一个 Vertex AI AutoML 模型来预测金融交易是否存在欺诈行为。您将在 Google Colab 笔记本环境中清理和探索数据集,然后再像第 3 章那样在 Vertex AI 上创建托管数据集。创建受管数据集后,您将使用 AutoML 创建分类模型,以预测交易是否具有欺诈性。本章将讨论分类模型的一般情况以及通常用于评估分类模型的相应指标。
本章的整体工作流程与第 4 章中预测广告媒体渠道销售问题的工作流程非常相似。因此,在本章的许多地方,你会看到更简洁的细节,其中的对话也非常相似。如果你在这些章节中遇到困难,请参阅第 4 章了解更多细节。
业务用例:金融交易欺诈检测
如前所述,您在本章中的任务是建立一个模型来预测金融交易是欺诈还是合法。你的新公司是一家为数十万用户提供服务的移动支付服务公司。欺诈交易相当罕见,通常会被其他保护措施发现。但不幸的是,其中一些交易漏网,对用户造成了负面影响。贵公司可以在事后纠正这些问题,但担心客户会因为不得不报告这些交易而流失。我们的目标是利用机器学习 (ML) 建立一个定制模型,从而改进贵公司正在使用的欺诈检测软件。
一个复杂的因素是,相应的数据集将非常不平衡。绝大多数交易都将是合法交易,因此预测所有交易都是合法交易的简单模型将同样准确而无用。在此过程中,您需要利用其他指标来更好地了解模型的性能。
通常,这项任务会交给数据科学家来创建某种高级模型(如自动编码器),但您的任务是快速创建一个基准模型,用于欺诈检测系统其他部分的原型。这看似是一项毫无希望的任务,但请记住,在上一个项目中,您使用 AutoML 快速创建了一个用于媒体渠道销售预测的原型。因此,您应该有信心迎接挑战!
项目工作流程
本章的项目工作流程(如图 5-1 所示)与前一章类似。因此,为避免重复,本章将省略一些流程细节,但您也可以根据需要参考前一章的内容。
图 5-1. 欺诈检测项目的整体工作流程。
在了解了业务用例和目标之后,您就可以像之前的项目一样进行数据提取和分析了。完成数据提取和分析步骤后,您将把数据集上传到 AutoML 平台。各种功能(即将引入)将被输入到模型中。您将评估 AutoML 的结果,然后部署模型进行预测。这项工作完成后,您将获得基准模型,供工程团队开始开发更好的欺诈检测管道。谁知道呢,这个模型可能真的会投入生产。
项目数据集
项目数据集包括模拟用户行为和欺诈交易的交易数据。这项工作是通过PaySim 完成的。PaySim是由一群研究人员开发的开源工具,他们当时正在研究用于大数据分析的可扩展资源节约型系统。1
由于金融交易数据很难在不暴露用户信息的情况下使用,贵公司决定使用这种模拟数据。贵公司的数据分析师已经确认,所共享的数据集在分布上确实与贵公司在其应用程序中看到的实际数据相似,因此您可以假设这些数据代表了贵公司希望在预测时利用的真实世界数据。
该数据集已以 CSV 文件的形式提供给 Google Cloud Storage(下载地址:https://oreil.ly/n1y1X)。在您的数据集中有 10 列。表 5-1列出了列名、数据类型以及这些列可能取值的一些信息。 ...