第2章 机器学习在结构化数据中的应用
结构化数据是一个专业术语,它用于描述位于记录和文件(例如关系型数据库和电子表格)中固定域中的任何数据。一般来说,结构化数据都是以表格形式来展现的;其中,每列表示一类值,每行表示一个实体记录。数据的结构化格式意味着它们适合经典的统计分析,这也是大部分数据科学和数据分析的工作都是基于结构化数据而开展的原因。
在日常生活中,结构化数据是商业中常见的数据类型,并且大部分金融领域中需要用机器学习解决的问题都是以某种方式来处理结构化的数据。任何现代化公司日常运营的基础都建立在结构化数据之上,包括交易、订货簿、期权价格、供应商等。这些都是信息以电子表格和数据库形式被收集存储的具体实例。
本章将陪你研究在信用卡诈骗中结构化数据所面临的问题。在这个问题中,我们将使用特征工程方法来从数据集中成功识别诈骗交易。我们将介绍端到端(End-to-End,E2E)方法的基本内容,进而来解决常见的金融问题。
诈骗是所有金融机构都需要去面对的不幸的事实,这也是一场发生在想保护自己金融系统的公司和想试打败保护系统的诈骗者之间的持续性竞赛。长时间以来,诈骗检测都依赖于简单的启发式算法。例如,一个大额交易发生在你不常住的区域,这个交易很可能被关注和标记。
随着诈骗者持续地理解和避开这些规则,信用卡提供商也在持续地部署日益复杂的机器学习系统来抵御诈骗者。
在本章中,我们将看到真实的银行是如何解决欺诈问题的。这是对现实世界的探索:数据科学家团队从一个启发式基线开始,逐步加深对特征的理解,然后由此构建一个日益复杂的机器学习模型来检测诈骗。尽管我们使用的数据是人工生成的,但我们在解决诈骗问题中所使用的开发过程和工具与国际零售银行日常所用的过程和工具非常相似。
那么,我们从哪开始呢?引用一位我曾经交流过的匿名的诈骗检测专家的话,“我一直思考如何能从我的雇员那里盗窃成功。我构建了一些能捕获自己偷盗行为的特征。既然想要抓住诈骗者,那么就要像诈骗者一样思考。”即使那些最聪明的特征工程师也并不能发现所有细微的、甚至反直觉的诈骗信号,这也是产业全部逐步转向到E2E训练系统的背后原因。这些系统和机器学习都是本章的关注点。在本章中,我们将会探索几种常用的方法来标识诈骗行为。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access