Skip to Content
金融中的机器学习
book

金融中的机器学习

by Posts & Telecom Press, Jannes Klaas
May 2024
Intermediate to advanced
408 pages
6h 8m
Chinese
Packt Publishing
Content preview from 金融中的机器学习

第2章 机器学习在结构化数据中的应用

结构化数据是一个专业术语,它用于描述位于记录和文件(例如关系型数据库和电子表格)中固定域中的任何数据。一般来说,结构化数据都是以表格形式来展现的;其中,每列表示一类值,每行表示一个实体记录。数据的结构化格式意味着它们适合经典的统计分析,这也是大部分数据科学和数据分析的工作都是基于结构化数据而开展的原因。

在日常生活中,结构化数据是商业中常见的数据类型,并且大部分金融领域中需要用机器学习解决的问题都是以某种方式来处理结构化的数据。任何现代化公司日常运营的基础都建立在结构化数据之上,包括交易、订货簿、期权价格、供应商等。这些都是信息以电子表格和数据库形式被收集存储的具体实例。

本章将陪你研究在信用卡诈骗中结构化数据所面临的问题。在这个问题中,我们将使用特征工程方法来从数据集中成功识别诈骗交易。我们将介绍端到端(End-to-End,E2E)方法的基本内容,进而来解决常见的金融问题。

诈骗是所有金融机构都需要去面对的不幸的事实,这也是一场发生在想保护自己金融系统的公司和想试打败保护系统的诈骗者之间的持续性竞赛。长时间以来,诈骗检测都依赖于简单的启发式算法。例如,一个大额交易发生在你不常住的区域,这个交易很可能被关注和标记。

随着诈骗者持续地理解和避开这些规则,信用卡提供商也在持续地部署日益复杂的机器学习系统来抵御诈骗者。

在本章中,我们将看到真实的银行是如何解决欺诈问题的。这是对现实世界的探索:数据科学家团队从一个启发式基线开始,逐步加深对特征的理解,然后由此构建一个日益复杂的机器学习模型来检测诈骗。尽管我们使用的数据是人工生成的,但我们在解决诈骗问题中所使用的开发过程和工具与国际零售银行日常所用的过程和工具非常相似。

那么,我们从哪开始呢?引用一位我曾经交流过的匿名的诈骗检测专家的话,“我一直思考如何能从我的雇员那里盗窃成功。我构建了一些能捕获自己偷盗行为的特征。既然想要抓住诈骗者,那么就要像诈骗者一样思考。”即使那些最聪明的特征工程师也并不能发现所有细微的、甚至反直觉的诈骗信号,这也是产业全部逐步转向到E2E训练系统的背后原因。这些系统和机器学习都是本章的关注点。在本章中,我们将会探索几种常用的方法来标识诈骗行为。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

Spark机器学习实战

Spark机器学习实战

Posts & Telecom Press, Siamak Amirghodsi, Meenakshi Rajendran, Broderick Hall, Shuen Mei
Python计算机视觉和自然语言处理

Python计算机视觉和自然语言处理

Posts & Telecom Press, Álvaro Morena Alberolaï, Gonzalo Molina Gallegoï, Unai Garay Maestreï
写给系统管理员的Python脚本编程指南

写给系统管理员的Python脚本编程指南

Posts & Telecom Press, Ganesh Sanjiv Naik

Publisher Resources

ISBN: 9781836203452