book

金融中的机器学习

Name: 金融中的机器学习
ISBN: 9781836203452

by Posts & Telecom Press, Jannes Klaas

May 2024

Intermediate to advanced

408 pages

6h 8m

Chinese

Packt Publishing

Read now

Unlock full access

版权信息
版权
版权声明
内容提要
作者简介
审稿人简介
前言
第1章神经网络和基于梯度的优化
1.1 本书的内容概要1.2 什么是机器学习1.3 监督学习1.4 非监督学习1.5 强化学习1.5.1 极其有效的数据1.5.2 模型即是错1.6 创建工作区1.7 使用Kaggle内核本地运行Notebook文件1.8 使用AWS深度学习AMI1.9 近似函数1.10 前向传递1.11 逻辑回归器逻辑回归器的Python实现1.12 优化模型参数1.13 评估模型损失1.13.1 梯度下降1.13.2 反向传播1.13.3 参数更新1.13.4 阶段小结1.14 深度网络1.15 Keras简介1.15.1 导入Keras库1.15.2 Keras中的双层模型1.15.3 Keras和TensorFlow1.16 张量和计算图1.17 练习1.18 本章小结
第2章机器学习在结构化数据中的应用
2.1 数据2.2 启发式模型、基于特征的模型和E2E模型2.3 机器学习软件栈2.4 启发式方法2.4.1 使用启发式模型来预测2.4.2 分数2.4.3 基于混淆矩阵的评价2.5 特征工程方法2.5.1 特征源于直觉——诈骗者永不眠2.5.2 专家视角——转账后提款2.5.3 统计奇事——余额中的错误2.6 Keras库的数据准备2.6.1 one-hot编码2.6.2 实体嵌入（entity embeddings）2.7 使用Keras创建预测模型2.7.1 提取目标2.7.2 创建测试集2.7.3 创建验证集2.7.4 训练数据的过采样2.7.5 构建模型2.8 基于决策树方法的简要入门2.8.1 一个简单的决策树2.8.2 随机森林2.8.3 XGBoost2.9 E2E模型2.10 练习2.11 本章小结
第3章计算机视觉的应用
3.1 卷积神经网络3.1.1 过滤MNIST数据集3.1.2 第二个过滤器3.2 彩色图片的过滤技术3.3 Keras ConvNet组成模块3.3.1 Conv2D3.3.2 最大池化3.3.3 Flatten层3.3.4 Dense层3.3.5 训练MNIST3.4 神经网络的延展3.4.1 动量3.4.2 Adam优化器3.4.3 正则化（regularization）3.4.4 失效（dropout）3.4.5 批归一化（BatchNorm）3.5 采用大图片数据集3.6 采用预训练模型3.6.1 修改VGG163.6.2 随机图像增强3.7 模块度权衡3.8 计算机视觉不止分类3.8.1 人脸识别3.8.2 边框预测3.9 练习3.10 本章小结

第4章理解时间序列
4.1 数据的可视化与Pandas准备4.1.1 汇总全局特征统计4.1.2 检查采样时间序列4.1.3 不同平稳特性4.1.4 为什么平稳性重要4.1.5 让时间序列具有平稳性4.1.6 何时忽略平稳性问题4.2 快速傅里叶变换4.3 自相关4.4 构建训练和测试方案4.5 回测4.6 中位数预测4.7 ARIMA模型4.8 卡曼滤波4.9 神经网络预测数据准备4.10 Conv1D4.11 因果卷积和扩张卷积4.12 简单的RNN4.13 LSTMcarry4.14 循环dropout4.15 贝叶斯深度学习4.16 练习4.17 本章小结
第5章用自然语言处理解析文本数据
5.1 spaCy的入门指南5.2 命名实体识别微调NER5.3 词性标记5.4 基于规则的匹配5.4.1 在匹配器中添加自定义函数5.4.2 匹配器添加到pipeline中5.4.3 基于规则和学习相结合的系统5.5 正则表达式5.5.1 Python 正则表达式5.5.2 Pandas正则表达式5.5.3 何时使用正则表达式5.6 文本分类任务5.7 准备数据5.7.1 清理字符5.7.2 词形还原5.7.3 制定目标5.7.4 准备训练集和测试集5.8 词袋模型TF-IDF5.9 主题模型5.10 单词嵌入5.10.1 针对单词向量训练的预处理5.10.2 加载预先训练的单词向量5.10.3 单词向量的时间序列模型5.11 具有单词嵌入的文档相似度5.12 快速浏览Keras函数API5.13 注意力机制5.14 注意力模块5.15 seq2seq模型5.15.1 seq2seq架构概述5.15.2 数据5.15.3 字符编码5.15.4 构建推断模型5.15.5 翻译5.16 练习5.17 本章小结
第6章生成模型的应用
6.1 理解自编码器6.1.1 MNIST的自编码器6.1.2 信用卡自编码器6.2 使用t-SNE可视化隐空间6.3 变分自编码器6.3.1 MNIST实例6.3.2 使用Lambda层6.3.3 Kullback-Leibler散度6.3.4 创建自定义损失6.3.5 使用VAE生成数据6.3.6 针对端到端诈骗检测系统的VAE6.4 时间序列的VAE6.5 GAN6.5.1 MNIST GAN6.5.2 理解GAN隐向量6.5.3 GAN训练技巧6.6 使用更少的数据——主动学习6.6.1 高效使用标签预算6.6.2 采用机器来为人类打标签6.6.3 未打标签数据的伪标签6.6.4 使用生成模型6.7 用于诈骗检测的SGAN6.8 练习6.9 本章小结
第7章金融市场中的强化学习
7.1 “接水果”游戏——强化学习的快速指南7.1.1 Q-learning将强化学习变成监督学习7.1.2 定义Q-learning模型7.1.3 训练玩“接水果”游戏7.2 马尔可夫过程和贝尔曼方程——强化学习的形式化介绍经济学中的贝尔曼方程7.3 优势动作评论（A2C）模型7.3.1 学习平衡7.3.2 学习交易7.4 进化策略和基因算法7.5 强化学习工程的实用建议7.5.1 设计良好的收益函数7.5.2 强鲁棒性的强化学习7.6 强化学习技术前沿7.6.1 多代理强化学习7.6.2 学习如何去学习7.6.3 通过强化学习理解大脑7.7 练习7.8 本章小结
第8章调试和发布产品
8.1 调试数据8.1.1 如何查看数据是否胜任任务8.1.2 没有足够数据该怎么办8.1.3 单元测试数据8.1.4 保证数据隐私并遵守法规8.1.5 为训练准备数据8.1.6 了解何种输入导致何种预测8.2 调试模型8.2.1 Hyperas搜索超参8.2.2 高效的学习率搜索8.2.3 学习率调度8.2.4 TensorBoard监控训练8.2.5 梯度爆炸和消失8.3 部署8.3.1 快速上线8.3.2 理解和监控指标8.3.3 了解数据的来源8.4 性能建议8.4.1 使用合适的硬件8.4.2 使用分布式训练和TF估计器8.4.3 使用CuDNNLSTM优化层8.4.4 优化管道8.4.5 使用Cython加速代码8.4.6 缓存频繁的请求8.5 练习8.6 本章小结
第9章挑战偏见
9.1 机器学习中不公平的来源9.2 法律视角9.3 量化公平9.4 训练公平9.5 因果学习9.5.1 获得因果模型9.5.2 工具变量9.5.3 非线性因果模型9.6 解释模型来确保公平9.7 不公平则是复杂系统的失败9.7.1 复杂系统本质上是危险系统9.7.2 诸多故障引发灾难9.7.3 复杂系统以降级模式运行9.7.4 人工操作既能引发事故也能防止事故9.7.5 无事故操作要求有故障经验9.8 开发公平模型的检查清单9.8.1 模型开发人员的目标是什么9.8.2 数据存在偏见吗9.8.3 错误是否有偏见9.8.4 如何整合反馈9.8.5 模型可解释吗9.8.6 模型部署后会发生什么9.9 练习9.10 本章小结
第10章贝叶斯推理和概率编程
10.1 贝叶斯推理入门指南10.1.1 扁平先验10.1.2 < 50%先验10.1.3 先验与后验10.1.4 马尔可夫链蒙特卡罗算法10.1.5 Metropolis-Hastings MCMC10.1.6 从概率编程到深度概率编程10.2 本章小结
结束语
推荐读物

Content preview from 金融中的机器学习

第2章　机器学习在结构化数据中的应用

结构化数据是一个专业术语，它用于描述位于记录和文件（例如关系型数据库和电子表格）中固定域中的任何数据。一般来说，结构化数据都是以表格形式来展现的；其中，每列表示一类值，每行表示一个实体记录。数据的结构化格式意味着它们适合经典的统计分析，这也是大部分数据科学和数据分析的工作都是基于结构化数据而开展的原因。

在日常生活中，结构化数据是商业中常见的数据类型，并且大部分金融领域中需要用机器学习解决的问题都是以某种方式来处理结构化的数据。任何现代化公司日常运营的基础都建立在结构化数据之上，包括交易、订货簿、期权价格、供应商等。这些都是信息以电子表格和数据库形式被收集存储的具体实例。

本章将陪你研究在信用卡诈骗中结构化数据所面临的问题。在这个问题中，我们将使用特征工程方法来从数据集中成功识别诈骗交易。我们将介绍端到端（End-to-End，E2E）方法的基本内容，进而来解决常见的金融问题。

诈骗是所有金融机构都需要去面对的不幸的事实，这也是一场发生在想保护自己金融系统的公司和想试打败保护系统的诈骗者之间的持续性竞赛。长时间以来，诈骗检测都依赖于简单的启发式算法。例如，一个大额交易发生在你不常住的区域，这个交易很可能被关注和标记。

随着诈骗者持续地理解和避开这些规则，信用卡提供商也在持续地部署日益复杂的机器学习系统来抵御诈骗者。

在本章中，我们将看到真实的银行是如何解决欺诈问题的。这是对现实世界的探索：数据科学家团队从一个启发式基线开始，逐步加深对特征的理解，然后由此构建一个日益复杂的机器学习模型来检测诈骗。尽管我们使用的数据是人工生成的，但我们在解决诈骗问题中所使用的开发过程和工具与国际零售银行日常所用的过程和工具非常相似。

那么，我们从哪开始呢？引用一位我曾经交流过的匿名的诈骗检测专家的话，“我一直思考如何能从我的雇员那里盗窃成功。我构建了一些能捕获自己偷盗行为的特征。既然想要抓住诈骗者，那么就要像诈骗者一样思考。”即使那些最聪明的特征工程师也并不能发现所有细微的、甚至反直觉的诈骗信号，这也是产业全部逐步转向到E2E训练系统的背后原因。这些系统和机器学习都是本章的关注点。在本章中，我们将会探索几种常用的方法来标识诈骗行为。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9781836203452

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

金融中的机器学习

by Posts & Telecom Press, Jannes Klaas

第2章　机器学习在结构化数据中的应用

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.