Skip to Content
金融领域的机器学习与数据科学蓝图
book

金融领域的机器学习与数据科学蓝图

by Hariom Tatsat, Sahil Puri, Brad Lookabaugh
May 2025
Intermediate to advanced
432 pages
5h 28m
Chinese
O'Reilly Media, Inc.
Content preview from 金融领域的机器学习与数据科学蓝图

第 8 章 无监督学习 无监督学习:聚类

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com

在上一章中,我们探讨了降维,这是无监督学习的一种类型。在本章中,我们将探讨聚类,这是一种无监督学习技术,它能让我们发现数据中的隐藏结构。

聚类和降维都是对数据的总结。降维通过使用新的、更少的特征来表示数据,从而压缩数据,但仍能捕捉到最相关的信息。同样,聚类也是一种减少数据量和寻找模式的方法。不过,它是通过对原始数据进行分类而不是创建新变量来实现的。聚类算法将观察结果分配给由相似数据点组成的子组。聚类的目的是找到数据的自然分组,从而使给定聚类中的项目之间比不同聚类中的项目更加相似。聚类的作用是通过所创建的几个类别或组别来更好地理解数据。它还允许根据所学标准对新对象进行自动分类。

在金融领域,交易员和投资经理一直使用聚类分析来根据相似的特征找到同质的资产、类别、行业和国家组。聚类分析通过提供对交易信号类别的洞察力来增强交易策略。该技术还被用于将客户或投资者划分为若干组,以便更好地了解他们的行为并进行更多分析。

在本章中,我们将讨论基本的聚类技术,并介绍投资组合管理和交易策略开发领域的三个案例研究。

"案例研究 1:配对交易的聚类 "中,我们使用聚类方法为一种交易策略选择配对股票。配对交易策略是指在两个密切相关的金融工具中匹配一个多头头寸和一个空头头寸。当交易工具数量较多时,寻找合适的交易对是一项挑战。在本案例研究中,我们将展示聚类是如何在交易策略开发和其他类似情况下发挥作用的。

"案例研究 2:投资组合管理:在 "案例研究 2:投资组合管理:投资者聚类"中,我们确定了具有相似能力和承担风险意愿的投资者聚类。我们展示了如何利用聚类技术进行有效的资产分配和投资组合再平衡。这说明了投资组合管理流程的一部分是如何实现自动化的,这对投资经理和机器人顾问都非常有用。

"案例研究 3:分层风险平价 "中,我们使用基于聚类的算法将资本分配到不同的资产类别,并将结果与其他投资组合分配技术进行比较。

本章代码库

基于 Python 的聚类主模板以及本章介绍的案例研究的 Jupyter 笔记本在第 8 章 - Unsup.学习 - 聚类》中。要在 Python 中解决任何涉及本章介绍的聚类模型(如k-均值、层次聚类等)的机器学习问题,读者只需根据自己的问题陈述修改模板即可。与前几章类似,本章介绍的案例研究使用标准 Python 主模板,并采用第 2 章介绍的标准化模型开发步骤。对于聚类案例研究,步骤 6(模型调整和网格搜索)和步骤 7(最终确定模型)已与步骤 5(评估算法和模型)合并。

聚类技术

聚类技术有多种类型,它们在识别分组的策略上各不相同。选择使用哪种技术取决于数据的性质和结构。本章将介绍以下三种聚类技术:

  • k 均值聚类

  • 分层聚类

  • 亲和传播聚类

下一节总结了这些聚类技术,包括它们的优缺点。案例研究中提供了每种聚类方法的更多细节。

k 均值聚类

k-means 是最著名的聚类技术。k-means 算法的目的是找到数据点,并将它们归入相似度较高的类别。这种相似性与数据点之间的距离正好相反。数据点越接近,就越有可能属于同一个聚类。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

构建数据集成解决方案

构建数据集成解决方案

Jay Borthen
AWS认证数据工程师助理考试指南

AWS认证数据工程师助理考试指南

Sakti Mishra, Dylan Qu, Anusha Challa
可靠的机器学习

可靠的机器学习

Cathy Chen, Niall Richard Murphy, Kranti Parisa, D. Sculley, Todd Underwood

Publisher Resources

ISBN: 9798341658875